2015年12月04日

画像から説明文生成の方法

このエントリーをはてなブックマークに追加
コンピュータビジョンと自然言語処理(と、deep learning)の急速な発展でそういう事が出来るようになった...と説明されています。
多くの場合 recurrent neural networks だと思います。
また、マルチモーダルな、という説明も多いです。


あと覚えておく事は、これは情報検索の課題であるとして、取り組まれているみたいだという事です。


deep captioning with multimodal recurrent neural networks(M-RNN)
Junhua Mao  University of California, Baidu Research
Wei Xu & Yi Yang & JiangWang & Zhiheng Huang  Baidu Research
Alan Yuille  University of California
ICLR 2015
obtaining sentence level descriptions for images is becoming an important task and it has many applications, such as early childhood education, image retrieval, and navigation for the blind.

They learn a joint embedding to map the features of both sentences and images to the same semantic space. These methods generate image captions by retrieving them from a sentence database. Thus, they lack the ability of generating novel sentences or describing images that contain novel combinations of objects and scenes.

新しい文を生成する能力を欠いている...
In this work, we propose a multimodal Recurrent Neural Networks (m-RNN) model 2 to address both the task of generating novel sentences descriptions for images, and the task of image and sentence retrieval.


RNNはこのような構造になってます。
語の埋め込み2層
リカレント層
マルチモーダル層
SOFTMAX層
この5層を時間幅分持つ...
ICLR2015


これがseq2seqの時のように時間の深さを持ったネットワークであり...
出力文の確率を最大化させる方向に学習すると思います。


多分これが基本形です。


Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel University of Toronto
NIPS 2014 deep learning workshop
Generating descriptions for images has long been regarded as a challenging perception task integrating vision, learning and language understanding. One not only needs to correctly recognize what appears in images but also incorporate knowledge of spatial relationships and interactions between objects.

With the recent advances made in deep neural networks, tasks such as object recognition and detection have made significant breakthroughs in only a short time.



Our proposed pipeline, while new to caption generation, has already experienced several successes in Neural Machine Translation (NMT).
We argue that it is natural to think of image caption generation as a translation problem. That is, our goal is to translate an image into a description.

つまり機械翻訳と同じように説明文生成が出来るはずである。
単語列→単語列の変換をするように、
画像→単語列に変換する。
Marcus Rohrbach, Wei Qiu, Ivan Titov, Stefan Thater, Manfred Pinkal, and Bernt Schiele.
Translating video content to natural language descriptions. In ICCV, 2013.

................
後は、seq2seqと同じように、画像―説明文の組を学習させればよい...


もう一つ重要な観点がマルチモーダルな言語的規則性というやつです。
For instance, "man" is to "woman" as "king" is to ? can be answered by finding the closest vector to "king" - "man" + "woman".


これがword2vecと同じような概念だと思います。
文は単語ベクトルの線形和として表現され、embedding modelを学習します。

これは、画像が単語ベクトルの和として表現できるという事でしょうか?
それはある種の情報圧縮ですが、しかし圧縮率が非常に高いので、元の画像を復元するなんて絶対無理です。
あくまで学習した画像についてのみ?でしょうか





他の論文何件か読んでどれもあんまり違いが無いような気がしてきたんで
違いがある研究を見ましょう





Deep Visual-Semantic Alignments for Generating Image Descriptions
Andrej Karpathy, Li Fei-Fei  Stanford University
In CVPR, 2015.
Our alignment model is based on a novel combination of Convolutional Neural Networks over image regions, bidirectional Recurrent Neural Networks over sentences, and a structured objective that aligns the two modalities through a multimodal embedding.

画像中のどこに何の物体があるのか、その物体の説明まで付与する研究ですが
3. Our Model
Overview.
The ultimate goal of our model is to generate descriptions of image regions.

During training, the input to our model is a set of images and their corresponding sentence descriptions (Figure 2). We first present a model that aligns sentence snippets to the visual regions that they describe through a multimodal embedding.

画像の説明文で各語句は画像の任意の領域に対応するが、
その領域と語句をどうやって対応付けるか?
3.1. Learning to align visual and language data

Our contribution is in the use of bidirectional recurrent neural network to compute word representations in the sentence, dispensing of the need to compute dependency trees and allowing unbounded interactions of words and their context in the sentence.

文中の単語表現を計算するために、双方向リカレントニューラルネットワーク Bidirectional Recurrent Neural Network (BRNN) を使用する
画像領域と依存関係ツリーの関係に基づいたKarpathyのアプローチを踏まえた。


それは非常に気になる方法ですが...

We first describe neural networks that map words and image regions into a common, multimodal embedding.
Then we introduce our novel objective, which learns the embedding representations so that semantically similar concepts across the two modalities occupy nearby regions of the space.

3.1.1 Representing images

Thus, we follow the method of Girshick et al. [17] to detect objects in every image with a Region Convolutional Neural Network (RCNN).


Region Convolutional Neural Network (RCNN)によって画像中で物体の位置を特定する...


3.1.2 Representing sentences

インターモーダルな関係を確立するために、
画像領域が占める同じh-dimensionalの埋め込み空間に文の単語を表現したいと思います。


双方向リカレントニューラルネットワークは
1-of-k表現でエンコードしたN語のシークエンスを、h-dimensionalベクトルにそれぞれ変換する。
各単語の表現は、その単語の周りの可変サイズのコンテキストによって濃縮される...
3.1.3 Alignment objective

Since the supervision is at the level of entire images and sentences, our strategy is to formulate an image-sentence score as a function of the individual region word scores. Intuitively, a sentence-image pair should have a high matching score if its words have a confident support in the image.


3.2. Multimodal Recurrent Neural Network for generating descriptions

The key challenge is in the design of a model that can predict a variable-sized sequence of outputs given an image.
In previously developed language models based on Recurrent Neural Networks (RNNs),
this is achieved by defining a probability distribution of the next word in a sequence given the current word and context from previous time steps.


Learned region and word vector magnitudes.

このモデルの特徴は、画像領域や単語embeddingsの大きさの調整を学習すること


.........
このタスクは非常に難しく画像の説明を作るには文と画像のgroundをしっかり学習しなければならない?







実際に実装はどうするのかというと
画像から説明文生成の実装




トラックバックURL

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
adsense
Categories
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村

amazon
Profile
Archives
blogchart
QRコード
QRコード
Recent Comments