教師データなしでビデオ映像から学習するAIをディープマインドが開発
ディープマインドは、教師データなしでビデオ映像をもとに自動的に学習をするAIを開発した。というニュースがニュー・サイエンティストに載っています。
DeepMind AI teaches itself about the world by watching videos | New Scientist
一般に、機械学習で映像や画像から特徴量を抽出するには、あらかじラベル付けされた大量の教師データが必要だ。だが、こうした大量の教師データを都度得るのは難しい。ディープマインドの新しいアルゴリズムでは画像と音から、あたかも人のように観ているもの、聞いているものを認識できるという。
まず、このアルゴリズムには2つのネットワークが含まれる。画像認識と音声認識のそれぞれに特化したネットワークで、これらのネットワークは、同じ動画から画像と音声のそれぞれを取り出して認識をする。さらに3つ目のネットワークは画像と音声を比較して、動画の中でどのシーンの音声かを学習する。このシステムを使い、40万本の動画から6000万の画像と音声のセットをトレーニングした。
このアルゴリズムは、特定のラベルなしで音声と画像の概念(例えば、人混み、タップダンス、水といったものだ)を認識するようになった。例えば手を叩いている写真を見せると、その画像に合った音を出すことができる。
この研究は今年10月にベニスで開催されるInternational Conference on Computer Visionで発表される。
なお、論文はarXivでDLできる。
[1705.08168] Look, Listen and Learn
ラベル付けされた教師学習データなしで、大量の動画のデータだけから意味抽出ができるということでいいのかしら。おもしろいなあと。