教師データなしでビデオ映像から学習するAIをディープマインドが開発

ディープマインドは、教師データなしでビデオ映像をもとに自動的に学習をするAIを開発した。というニュースがニュー・サイエンティストに載っています。

DeepMind AI teaches itself about the world by watching videos | New Scientist

一般に、機械学習で映像や画像から特徴量を抽出するには、あらかじラベル付けされた大量の教師データが必要だ。だが、こうした大量の教師データを都度得るのは難しい。ディープマインドの新しいアルゴリズムでは画像と音から、あたかも人のように観ているもの、聞いているものを認識できるという。

まず、このアルゴリズムには２つのネットワークが含まれる。画像認識と音声認識のそれぞれに特化したネットワークで、これらのネットワークは、同じ動画から画像と音声のそれぞれを取り出して認識をする。さらに３つ目のネットワークは画像と音声を比較して、動画の中でどのシーンの音声かを学習する。このシステムを使い、40万本の動画から6000万の画像と音声のセットをトレーニングした。

このアルゴリズムは、特定のラベルなしで音声と画像の概念（例えば、人混み、タップダンス、水といったものだ）を認識するようになった。例えば手を叩いている写真を見せると、その画像に合った音を出すことができる。

この研究は今年10月にベニスで開催されるInternational Conference on Computer Visionで発表される。

なお、論文はarXivでDLできる。

[1705.08168] Look, Listen and Learn

ラベル付けされた教師学習データなしで、大量の動画のデータだけから意味抽出ができるということでいいのかしら。おもしろいなあと。