人間とテクノロジー

人間とテクノロジーについて、人と話したり、議論したり、思ったりしたことの備忘録

教師データなしでビデオ映像から学習するAIをディープマインドが開発

ディープマインドは、教師データなしでビデオ映像をもとに自動的に学習をするAIを開発した。というニュースがニュー・サイエンティストに載っています。

DeepMind AI teaches itself about the world by watching videos | New Scientist

一般に、機械学習で映像や画像から特徴量を抽出するには、あらかじラベル付けされた大量の教師データが必要だ。だが、こうした大量の教師データを都度得るのは難しい。ディープマインドの新しいアルゴリズムでは画像と音から、あたかも人のように観ているもの、聞いているものを認識できるという。

まず、このアルゴリズムには2つのネットワークが含まれる。画像認識と音声認識のそれぞれに特化したネットワークで、これらのネットワークは、同じ動画から画像と音声のそれぞれを取り出して認識をする。さらに3つ目のネットワークは画像と音声を比較して、動画の中でどのシーンの音声かを学習する。このシステムを使い、40万本の動画から6000万の画像と音声のセットをトレーニングした。

このアルゴリズムは、特定のラベルなしで音声と画像の概念(例えば、人混み、タップダンス、水といったものだ)を認識するようになった。例えば手を叩いている写真を見せると、その画像に合った音を出すことができる。

この研究は今年10月にベニスで開催されるInternational Conference on Computer Visionで発表される。

なお、論文はarXivでDLできる。

[1705.08168] Look, Listen and Learn

 

ラベル付けされた教師学習データなしで、大量の動画のデータだけから意味抽出ができるということでいいのかしら。おもしろいなあと。