こんにちは.人工知能研究所 自律学習プロジェクトの佐々木智丈です.富士通研究所では「自律的に学習可能なAI」の実現を目指しており,この目標に向けてマサチューセッツ工科大学(MIT)およびCenter for Brains, Minds and Machines(CBMM)の研究者と2019年から共同研究を行っています.この共同研究のうち,Vanessa D'Amarioさん, Xavier Boixさんと行った研究の成果を現在開催中のNeurIPS 2021で発表するので,その概要を紹介します.
対象論文
- タイトル:How Modular Should Neural Module Networks Be for Systematic Generalization?
- 著者:Vanessa D'Amario, Tomotake Sasaki, Xavier Boix
- 発表会議:Thirty-fifth Conference on Neural Information Processing Systems (NeurIPS 2021)
- Link to Paper, Link to Presentation1, Link to Presentation2, Link to GitHub
採択された論文の内容
背景:系統的汎化(systematic generalizaion)
画像に対する高度な情報処理は機械学習,特に深層学習に最も期待されているものの一つです.しかし,画像に含まれる物体の種類,その色・大きさといった属性,画像内での位置,照明などの環境条件,複数の物体の位置関係等の組み合わせは膨大なものになる可能性があり,実問題においては訓練データにその全ての組み合わせが含まれると期待することはできません.多くのベンチマーク問題で高い性能を達成している深層学習ですが,実は訓練データの分布に含まれていなかった新しい組み合わせ(out-of-distribution combinations)で評価すると大きく性能を落とすことがわかってきました.
これに対し,人間はこのような要素を過去に個別に見たことがあれば,例え新しい組み合わせであっても対応することができます.このような能力は系統的汎化能力(systematic generalization ability)と呼ばれています.現在,深層学習手法においても高い系統的汎化性能を実現することが重要な研究課題となっています.
画像質問応答とニューラルモジュールネットワーク
画像質問応答 (Visual Question Answering: VQA) は与えられた画像に関する質問に回答するという問題で,画像に対する高度な情報処理のひとつです.
図1に例を示します.左は今回の研究のために作成したVQA-MNISTデータセットの例で,右はスタンフォード大学とFacebook AI Reserachによって作成されたCLEVRデータセット[1]の例です.
画像質問応答に関する最近の研究[2,3]で,ニューラルモジュールネットワーク(Neural Module Network: NMN)[4,5]というタイプの深層ニューラルネットワークが他の深層ニューラルネットワークに比べ高い系統的汎化性能を持つことが示されました.
ニューラルモジュールネットワークは,情報処理を 1) 入力画像からの特徴量抽出,2) 質問に応じた情報処理,3) 回答の出力という3段階にわけ,それぞれに異なったニューラルネットワークを用いるという意味で,モジュール構造をなしています.このうち,第2段階で使われるニューラルネットワークについては,ニューラルネットワークを1つだけ使うもの[4]と非常に多く使うもの[5]が提案されていました.これは,処理を3段階にわけるのとは異なったモジュール性ですが,このタイプのモジュール性の違いが系統的汎化にどのように影響するのかはこれまであまり注目されていませんでした.
モジュール性の度合い・導入位置
今回の研究では,モジュール性の度合いとその導入位置の組み合わせが系統的汎化性能に影響するのかどうか,する場合にはどのような組み合わせが効果的なのか,を大規模な計算機実験によって検証しました.主な組み合わせは図2aに示す5種類です.(論文の付録ではさらに多くの組み合わせを扱っています.)
モジュール性の度合いは図2bにVQA-MNISTの場合を例として示されている3種類を考えました.真ん中に示されている,形,色,大きさといったグループそれぞれに対して1つのニューラルネットワークを割り当てるパターンは今回の研究で初めて導入されたものです.また,特徴量抽出部分と回答の出力部分について2つ以上のニューラルネットワークを使うという試みを行ったのも,この研究が初めてです.
VQA-MNISTデータセットおよびSQOOPデータセットを用いた分析
まず,今回の研究のために作成したVQA-MNISTデータセットと,先行研究[2]で提案されたSQOOPデータセットを用いた実験を行いました.
図3はVQA-MNISTデータセットの例を示しています.ここに示されているように,VQA-MNISTは大きく4つの問題群から構成されています.
図4はSQOOPの例を示しています.SQOOPは2つの物体(アルファベットおよび数字)の位置関係を問う問題のみから構成されています.先行研究では1枚の画像の中に5つの物体が含まれていましたが,今回,1枚の画像の中に2つの物体のみ含まれているバージョンも作成して実験を行いました.
図5はVQA-MNISTデータセットに対する実験結果です.横軸は訓練データに含まれている組み合わせの量を表し,縦軸は系統的汎化性能(訓練データに含まれていない組み合わせでのテスト精度)を表しています.
表1はSQOOPデータセットにおけるパーセント表示された系統的汎化性能を示しています.
これらおよび論文の付録に記載した実験結果からの知見をまとめると以下の通りです.
- モジュール性の度合いとその導入位置を調整することは,系統的汎化性能に明確に影響する
- 中程度(グループレベル)のモジュール性が効果が高く,特に,特徴量抽出の段階に導入するのが系統的汎化性能の向上に対して効果的
Vector-NMNとCLEVR-CoGenTへの応用
次にVQA-MNISTとSQOOPで得られた知見をニューラルモジュールネットワークの発展型であるVector-NMN[3]に導入し,CLEVRデータセットに含まれるCompositional Generalization Test(CLEVR-CoGenT)で性能を検証した結果を紹介します.
本研究では,新しくグループレベルのモジュール性をVector-NMNの特徴量抽出部分に導入し,もともとのVector-NMNおよびVector-NMNを提案した論文でベースラインとして使われているTensor-NMNと比較しました.
表2は13種類の質問のタイプ毎の系統的汎化性能をパーセントで表したものです.グループレベルのモジュール性を特徴量抽出部分に導入したVector-NMN(右端の列)がほとんどの場合で最も高い系統的汎化性能を示しました.
終わりに
本記事ではNeurIPS2021で採択された研究の概要をご紹介しました.詳細は論文をご確認ください.また,NeurIPS 2021参加者の方はぜひポスターセッションにもお越しください.こちらのページにはMITおよびCBMMとの研究成果のリストを掲載しています.
富士通研究所では一緒に働ける方やインターンシップを随時募集しています.もし興味を持たれた方がいらっしゃいましたら,自律学習PJの小橋がカジュアル面談を行いますので,是非ご連絡ください.
References
[1] Justin Johnson, Bharath Hariharan, Laurens Van Der Maaten, Li Fei-Fei, C Lawrence Zitnick, and Ross Girshick. CLEVR: A diagnostic dataset for compositional language and elementary visual reasoning. In Proceedings of the 30th IEEE/CVF Conference on Computer Vision and Pattern Recogni
tion (CVPR 2017), pages 2901–2910, 2017.
[2] Dzmitry Bahdanau, Shikhar Murty, Michael Noukhovitch, Thien Huu Nguyen, Harm de Vries, and Aaron Courville. Systematic generalization: What is required and can it be learned? In Proceedings of the 7th International Conference on Learning Representations (ICLR 2019), 2019.
[3] Dzmitry Bahdanau, Harm de Vries, Timothy J O’Donnell, Shikhar Murty, Philippe Beaudoin, Yoshua Bengio, and Aaron Courville. CLOSURE: Assessing systematic generalization of CLEVR models. arXiv preprint arXiv:1912.05783v2, 2020.
[4] Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and Kate Saenko. Learning to reason: End-to-end module networks for visual question answering. In Proceedings of the 16th IEEE International Conference on Computer Vision (ICCV 2017), pages 804–813, 2017.
[5] Justin Johnson, Bharath Hariharan, Laurens Van Der Maaten, Judy Hoffman, Li Fei-Fei, C Lawrence Zitnick, and Ross Girshick. Inferring and executing programs for visual reasoning. In Proceedings of the 16th IEEE International Conference on Computer Vision (ICCV 2017), pages 2989–2998, 2017.