AIは「なぜそう思うか」まで見せる！〜富士通の最先端グラウンディング技術がMLLMを革新〜

こんにちは、富士通研究開発センター（FRDC）のGenerative AI研究グループに所属しているFei Li、Jiaqi Ning、Ming Yangです。本日は、私たちが開発したマルチモーダル大規模言語モデル（MLLM）のための「グラウンディング技術」についてご紹介したいと思います。

マルチモーダル大規模言語モデル（MLLM）のためのグラウンディング技術

近年、AIの世界では、文章だけでなく画像や音声など、様々な種類の情報をまとめて理解・処理できるマルチモーダル大規模言語モデル（MLLM）というものが注目されています。例えば、VQA（Visual Question Answering）という、画像を見せて質問に答えるようなタスクでは、目覚ましい能力を発揮しています。AIに質問と関連する画像を与えれば、ほとんどのMLLMは最終的な回答と、その答えを導き出すまでの「考え方（推論プロセス）」を示すことができます。

しかし、その答えが「画像のどの部分を根拠にしているのか」が不明なため、AIがなぜそう判断したのかを人間が納得できるような「説明」がまだ不十分でした。

残念ながら、現在のMLLMは、画像の中のどの部分が回答に関連しているかを特定する「グラウンディング能力」が、特にグラフや表を含む書類の画像などの場合、推論能力ほど高くありません。

私たちの主な研究は、このグラウンディング能力を持つMLLMの開発に焦点を当てており、主に2つの異なるアプローチでこの課題に取り組みました。「回答に直接関係する領域」を特定する、「根拠グラウンディングモデル」と、その効率的な学習方法の開発。  特別な前処理を加えることで、AIが答えを導き出すまでの「思考プロセス全体」と、最終回答に対するすべての関連を特定できる、「思考グラウンディングモデル」の開発。どちらの方法も、VQAタスク向けの公開ベンチマーク（AIの性能を比較するための標準的なテストデータセット）で、その有効性が証明されています。

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

マルチモーダル大規模言語モデル（MLLM）のためのグラウンディング技術