
こんにちは、富士通研究開発センター(FRDC)のGenerative AI研究グループに所属しているFei Li、Jiaqi Ning、Ming Yangです。本日は、私たちが開発したマルチモーダル大規模言語モデル(MLLM)のための「グラウンディング技術」についてご紹介したいと思います。
マルチモーダル大規模言語モデル(MLLM)のためのグラウンディング技術
近年、AIの世界では、文章だけでなく画像や音声など、様々な種類の情報をまとめて理解・処理できるマルチモーダル大規模言語モデル(MLLM)というものが注目されています。例えば、VQA(Visual Question Answering)という、画像を見せて質問に答えるようなタスクでは、目覚ましい能力を発揮しています。AIに質問と関連する画像を与えれば、ほとんどのMLLMは最終的な回答と、その答えを導き出すまでの「考え方(推論プロセス)」を示すことができます。
しかし、その答えが「画像のどの部分を根拠にしているのか」が不明なため、AIがなぜそう判断したのかを人間が納得できるような「説明」がまだ不十分でした。
残念ながら、現在のMLLMは、画像の中のどの部分が回答に関連しているかを特定する「グラウンディング能力」が、特にグラフや表を含む書類の画像などの場合、推論能力ほど高くありません。
私たちの主な研究は、このグラウンディング能力を持つMLLMの開発に焦点を当てており、主に2つの異なるアプローチでこの課題に取り組みました。 「回答に直接関係する領域」を特定する、「根拠グラウンディングモデル」と、その効率的な学習方法の開発。 特別な前処理を加えることで、AIが答えを導き出すまでの「思考プロセス全体」と、最終回答に対するすべての関連を特定できる、「思考グラウンディングモデル」の開発。 どちらの方法も、VQAタスク向けの公開ベンチマーク(AIの性能を比較するための標準的なテストデータセット)で、その有効性が証明されています。