fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

AIは「なぜそう思うか」まで見せる!〜富士通の最先端グラウンディング技術がMLLMを革新〜

こんにちは、富士通研究開発センター(FRDC)のGenerative AI研究グループに所属しているFei Li、Jiaqi Ning、Ming Yangです。本日は、私たちが開発したマルチモーダル大規模言語モデル(MLLM)のための「グラウンディング技術」についてご紹介したいと思います。

マルチモーダル大規模言語モデル(MLLM)のためのグラウンディング技術

近年、AIの世界では、文章だけでなく画像や音声など、様々な種類の情報をまとめて理解・処理できるマルチモーダル大規模言語モデル(MLLM)というものが注目されています。例えば、VQA(Visual Question Answering)という、画像を見せて質問に答えるようなタスクでは、目覚ましい能力を発揮しています。AIに質問と関連する画像を与えれば、ほとんどのMLLMは最終的な回答と、その答えを導き出すまでの「考え方(推論プロセス)」を示すことができます。

しかし、その答えが「画像のどの部分を根拠にしているのか」が不明なため、AIがなぜそう判断したのかを人間が納得できるような「説明」がまだ不十分でした。

残念ながら、現在のMLLMは、画像の中のどの部分が回答に関連しているかを特定する「グラウンディング能力」が、特にグラフや表を含む書類の画像などの場合、推論能力ほど高くありません。

私たちの主な研究は、このグラウンディング能力を持つMLLMの開発に焦点を当てており、主に2つの異なるアプローチでこの課題に取り組みました。

• 「回答に直接関係する領域」を特定する、「根拠グラウンディングモデル」と、その効率的な学習方法の開発。

• 特別な前処理を加えることで、AIが答えを導き出すまでの「思考プロセス全体」と、最終回答に対するすべての関連を特定できる、「思考グラウンディングモデル」の開発。

どちらの方法も、VQAタスク向けの公開ベンチマーク(AIの性能を比較するための標準的なテストデータセット)で、その有効性が証明されています。

根拠グラウンディングモデル

1番目の「根拠グラウンディングモデル」は、AIが出した回答が、画像のどの部分を根拠としているのかを特定して示せるモデルのことです。

MLLMを学習させる際によく使われる方法として、以下の2つがあります。

• 教師ありファインチューニング(SFT): これは、高品質な「正解データ」(人間が正しいと判定したデータ)を使ってAIモデルを訓練する方法です。専門家の知識をAIに教え込むように、モデルが目的のパターンを素早く正確に学習するのに適しています。しかし、この方法だけでは、AIが新しい情報を見つけ出す「探索能力」が制限されがちです。また、訓練データに過剰に適用されすぎて過学習が発生したり、まだ見たことのないデータに対して性能が落ちたりする可能性があります。

• 強化学習(RL): これは、AIがコンピューターゲームのように「試行錯誤」を繰り返しながら、成功と失敗の経験に基づき、最適な行動を学んでいく方法です。RLはモデルが積極的に探索し、その結果から得られるフィードバックに基づいて性能を向上させることができます。しかし、RLを適用するには、(土台となるモデルが、ある程度の基本的な能力をすでに持っていることが前提となります。既存のMLLMはグラウンディング能力が限られているため、RLだけでは満足のいく結果を得るのが難しいのが現状でした。

そこで私たちは、SFTとRLという異なる学習方法を組み合わせた、独自の「共同学習戦略」を開発しました。この戦略の基本的な考え方は以下の通りです。

• 学習データの一つ一つに対して、モデルの性能を最適化するために、AIに複数の可能な出力を生成させます。

• 生成された出力のほとんどが間違っている場合(これは現在のモデルがまだその問題をうまく扱えないことを示唆します)、SFTを使って、AIが正解データを模倣するように学習させます。

• 反対に、生成された出力のほとんどが正しい場合(これは現在のモデルがその問題を処理できることを示唆します)、RLを採用して、より良い可能性を探るように学習させます。つまり、より良いパフォーマンスを目指してさらに探索を促します。

私たちは、Qwen-VL-7Bというモデルを使って、ChartQA(グラフの画像と質問)、DocVQA(文書の画像と質問)、DORG(ポスターなどのデザイン画像と質問)といった、様々なデータセットで大規模な実験を行いました。そして、私たちのSFTとRLを組み合わせた共同学習戦略と、一般的な手法である「まずSFTで学習させ、その後にRLを追加で適用する」方法とを比較しました。

実験結果

実験結果は以下の表1に示されています。

表1:共同学習戦略と他の方法の性能比較

• VQA精度(VQA acc.): 質問に対する回答がどれだけ正確かを示す割合です。

• グラウンディング精度(Grounding acc.): 回答の根拠となる画像上の領域を、AIがどれだけ正確に特定できているかを示す割合です。

• ベースモデル (Base): 何も手を加えていない元のモデルの性能です。このモデルは回答領域を特定できません。

• SFT → RL: まずSFTで学習し、その後にRLを追加で適用した一般的な手法です。

• RL + SFT: 私たちが開発したSFTとRLを組み合わせた共同学習戦略です。

この表が示すように、私たちの手法(RL + SFT)は、VQAの正確さとグラウンディングの正確さの両方で、「SFTからRL」という従来の手法を上回る性能を発揮しました。

具体的な例を一つご紹介します。ChartQAの公開ベンチマークから、折れ線グラフの画像をAIに見せて、「2008年から2018年までの女性の出生時平均寿命の最高値と最低値の差は何か?」という質問をした場合です。私たちの根拠グラウンディングモデルは、正しい回答と、その答えを導き出すための推論(考え方)を示すだけでなく、画像内の回答に関連する領域、つまり女性の平均寿命の折れ線グラフにおける最高値と最低値の位置を正確に特定し、表示しました。これにより、AIが出力した回答の「説明性」(人間にとって理解しやすい説明能力)が格段に高まります。

図1:根拠グラウンディングモデルの例

思考グラウンディングモデル

2番目の「思考グラウンディングモデル」は、AIが答えを導き出すまでの「推論プロセス全体」において、どの情報がどこにあるかを、画像上で全て特定して示せるモデルのことです。当然のことながら、特定すべき情報の量(領域の量)は遥かに多くなり、そのためにはモデルに極めて強力なグラウンディング能力が求められます。

この困難なグラウンディングタスクの負担を軽減するため、私たちは独自の「前処理」を利用してこの課題を解決しました。

文書画像を使ったVQAの場合、最も重要な要素の一つは「文字情報」です。そこで、私たちは外部の画像から文字を読み取るOCRツールを使って、画像の中の文字を認識し、デジタルデータに変換しました。そして、このOCRツールが検出した、特定の文字が画像のどこにあるかを示すバウンディングボックスの座標情報を、SFTを使ったモデル学習の追加情報として利用することにしました。このように工夫することで、モデルは答えを出す際に、座標を自力で計算して場所を特定する代わりに、既に検出されたテキストのバウンディングボックスの中から選ぶだけで済むため、処理がずっと簡単になります。

私たちは、Qwen-VL-3Bというモデルを使って、ChartQAのグラフデータとTabMWP(表のデータと質問)で大規模な実験を行いました。私たちの思考グラウンディングモデルを、根拠を示さないベースモデルと比較した実験結果が表2です。私たちのモデルはVQA精度を向上させるだけでなく、非常に高いグラウンディング能力も実現しました。

実験結果

実験結果は以下の表2に示されています。

表2:思考グラウンディングモデルの性能比較

• VQA精度(VQA acc.): 質問に対する回答がどれだけ正確かを示す割合です。

• グラウンディング精度(Grounding acc.): 回答の根拠となる画像上の領域を、AIがどれだけ正確に特定できているかを示す割合です。

• ベースモデル (Base): このモデルは根拠を示しません。

• 思考グラウンディングモデル (Thinking-grounded): 私たちが開発したモデルです。

図2に具体的な例を示します。こちらもChartQAの公開ベンチマークからのVQAケースです。棒グラフの画像を見せて、「タジキスタンとアルジェリアの成人男性の平均身長の差は何か?」という質問をした場合を考えます。AIが根拠を示さないベースモデルの回答は間違っていますが、なぜ間違っているのか、その理由を私たちは知ることができませんでした。一方、私たちの思考グラウンディングモデルは、答えを導き出すために必要となる「思考の元となるすべての関連情報」を画像上で特定し、ハイライト表示されたテキストと、それに相当する画像内のバウンディングボックスのペアを示します。このように、私たちのモデルの出力は、人間にとって非常に理解しやすいものとなります。

図2:思考グラウンディングモデルの例

結論と今後の展望

私たちは、MLLMにおけるAIの「説明力」を高める「グラウンディング技術」について詳細な研究を行い、2つの特徴的なグラウンディングモデルを開発しました。

• 根拠グラウンディング技術: 現在は主に文書(グラフや表など)の理解タスクに焦点を当てていますが、私たちの共同学習戦略は、他の種類の画像にも容易に適用できる可能性があります。例えば、医療画像を分析して異常な組織を特定する医療診断や、工業製品の画像を検査して欠陥箇所をマーキングする品質検査など、様々な応用分野への展開が期待できます。

• 思考グラウンディング技術: この技術はOCR(文字認識)の結果に依存するため、主に文書を扱うアプリケーションに特に適しています。例えば、請求書の内容を目で見て理解し、重要な情報を強調表示するような視覚とテキストの理解や、教育分野で問題の図を分析し、解決策を視覚的に説明するインテリジェント教育などが考えられます。

今後、私たちは富士通のグラウンディングされたMLLMをさらに強力にし、より幅広い用途に適用していく予定です。