fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

富士通が提案する企業向けベンチマーク:AIエージェントモデルの真価を引き出す #1 AIが「見ていないものを見る」とき:マルチモーダル大規模言語モデル(MLLM)の幻覚診断用ベンチマークの紹介

本記事は、TechBlog シリーズ「富士通が提案する企業向けベンチマーク:AIエージェントモデルの真価を引き出す #1 」**の第 1 回です。本シリーズは全 3 回で構成され、以下のスケジュールで公開予定です。

AIが「見ていないものを見る」とき:マルチモーダル大規模言語モデル(MLLM)の幻覚診断用ベンチマークの紹介

はじめまして。富士通研究開発センター(北京)の人工知能研究所に所属する、Ziqiang Shi、Liu Liu、Zihao Guoです。本日は、MLLMが抱える、重要でありながら見過ごされがちな課題について、私たちの研究成果をご紹介します。それは、モデルが言語由来の知識に過度に頼るあまり、視覚情報と矛盾する回答を自信を持って生成してしまう現象です。私たちはこの現象をECHO(EvidenCe-prior Hallucination Observation)と名付け、この問題に対処するための初の専用ベンチマークFujitsu Hallucination Benchmarkと、そのベンチマークを活用した緩和戦略を提案します。

問題の核心:言語の事前知識が視覚情報を上書きしてしまうとき**

GPT-4oやQwen-VLのようなマルチモーダル大規模言語モデル(MLLM)は、視覚を含むコンテンツに対する質問応答に革命をもたらしました。しかし、その目覚ましい能力の陰には、隠れた脆弱性が存在します。それは、モデルが画像に実際に映し出されているものよりも、言語学習によって培われた「予測される内容」を見てしまうことが多い、という点です。 例えば、図1のシナリオをご覧ください。

画像には、棒グラフで2019年のパイナップル生産量が「33.33百万トン」と明確に示されています。しかし、多くのモデルの出力は「28.18百万トン」となります。この根本的な原因は、モデルの言語学習データに年間のパイナップル収穫量などの情報が含まれていたことにあります。そのため、モデルは画像の内容を参照するのではなく、その記憶データに基づいて回答を提供してしまったのです。

図1 2002年から2019年までの世界のパイナップル生産量

  • 質問:「チャートによると、2019年の世界のパイナップル生産量はどのくらいでしたか?」
  • 画像:33.33百万トンを明確に示す棒グラフ
  • モデル出力:「28.18百万トン」

モデルは言語学習データに基づけば「正しい」回答をしましたが、目の前にある視覚的証拠は完全に無視しました。これは言語の事前知識が視覚入力を上書きしてしまっているのです。これは単純な知覚エラーではなく、言語モーダルと画像モーダルを跨った、クロスモーダルな不一致です。このようなエラーは、出力がもっともらしく、一見正確にも聞こえるため、特に危険です。注意深く評価しなければ、その誤りを見抜くことは困難です。

なぜ、これが問題なのか?

医療画像分析、金融チャートの解釈、自動運転など、実世界のアプリケーションにおいて、システムがクリティカルな視覚情報を無視し、自信満々に、しかし誤った回答を出力することは、安全性と信頼性に関わる重大なリスクを引き起こします。

ECHOの定義:幻覚をきめ細かく分類する**

幻覚には多様な種類があります。POPEやHallusionBenchといった既存のベンチマークは、モデルが幻覚を起こすかどうかは検出しますが、その「理由」を特定することは困難でした。ECHOは、言語情報だけでも一応回答は可能であるものの、正確に解答しる為には画像をしっかりと見なければいけないような問題により、言語/知識の事前知識への過度の依存によって引き起こされる幻覚を具体的に捉えます。 私たちは、その為の初の大規模なベンチマークである、Fujitsu Hallucination Benchmarkを構築しました。 Fujitsu Hallucination Benchmarkは表1で示した三つの条件から作成したり構成されています。

表1:Fujitsu Hallucination benchmarkのデータセットの構成

条件 入力 目的
Text-QA 質問のみ 言語事前知識の強さを測定:モデルは言語知識のみを用いて正しく回答できるか?
Raw-VQA 元画像 + 質問 基本的な視覚的理解を測定:モデルは変更されていない視覚的証拠を正しく解釈できるか?
Edit-VQA 編集画像 + 同じ質問 妥当性を保ちつつ主要な視覚的証拠を変更することでECHOを引き起こす(例:バーの値を「30」から「45」に変更、書籍カバーの著者名を入れ替えるなど)

Fujitsu Hallucination Benchmarkにおけるデータセット

既存の幻覚ベンチマークは、粒度が粗い点と規模が小さい点(例:HallusionBenchは100未満の基本画像を使用)という二つの課題を抱えていました。そこで私たちは、再現性のあるECHO診断を可能にするため、以下の3つの主要な革新を盛り込んだデータセットを構築しました。

1, 10種類以上の既存データセットからの選定

ChartQA、TableVQA、OCR-VQA、ScienceQAなどを分析し、言語情報のみで回答可能な質問を特定しました。GPT-4Vを厳密な出力制約の下で活用し、513件の高品質な候補を選別しました。

2, 現実感を保証した敵対的画像編集

各サンプルについて、現実感を保ちながら視覚的証拠を慎重に改変しました。

  • チャート: 軸のスケールや棒の数値(例:「30」を「45」に)を変更。
  • テーブル: 構造を維持したまま、特定のセルの内容を置換。
  • 本の表紙: 著者の名前を入れ替え(例:「J.K.ローリング」を「ジョージ・オーウェル」に)。
  • 地図/インフォグラフィック: ラベル、生物名、関連性を示す矢印などを変更。

2段階の検証プロセスにより、編集内容が視覚的に妥当であり、かつ論理的に矛盾しないことを確認しました。

3, 精密な原因特定を可能にするトリプレット構造

最終的に414個のサンプルが診断用トリプレットとして構成されています。ここで言う「トリプレット」とは、(Text-QA, Raw-VQA, Edit-VQA) という3つの要素からなるタプルのことであり、これらはすべて、元となる同じ質問応答ペアに対応しています。

  • 1,242件のQA記録(414サンプル × 表1に示した3条件)
  • 828枚の画像(414枚のオリジナル + 414枚の編集済み)
  • 7つのドメイン:チャート、テーブル、OCR、科学、数学、常識、専門画像

この設計により、従来の単一画像ベンチマークでは困難だった、幻覚がいつ、なぜ発生するのかの特定が可能となります。

図2: データセットの例。

マップ、テーブル、チャート、本の表紙、自然画像など多様なコンテンツタイプに変更を加え、ECHO現象を誘発させています。赤枠は変更箇所を示します。

Fujitsu Hallucination BenchmarkにおけるECHOの定量化:3つの解釈可能な指標

「幻覚の有無」という二元的な判断を超え、私たちは以下の3つの補完的な指標を導入します。

表2:Fujitsu Hallucination Benchmarkにおける定量化指標

指標 計算式 測定対象
ECHO-Δ Acc(Raw-VQA) − Acc(Edit-VQA) 414件のRaw-VQAサンプルとEdit-VQAサンプル間の正確度の差(%) 全体的な証拠依存性(値が大きいほど事前知識への依存度が高い)
ECHO-φ (1/N) × Σ 𝟙[ aᵢ = gᵢ ∧ cᵢ ≠ g̃ᵢ ∧ aᵢ = cᵢ ] % (aᵢ = Text-QA推測値, cᵢ = Edit-VQA推測値, gᵢ = 元の回答, g̃ᵢ = 編集済回答) 純粋に言語由来の事前知識による幻覚
ECHO-F (1/N) × Σ 𝟙[ bᵢ = gᵢ ∧ cᵢ ≠ g̃ᵢ ∧ bᵢ = cᵢ ] % (bᵢ = Raw-VQA 推測値) % 編集済み画像と質問が与えられた場合、モデルの回答は当該編集済み画像に対応するGTとは一致しないが、Raw-VQAにたい王するGTとは一致する クロスモーダルな事前知識に基づく失敗(視覚情報の誤解釈)

これらの指標は、既存の精度スコアでは見過ごされがちな、より詳細な失敗パターンを明らかにします。

Fujitsu Hallucination benchmarkの活用: 事前知識の強さと依存のトレードオフ**

私たちは、Titanクラスモデル(GPT-4o)とWorkhorseクラスモデル(Qwen2.5-VLシリーズ)を独自ベンチマークで評価しました。その結果、驚くべきトレードオフが明らかになりました。

モデル Text-QA↑ Raw-VQA↑ Edit-VQA↑ ECHO-φ↓
GPT-4o 79.2% 89.8% 54.3% 32.7%
Qwen2.5-VL-7B 40.3% 92.7% 78.6% 9.8%
Qwen2.5-VL-3B 33.7% 90.5% 78.6% 6.3%

評価結果は言語の事前知識が強いモデル(GPT-4o)ほどText-QAの精度は高いものの、ECHO率が悪化するという事実を示しています。 Raw-VQAからEdit-VQAへの精度低下は35.5%にも達します。一方、Qwen2.5-VL-3Bのような比較的小規模なオープンソースモデルは、純粋なテキスト推論では劣るものの、より高い視覚的グラウンディングと低い幻覚率を示しました。 これは、MLLMの設計において根本的な課題が存在することを示唆しています。言語の流暢さに特化したアーキテクチャは、視覚情報が事前知識と矛盾する場合に、意図せずクロスモーダルな不整合を増幅させてしまう可能性があるのです。

再学習不要のECHO現象軽減

重要なのは、ECHO現象は推論時にも軽減可能であるということです。高コストな再学習は不要です。私たちは、Qwen2.5-VL-3Bモデルに対し、モデルに依存しない以下の2つの戦略の有効性を検証しました。

1, 証拠領域の強調

クロスアテンションマップを用いて、回答トークンに最も関連性の高い画像領域を特定します。推論時には、モデルが画像全体と、特定された高顕著性領域を切り出した画像を同時に処理することで、コンテキストを損なうことなく証拠利用を強化します。 → 結果:ECHO-φが6.3%から5.6%に改善しました。

2, 強化学習を活用した推論時の考慮

小型モデルは「段階的に考える」といったプロンプトを無視しがちです。そこで、私たちは軽量な強化学習(GRPO/GSPO)を用いて、回答前に「グラフに示されている値を検証してから回答してください」といった証拠確認行動を安定させるように促します。 → 結果:Edit-VQAの精度が78.6%から84.2%に向上し、ECHO-φは5.9%に減少しました。

3, 複合的なアプローチ

これら2つの手法を組み合わせることで、最も強力な緩和効果が得られました。 → ECHO-φは4.8%に(相対的に24%の削減)改善し、同時にEdit-VQA精度は84.7%を維持しました。 これらの改善効果は、ドメインが変化しても持続することが確認されました。これは、本手法がデータセットパターンを記憶するのではなく、モデルの証拠利用能力そのものを強化することを示しています。

実社会のAIにおけるECHOを対処することの重要性

ECHOは、モデルが見かけ上は有能であっても、重要な根拠を密かに見落としてしまうという種類の失敗を表します。医療診断、金融分析、法的文書レビューといった高リスクな分野では、このようなエラーが深刻な結果につながる可能性があります。

私たちの研究は、以下の貢献をします。

  • ✅ きめ細かい幻覚診断のための、再現可能なデータセット
  • ✅ モデルのバージョン間で事前知識への依存度を追跡できる、解釈可能な指標
  • ✅ 再学習を必要としない、実用的な緩和戦略

MLLMが研究室から実用システムへと移行していく中で、ECHOを診断し、その影響を軽減することは、信頼できるマルチモーダルAIを構築するために不可欠となるでしょう。

リソース

以下のブログ「AIエージェントベンチマークに関するワークショップ開催」も関連ブログですので、ぜひご覧ください。

本研究は、富士通研究開発センター(北京)および富士通株式会社(東京)にて実施されました。本研究における貴重な議論とご意見をいただいた同僚の皆様に深く感謝いたします。