
こんにちは、富士通研究開発センター(FRDC)生成AI研究グループのLi Fei、Shi Zhiqiang、Wang Jingyiです。本日は、私たちが開発した「アテンション強化型ハルシネーション軽減技術」についてご紹介します。この技術は、主に画像もテキストも理解するAI(マルチモーダル大規模言語モデル、略してMLLM)が、間違った情報を生成してしまう「ハルシネーション」という課題を解決するためのものです。
この技術に関する3本の論文が、画像処理や信号処理の国際会議WACV 2026(IEEE/CVF Winter Conference on Applications of Computer Vision)およびICASSP 2026(IEEE International Conference on Acoustics, Speech, and Signal Processing)に採択されました。
画像もテキストも理解するAI(MLLM)のハルシネーション問題
近年、MLLMは画像の内容について質問に答えたり、画像の詳しい説明文を作ったり、画像を見て物事を推測したりする能力が飛躍的に向上しています。しかし、その一方で、AIが画像を理解して文章を生成する能力が向上したからこそ、AIの出した答え(出力)が入力された画像の内容と食い違うハルシネーション(誤認識)という大きな問題にも直面しています。
例えば、画像にはないものを勝手に作り出したり、物事の特徴や関係性を間違って説明したりすることです。つまり、AIは与えられた情報に基づいて判断するだけでなく、時に事実ではない内容を加えてしまうのです。
AIのハルシネーションの具体例
図1は、AIが画像の内容について質問に答えるタスク(VQA)で発生したハルシネーションの例です。
資料によるとビールの消費税は8%に引き下げられたと明記されています。しかし、AIは合計金額を計算する際、誤って以前の税率である10%を用いて計算してしまいました。

正解: 80,000円 x 8% + 60,000円 x 4% = 8,800円
AIのハルシネーションによる回答: 80,000円 x 10% + 60,000円 x 4% = 10,400円 (消費税を旧税率10%で計算)
図1. MLLMにおけるハルシネーションの例
このMLLMのハルシネーションは、いくつかの原因から発生します。最も大きな原因の一つは、AIが学習によって既に獲得している知識(学習データ内の偏りや、LLMが保持しているテキストベースの知識など)に頼りすぎることです。図1の例も、AIが持っていた知識に影響を受けた結果といえます。
その他にも、画像を認識する視覚エンコーダにおける画像内の位置特定能力の不足や、画像とテキストの情報がうまく連携できていないこと、そしてAIが答えを生成する際の処理の不完全さなどが挙げられます。これらすべての要因が、ユーザーの入力とAIの出力が正確に対応するのを妨げているのです。
AIが「間違った箇所」に注目してしまう問題
様々なハルシネーションの中でも、AIが画像中の間違った箇所に注目してしまうという典型的なケースがあります。その例を図2に示します。
このケースでは、質問は画像内の果物について尋ねているにもかかわらず、AIは「マウス」に注目してしまい、それを「桃」だと間違って認識してしまいます。私たちの主な研究は、まさにこのようなAIが間違った箇所に注目してしまう問題に焦点を当て、その注目する箇所を適切な領域へと修正することを目指しています。

正解: りんご
AIのハルシネーションによる回答: 桃
図2. 誤った領域に注目することで生じるハルシネーションの例。 (a) 入力画像; (b) 正しく注目しているアテンションマップ; (c) 誤って注目しているアテンションマップ
私たちの解決策:アテンション強化型ハルシネーション軽減技術
私たちが開発したアテンション強化型ハルシネーション軽減技術は、この問題に対して二つの異なる方法で解決しようとしています。一つは、AIが誤った答えを出す原因となる不適切なアテンションの活性化(AIが誤った対象を強く重視してしまう状態)を、より信頼できる状態に調整することです。もう一つは、質問に答えるうえで必要なテキストと画像の情報に、AIがより強く注意を向けられるようにすることです。
これらの方法はいずれも、AIを一から学習し直す必要がなく、ほんの少しの追加計算だけで実現できます。
ハルシネーションを抑えるためのアテンション活性化の調整
現在のMLLMは、Googleが開発した「Transformer(トランスフォーマー)」という技術をベースにしています。各層では「マルチヘッド自己アテンション」という仕組みを用いて、どの情報にどれくらい注目するかを計算しています。
このアテンション活性化(各部分への注目の強さ)を改善するために、私たちは正しい判断に繋がる活性化と誤認識を招く活性化との違いを分析します。
信頼できる正しいアテンション活性化の分布は、正しく対応する画像、質問、回答のセットから作られます。一方で、誤認識につながるアテンション活性化のパターンは、質問と回答自体はそのままに、画像の一部を意図的に変更したり、ノイズを加えたりすることで生成します。
私たちの目標は、この誤認識につながる活性化のパターンを信頼できる活性化のパターンへと変換できるように、AIのアテンション活性化を適切に調整することです。
Scalpel:アテンション活性化を整える
私たちの最初の提案手法は「Scalpel」と名付けられ、その基本的な仕組みを図3に示します。

この手法では、統計モデルの一種である「ガウス混合モデル(GMM)」を使って、「信頼できる情報」と「ハルシネーション誤認識につながる情報」のそれぞれについて、AIのアテンション活性化の分布パターンを把握します。もしAIのアテンション活性化注意の向け方が誤認識につながる分布パターンに属している場合、それを修正して信頼できる分布パターンへと近づけるための最適な方法を見つける必要があります。
この課題を解決するため、私たちは効率的な調整方法を提案します。直感的には、最小限の修正でデータの分布パターンを維持できるよう、それぞれの分布パターンを最小のコストで結びつける方法を探します。データの分布パターンを効率的に調整するための数学的な理論である「シュレーディンガーブリッジ問題」を応用し、現在のアテンション活性化注意の向け方に応じて、それぞれの分布パターンに特化した修正を可能にします。
具体的には、ハルシネーション誤認識につながるコンポーネントとそれに対応する信頼できるコンポーネントの間の転送ベクトルv_rが得られた後、そのベクトルはアテンション活性化に追加され、(l+1)番目のTransformerレイヤーの出力は次のように再計算されます。

ここで、α は修正の強度を表します。この修正は、生成の一貫性を保ちながらハルシネーションを緩和するために、各生成ステップで適用されます。
私たちは、POPEというデータセットを用いて実験を行いました。POPEは、「椅子はありますか?」のような二値(はい/いいえ)形式の質問を通して、MLLMにおける物体のハルシネーションを評価する手法です。キャプション生成に基づく評価方法とは異なり、物体の認識とハルシネーションを直接検証できる点が特徴です。表1に示す実験結果では、Scalpelの有効性が明確に示されています。

SchröMind:より精密な点単位でのアテンション活性化の調整
Scalpelは効果的な手法ですが、統計モデル(GMM)を用いて「誤認識につながる活性化」と「信頼できる活性化」をコンポーネント(分布のまとまり)ごとに調整するにとどまります。
そこで、より正確に調整するため、Scalpelをさらに改良し、より細かい点単位での調整を行う手法「SchröMind」を提案しました。
SchröMindの基本的な仕組みを図4に示します。

基本的な考え方はScalpelと同様です。信頼できるアテンション活性化のパターンは正しく対応する情報から、誤認識につながるアテンション活性化の分布は意図的に変更した画像から作られます。
Scalpelとの主な違いは、GMMを使わない点です。SchröMindでは、一つ一つのデータポイント(点)ごとに、「Schrödingerリッジ問題」という数学的な手法と、「エントロピー正則化」(不確実性を考慮しつつ調整する)という概念を組み合わせて、最小の調整コストでデータを正しい状態に近づけます。これにより、より精密な調整が可能になります。
POPEデータセットでの実験結果でも、SchröMindが通常より優れた性能を達成していることがわかりました。

VAALE: 画像情報をより適切に活用するための手法
AIが新しい言葉(トークン)を生成していくにつれて、画像の情報よりもテキストの情報にばかり注意を向けてしまう傾向があります。そのため、画像の情報に十分注意を払わないことによるハルシネーションが生じてしまうことがあります。
しかし、すべての視覚トークンに対するアテンションの重みを強化する手法は最適ではないです。なぜなら、AIが画像を理解するためには、画像全体ではなく、質問に関連する特定の領域に集中的に注意を払う必要があるからです。そこで私たちは、視覚理解タスクにおいて、質問に関連するテキストと画像の部分は、互いに関連性が高いという特性に着目し、「VAALE」という新しい手法を提案しました。本手法は、主に「アテンションの再集中(attention refocusing)」と「画像情報を考慮した回答探索(visual beam search)」の二つのモジュールから構成されており、その主要な仕組みを図5に示します。

注意の再集中
このモジュールは、AIが質問に関連する情報に注意を再び集中できるようにします。これは、テキストを理解するAI向けの「SASR」(AIが自分自身で情報を補強して能力を高める)という手法からヒントを得ています。
まず、例えば「この画像を詳しく説明してください」のような固定の指示を使って、画像の簡単な説明文をAIに作らせます。次に、この作られた説明文を元の質問の前に加えることで、新しい質問文が画像と意味的に整合性の高い言葉を含むようにします。
その後、画像情報と質問文の言葉の相互関係を計算し、元の画像や質問に対するAIの注意の向け方を効果的に再調整します。これにより、画像とテキストの関連性が高い言葉により強く注意が払われるようになります。
画像情報を考慮した回答探索
画像情報への注意不足によって引き起こされるハルシネーションをさらに減らすため、私たちは新しい回答生成方法である「画像情報を考慮した回答探索」を提案します。この方法は、「画像情報とより多く結びついている回答ほど信頼性が高い」という考えに基づいています。
基本的な回答生成のプロセスは、従来の「ビームサーチ」(最も可能性の高い答えを探す方法)に似ています。主な違いは、AIが考えた文章の候補について、「画像との関連性の強さ」(VID値)を計算し、その値を使って回答の可能性を示すスコア(ロジット)を補強する点と、この補強されたスコアに基づいて最適な回答を選んでいく点です。これによって、AIが回答を生成する過程で、より画像の情報に注目して正しい答えを選べるようになります。
実験結果
我々はPOPEのセブセットであるMSCOCO データセットで実験を行い、その結果を表3に示します。既存手法と比較して、私たちの手法は顕著な性能向上を示しました。

まとめと今後の展望
私たちは、MLLMにおけるハルシネーション(誤認識)を減らすための研究を進め、アテンション強化型ハルシネーション軽減技術を開発しました。
アテンション活性化の調整に基づく手法であるScalpelとSchröMindは、不適切なアテンション活性化の問題を、その仕組みを深掘りせずにブラックボックス的に扱う(つまり、中身の詳細には触れずに、入出力だけを見て改善する)手法です。両手法を比較すると、Scalpelがコンポーネント(分布のまとまり)単位で活性化を調整するのに対し、SchröMindは点ごとの整合を行うため、より精密な調整が可能です。
一方、VAALEは、AIが適切に注目できない根本原因を探り、質問に関連するテキストと画像の部分にAIが選択的に強く注意を向けられるよう、「注意の再集中」と「画像情報を考慮した最適な回答探索」という2つのモジュールを設計しました。
これらの実験結果は、画像の内容について質問に答えるタスク(VQA)の一般公開されている評価基準において、私たちの提案手法が有効であることを示しています。より詳しい情報は、以下の論文でご覧いただけます。
• SchröMindに関する論文:https://arxiv.org/abs/2602.09528
• VAALEに関する論文:https://arxiv.org/abs/2602.09521
今後、私たちは開発した手法をさらに多くのAIに応用し、実際にお客様のシステムで使えるように進めていく予定です。私たちの継続的な研究開発を通じて、富士通のMLLMがより高性能になり、社会の多くの場面で役立つ技術となることを願っています。