
こんにちは、富士通人工知能研究所の山田です。
2026年1月20日から27日にシンガポールで開催された、AIに関する由緒ある国際学会”The 40th Annual AAAI Conference on Artificial Intelligence (AAAI-26)”において、富士通からは複数件の論文発表とワークショップ開催の形で参加しました。そこでAAAI-26に関する記事を連載形式でお届けします。
第3弾目の本記事では、大規模言語モデル(LLM)の"過去の経験を基に他のタスクを解く能力"を強くする技術についてご紹介します。他の連載記事は下記の通りです。
- 第一弾:AAAI-26に参加しました #1
- ワークショップ主催に関する報告(公開中)
- 第2弾:AAAI-26に参加しました #2
- 因果AI技術の論文発表に関する報告(公開中)
- 第3弾:AAAI-26に参加しました #3
- AI推論技術の論文発表に関する報告(今回の記事)
文献情報
- タイトル: Hypothesis-Driven Reasoning for Large Language Models
- 著者: Aakash Kumar Agarwal, Moyuru Yamada (共同第一著者)
- 会議: 40th AAAI Conference on Artificial Intelligence (AAAI 2026)
- リンク: 外部サイト
* この研究は、私が富士通のインド研究所であるFRIPL赴任時にインターンの学生と共同で行ったものです。
研究の背景(LLMの長期記憶)
生成AIとの新しいチャットを始めたとき、一般的なサービスでは過去の別のチャットの内容を覚えていません。しかし、過去の内容を基にユーザーによりよい回答を提供できると便利ですよね。このためには、LLMが過去のことを覚えている必要があります。これを「LLMの長期記憶」と呼びます。業務における生成AI活用でも同じことが言えます。過去に与えたデータを基に新しいタスクを解くことができると、より便利なサービスが提供できます。例えば、過去に与えた異常か正常かのラベルを基に、製品全体の異常な箇所の個数を数えるタスクを解くことができると便利ですよね。
これはやろうと思えばLLMに過去の内容をプロンプトとして与えることで実現できますが、実は単純に与えるだけでは全然性能がでないことがあるというのが私たちの研究の出発点でした。そこで、過去の内容を基に新しいタスクを解くための技術を開発しました。
問題設定 (知識転用タスク)
私たちの研究では、過去の内容を基に新しいタスクを解くLLMの能力を評価するため知識転用タスクを設計しました。知識転用タスクは、LLMに過去の内容と新しいタスクを与えて、新しいタスクを解いてもらう問題設定です。具体的には、過去の内容として図形が異常か正常かのラベルが与えられたとき、新しいタスクとして画像全体の異常な図形の個数を数えるタスクです。

ここで私たちは以下の3つの難易度を設定しました。
- Level 1:
- 背景: 白色のみ
- 物体の色: 青、赤、黄、緑 (4色)
- 物体の形状: 丸、四角 (2種類)
- 過去の経験: 全8種類の図形とラベルの関係
- Level 2:
- 形状と色の種類はLevel 1と同じ
- 背景: 白色と黒色 (2種類)
- 黒色になると白色の時と判定が反転。つまり、白色でnomarlな図形が黒色になるとanomalyになる。
- 過去の経験: 全16種類の図形と背景とラベルの関係
- Level 3:
- Level 2と種類の数は同じだが、Lv.2の16のうち4つを隠す。例えば、白い背景の青丸は見せるが、黒い背景の青丸は見せないといった具合。
- 過去の経験から新しいタスクを解くためのルールを見つけるのがより難しくなる。ただし、依然として人間であればルールを見つけることができる。
- 過去の経験: 12種類の図形と背景とラベルの関係
Target taskというのがanomalyな物体の数を数える新しいタスクです。どうでしょうか?人間であれば、ルールを見つけて、正解を出すことができると思います。では、LLMはどうでしょうか?
ここで、何故既存のデータセットを利用せずに新しく人工データによる知識転用タスクを設計したのかというと、既存のデータセットでは、LLMの学習に既にそのデータが含まれている可能性があるからです。そこで、私たちは人工データに対して画像とラベルの間に独自のルールを埋め込むことで、LLMが過去の内容を基に新しいタスクを解く能力を評価できるようにしました。
LLMの限界
私たちはまず一般的なプロンプト内に過去の経験(Episodes)を与える手法を評価しました。その結果、驚くべきことに、3つのLLM平均で38.4%の正解率しか得られませんでした(Lv.3かつCoT有りの場合)。これは、LLMがマルチモーダルな過去のデータを基に新しいタスクを解く能力が弱いことを示しています。さらに、LLMは推論の過程において新しいタスクを解くためのルールを見つけることができなかったり誤って推定していることがわかりました。では、もし正しいルール(Semantic/Oracle rules)を文章で与えたらどうなるでしょうか?実は、正しいルールを与えると、LLMは新しいタスクを解く能力が大幅に向上することがわかりました。これらの結果から、LLMの限界は、過去の内容を基に新しいタスクを解くためのルールを見つけることができないことにあると考えられます。これは、ただ過去の経験をプロンプトに与えるだけではダメということです。

提案手法 (仮説駆動型推論)
我々の提案は、LLMの外に過去の経験から暗黙的なパターンのような知識を仮説として抽出するモジュールを追加し、仮説を記憶・活用する仕組みを構築することです。これをHypothesis-Driven Reasoning (仮説駆動型推論)と呼びます。仮説駆動型推論は、LLMが過去の内容を基にルールを見つけて他の新しいタスクに活かすための技術です。

データから信頼性の高い仮説を抽出するため、私たちは新しい手法を開発しました。この手法は大きく以下の2つの段階からなります。
- 要因抽出:
過去の内容から、LLMが新しいタスクを解くために必要な要因を抽出します。例えば、図形の"色"や"形"、"背景の色"などが要因になります。 - 仮説生成・検証:
抽出した要因を基に、LLMが仮説を生成し、検証します。例えば、最初の仮説生成において"青色の図形はNormal"という仮説が生成されるかもしれませんが、仮説検証においてこの仮説は誤りであることを検出することができます。この仮説生成と検証のプロセスを繰り返すことで、LLMは過去の経験から信頼性の高い暗黙知を見つけることができます。

計算機実験の結果
私たちは仮説生成の性能を他の手法と比較しました。その結果、私たちの提案する手法は、他の手法と比べて信頼性の高い仮説を生成することができることがわかりました。またその結果、正しいルールを与えた場合のLLMの性能に近い性能を達成することができました。これらの結果から、私たちの提案する仮説駆動型推論は、LLMが過去の内容を基に新しいタスクを解く能力を大幅に向上させることができることを示しました。

まとめと今後の展望
私たちは、LLMの過去の経験を基に新しいタスクを解く能力を強化するための技術である仮説駆動型推論を提案しました。計算機実験の結果、仮説駆動型推論は、LLMが過去の内容を基に新しいタスクを解く能力を大幅に向上させることができることがわかりました。
AAAI 2026のポスター発表では、他の参加者の方達から"同じような疑問を持っていたのですごく興味深い"、"xxxへ応用できないか?"などの多くのフィードバックを頂き、気づけば予定の終了時刻を大幅に過ぎても議論が続いていました。今後は、マニュアルには記載されていない現場固有の暗黙知をデータから見つけて業務支援に活かすような応用を検証していきます。