
本記事は、TechBlog シリーズ「富士通が提案する企業向けベンチマーク:AIエージェントモデルの真価を引き出す」の第 2 回です。本シリーズは全 3 回で構成され、以下のスケジュールで公開予定です。
- 第 1 回:AIが「見ていないものを見る」とき:マルチモーダル大規模言語モデル(MLLM)の幻覚診断用ベンチマークの紹介(公開済)🔗
- 第 2 回:AAAI 2026 AABA4ET参加報告とFujitsu RAG Hard Benchmarkの紹介 (本記事)
- 第 3 回:エンタープライズデータセットにおけるコンプライアンス評価 (3 月下旬公開予定)
こんにちは。人工知能研究所の彭 思棋と福井 琢です。
2026年1月20日から27日まで、シンガポールで開催された国際会議 AAAI 2026 のワークショップ AABA4ET に参加し、ポスター発表を行いました。
本記事では、まずワークショップでの発表内容と反響を報告し、その後にポスターで発表したベンチマークを具体的に紹介します。
AABA4ETとは?
AABA4ET は Agentic AI Benchmarks and Applications for Enterprise Tasks の略で、AI分野の国際会議 AAAI 2026 と同時開催されたワークショップです。
ワークショップの主な目的は、複雑で動的な企業業務に対応できる、堅牢かつ信頼性の高いエージェント型AIを実現するための議論と協働を促進することです。最先端の Agentic AI 研究と、実務環境で求められる要件のギャップを埋めることを目指しています。
当日は33件のポスター発表が行われ、会場全体で活発な議論が続きました。私たちのブースにも、海外企業の研究者から国内の大学生まで、幅広い方にお立ち寄りいただきました。
展示・発表の内容
発表用のポスターは、以下からご覧いただけます。
"Overcoming the 'Impracticality' of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework"
本論文は、人工知能研究所の成田 顕一郎、彭 思棋、福井 琢、宗像 聡、高橋 悟、山田 萌で記載したものになります。
発表では主に、私たちが提案した 実務RAG1向けのベンチマークデータセット を紹介しました。 実務RAG(Enterprise Retrieval-Augmented Generation) とは、従来のRAGに比べて、機密性の高い文書への厳格なアクセス制御、複雑なビジネス文書の構造的な読解、そして回答根拠の厳密な監査可能性が求められる、企業の業務環境に特化したシステムです。
大規模言語モデル(LLM)の発展とRAGアーキテクチャの登場により、企業における知識検索や質問応答システムの導入は急速に進んでいます。特にQAシステムでは、平易なテキストだけでなく、図表、複雑なレイアウト、専門用語を含む多様なエンタープライズ文書の読解が必要です。さらに、ユーザーからの質問も、単純なファクト抽出やYes/No問題にとどまらず、複数文書にまたがる情報統合、数値計算、論理比較など、複数回の推論ステップを必要とするものが増えています。
しかしながら、現状のLLMベンチマークでは、エンタープライズRAGの実践的な課題を十分に捉えきれていません。具体的には、次の3点です。
- 評価の次元不足(診断不能性):従来のベンチマークは最終回答のAccuracyやF1 Scoreなど単一メトリクスに依存しがちで、誤答の原因が「検索(リトリーバー)」にあるのか「推論(LLM)」にあるのかを体系的に分離しにくいです。
- 実務環境の複雑性の見落とし:図表解読、複雑な文書構造理解、複数箇所にまたがる情報統合といった、実運用で必須の複合機能を十分に評価しにくいです。
- 説明性の不足:最終回答の正誤のみを評価する設定が多く、企業で重視される回答根拠の信頼性や監査可能性(例:図表のBBOX座標による厳密な提示)を評価軸に含めにくいです。
その結果、導入検討時にRAGシステムの性能を正しく見極めにくく、ベンチマークスコアが高くても実運用段階で追加改修が必要になる場合があります。場合によっては、公開延期や停止といったリスクにつながる可能性もあります。
私たちはこの学術評価と実務要件のギャップを埋めるために、質問応答の難しさを分析し、難易度ベースの分類表を定義しました。これに基づいて、新しいベンチマークデータセットを提案しています。
当日のポスターセッションでは、限られた発表時間の中で、このベンチマークで何を達成したいのか、具体的には「検索の難しさ」「推論の深さ」「文書構造・モダリティの難しさ」「根拠提示の厳密さ」を多面的に分割評価できる点に焦点を当てて説明しました。これら4軸の診断メタデータを用いて各QAタスクの難易度を記録するアプローチを紹介しました。
聴講者からの反響
発表時間が限られていたにもかかわらず、多くの質問とコメントをいただき、会場では活発な議論になりました。特に、ベンチマークのスコアそのものよりも、「診断メタデータを付与して失敗要因を分解する」というアプローチへの関心が高い印象でした。
以下は、当日いただいた主な質問とコメントです。
Q:この診断メタデータは、実務RAGに必要な能力をすべて網羅していますか?
A:現時点の診断メタデータは、QAタスクやソフトウェア設計書を中心に設計しています。他分野へ適用する場合は、追加の拡張が必要です。
Q:自社の実務RAGテストデータにも4軸診断メタデータを付与し、提案データセットに統合できますか?
A:可能です。ベンチマークをさらに充実させたいと考えていますので、ぜひコラボレーションをご検討ください。
Q:このベンチマークを使うと、開発にどう役立ちますか?
A:たとえば、従来ベンチマークでは「正答率が低い」という結果だけになりがちですが、本ベンチマークでは「検索は強いが根拠提示が弱い」といった形で弱点を切り分けられます。そのため、改善対象を明確にした開発計画を立てやすくなります。
コラボへの招待
私たちは、本ベンチマークを実務RAG分野の共通基準として育てていきたいと考えています。
本取り組みに共感いただける方は、ぜひコラボレーションをご検討ください。
ポスターで発表したベンチマークを具体的に紹介します
ここからは、ポスターで発表した Fujitsu RAG Hard Benchmark の内容を詳しく紹介します。
データセットと評価スクリプトは、Gitリポジトリで公開しています。
リポジトリ:https://github.com/FujitsuResearch/Fujitsu-RAG-Hard-Benchmark
この記事でわかること
- Fujitsu RAG Hard Benchmark の狙いと、既存RAG評価では不足しやすい点
- データセットの構成(100問、根拠付き、難しさ診断メタデータ付き)
- 評価スクリプトを使った再現手順と、利用時の注意点
公開の背景
RAGの評価では、単純なQA正解率だけでは実運用の課題を捉えきれない場面があります。
特に業務文書では、次のような難しさが同時に現れます。
- 複数文書・複数ページをまたぐ根拠探索
- 表・図・複雑レイアウトの読み取り
- 根拠提示の厳密さ(どの文書の何ページか、どの領域か)
そこで本ベンチマークでは、回答の正しさだけでなく、検索難易度・推論難易度・文書構造/モダリティ難易度・説明可能性要件 を多面的に診断できるよう設計しました。
データセット概要
データセットの基本情報
| 項目 | 内容 |
|---|---|
| 設問数 | 100 |
| アノテーション | dataset/FJ_KGQA_Hard.yaml |
| 参照PDF数 | 34 |
PDFは一部をリポジトリに同梱し、一部は dataset/DL_URL.csv に従って追加取得する構成です。
このベンチマークが「Hard」な理由
このベンチマークの難しさは、単に難問が含まれていることではありません。実務RAGで実際にボトルネックになりやすい「根拠を探す」「複数情報をつなぐ」「表や図を読む」「根拠を厳密に示す」という工程を、まとめて試せるように設計している点にあります。
代表的な指標で見ると、難しさの中身は次の通りです。
| 診断軸 | 代表指標 | 何が難しいのか |
|---|---|---|
推論難易度 (Reasoning Complexity) |
Multi-step推論 71% |
100問中71問では、1か所の抜き出しでは足りず、複数情報のつなぎ合わせや比較、条件判断が必要 |
検索難易度 (Retrieval Difficulty) |
Multi-chunk検索 58% / Multi-document検索 22% |
根拠が1か所にまとまっておらず、複数箇所や複数文書から探し集める必要がある |
文書構造/モダリティ難易度 (Source Structure & Modality) |
表や図の理解 70% |
テキストだけでなく、表や図を正しく読み取らないと答えにたどり着けない |
説明可能性要件 (Explainability Requirement) |
複数根拠の厳密提示 63% |
答えを出すだけでなく、複数の根拠を漏れなく示すことまで求められる |
つまり、このデータセットは「1文書の1か所を拾ってそのまま答える」タイプのQAに偏っていません。検索・推論・読解・説明可能性のそれぞれに、実運用で起きやすい難しさを意図的に含めています。
上の5指標は全ての診断項目を列挙したものではなく、100問の性質を一目で伝えるための代表指標です。実際のアノテーションでは、これらを Reasoning Complexity、Retrieval Difficulty、Source Structure & Modality、Explainability Requirement の4軸で記録しており、さらに他の多くの指標も持っています。そのため、たとえば「検索は通るが表を読めずに誤答する」「答えは合うが複数根拠を出し切れない」といった失敗パターンを切り分けやすくなります。
なお、ここでいう4軸の「検索難易度」「推論難易度」は、後述の retrieval_level / answer_level の Easy・Medium・Hard とは別の診断メタデータです。前者は難しさの要因を分解するための軸、後者は設問全体の難易度ラベルとして使っています。
難易度ラベルの見方
各設問には、retrieval_level(検索難易度)と answer_level(回答難易度)の3段階ラベルも付与しています。これは単一の閾値で機械的に決めるものではなく、根拠の見つけやすさ、根拠の散在、必要な推論の深さ、表や図の読解の有無などを総合した実務的な難易度ラベルです。
| ラベル | 検索難易度 (retrieval_level) |
回答難易度 (answer_level) |
|---|---|---|
Easy |
根拠が比較的見つけやすく、探索範囲が狭い | 根拠が見つかれば、ほぼ記載通りに答えられる |
Medium |
複数箇所の探索や追加の読み取りが必要 | 複数根拠の整理、要約、対応付けが必要 |
Hard |
複数文書、離れた箇所、長文書などから根拠を特定する必要がある | 比較、条件判断、数値処理、多段推論などを伴う |
100問の内訳は次の通りです。
- 検索難易度:
Easy 39 / Medium 38 / Hard 23 - 回答難易度:
Easy 19 / Medium 64 / Hard 17
検索難易度は 61% が Medium 以上、回答難易度は 81% が Medium 以上であり、検索できても簡単には答えられない設問が多いことがわかります。
アノテーション例(抜粋)
tasks: - no.: "1" question: ... answer: ... retrieval_level: Easy answer_level: Easy rationales: - file_name: sample.pdf pages: - number: 2 bounding_boxes: - top: 30.82 left: 0.25 width: 22.75 height: 32.57 Reasoning Complexity: Reasoning Depth (Multi-step Reasoning): value: multi
rationales により、どのPDFの何ページを根拠としたか を追跡できます。
必要に応じて、バウンディングボックスによる領域レベルの根拠提示にも対応できます。
評価方法と実行手順
評価スクリプトには evaluate/evaluate_qa.py を利用します。
poetry install cp evaluate/.env.example evaluate/.env # evaluate/.env に OPENAI_API_KEY を設定 poetry run python evaluate/evaluate_qa.py \ --qa-results-file evaluate/sample.json \ --reference-eval-mode full-coverage
- 回答評価: LLM判定による正誤(0/1)
- 参照評価:
match-rate: 正解参照との一致率full-coverage: 正解参照をすべて含むか(完全一致)
利用時の注意
- データは 評価目的での利用 が前提です。
- 商用利用、第三者再配布、データ改変・派生作成などに制限があります。
- 外部配布元PDFは、各配布元の利用条件にも従ってください。
まとめ
Fujitsu RAG Hard Benchmark は、実文書RAGで問題になりやすい
「検索の難しさ」「推論の深さ」「文書構造・モダリティの難しさ」「根拠提示の厳密さ」を同時に評価できるベンチマークです。
モデル比較だけでなく、システム改善の診断用途にも活用できます。
今後は、より多様な診断軸やデータ数の拡張を進めていきます。
- RAG: Retrieval-Augmented Generation↩