本記事は、TechBlog シリーズ「富士通が提案する企業向けベンチマーク:AIエージェントモデルの真価を引き出す」の第 2 回です。本シリーズは全 3 回で構成され、以下のスケジュールで公開しています
- 第 1 回:AIが「見ていないものを見る」とき:マルチモーダル大規模言語モデル(MLLM)の幻覚診断用ベンチマークの紹介(公開済)🔗
- 第 2 回:AAAI 2026 AABA4ET参加報告とFujitsu RAG Hard Benchmarkの紹介 (公開済)🔗
- 第 3 回:企業の法務AIを支えるFujitsu Assessing Compliance in Enterprise Datasetのご紹介(本記事)
「読む」から「考える」へ:企業の法務AIを支えるFujitsu Assessing Compliance in Enterprise Datasetのご紹介
皆さん、こんにちは。富士通研究所インドの Pranav Bhagat, Dishank Aggarwal, Ayush Singhです。
今回ご紹介するのは、新しいAIの訓練・評価に使う新しいデータ集Fujitsu Assessing Compliance in Enterprise Dataset (ACE)と、そのデータセットの作成に使う、契約書などの法務文書の条項の関係図(グラフ)でコンプライアンスを判断するAIアシスタント「COMPACT」(Compliance Paralegals via Clause Graph Reasoning over Contracts)です。これらは、ただ文章を作るだけでなく、「AIパラリーガル(AI法律事務員)」として、複数の法律の条項を読み解いて「考える」ことができるAIを目指して開発されました。この研究は、国際会議EACL 2026に採用され、法律に関するAIの能力を大きく進歩させるものとして注目されています。会議の詳しい情報は、https://2026.eacl.org/ をご覧ください。
一番の課題:なぜ今のAIは「弁護士のように考える」のが苦手なのか
最近のLLM(大規模言語モデル)と呼ばれるAIは、文章を理解する能力が飛躍的に向上しました。しかし、企業が法律を守るための仕事(法務ワークフロー)では、単に文章を表面だけ理解するだけでは足りません。いくつもの関連する条項を、論理的なつながりの中でしっかり「考える」ことが求められます。
簡単な例で考えてみましょう。
「契約満了の45日前に、契約更新のお知らせを送りました。これで問題ないでしょうか?」
人間が弁護士だったら、この質問に答えるために、同時にいくつかのことを考慮します。
- 「更新通知」って具体的に何を指すのか?(言葉の定義)
- 「45日前」という期限は、ちゃんと守られているか?(タイミングのルール)
- 例外規定や、このルールを上書きするような特別な決まりはないか?
このように、複数の情報を関連付けて考えるのが「複数条項推論」です。
ところが、これまでのAIのテストでは、「ContractNLI」や「CUAD」といったオープンデータが使われていましたが、これらは個々の条項をバラバラにして評価するもので、実際の契約書にあるような条項同士の複雑なつながりは考慮されていませんでした。私たちの研究によると、AIがこのような「つながり」を読み解く必要がある問題に直面すると:
- 一般的なAIモデルでは、正解率がたった34%から57%にしかなりません。
- その性能は、まるで「当てずっぽう」とほとんど変わらないレベルです。
これは、今のAIが抱える根本的な限界を示しています。
現在のAIは契約書を「読む」ことはできますが、「論理的に考える」ことは苦手なのです。
我々の発見:契約書はただの文章じゃない、「関係図(グラフ)」だ!
法律文書は、単に文字がずらっと並んだものではありません。それらは、まるで精巧なシステムのように、論理的な構造を持っています。例えば:
- ある言葉の「定義」が、別の「義務」の内容に影響を与える
- 「例外規定」が、一般的な「ルール」をひっくり返えす
- 特定の「時期の条件」が、ある「行動」を起こすきっかけになる
この複雑な構造を表現するために、私たちは「COMPACT」(Compliance Paralegals via Clause Graph Reasoning over Contracts - 契約書の条項の関係図(グラフ)でコンプライアンスを判断するAIアシスタント)を開発しました。
COMPACTの仕組み
COMPACTは、契約書を単なるバラバラの文章として扱うのではなく、まるで「条項の関係図(Clause Graphs)」という、法律の論理を構造化した絵に変身させます。
ステップ1:義務の要素を細かく分解(Deontic Logic Extraction)
それぞれの条項を、その中心的な要素に分解していきます。例えるなら、骨格を抜き出す作業です。
- 誰が?(責任者や関係者)
- 何をすべきか、してもよいか、してはいけないか?(義務、許可、禁止)
- どんな行動を?
- 何に対して?
- いつ?(時間に関する条件)
- どんな状況で?(その他の条件)
これにより、様々な法律分野における義務を正確にモデル化(コンピューターが扱える形にする)できるようになります。
ステップ2:意味でグループ分け(Semantic Clustering)
似たような機能を持つ条項同士をグループにまとめます。例えば、 「秘密保持」に関する条項グループ、「契約解除」に関する条項グループ、「支払い」に関する条項グループ、「例外」に関する条項グループなど。
ここが重要:これはまるで、弁護士が頭の中で契約書を整理する方法と同じ!
ステップ3:関係性でつなぐ(Graph Linking)
次に、分解・グループ分けした条項同士を、さまざまな「関係性」でつなぎ合わせます。
- 〜を定義する(DEFINES):ある言葉の定義が、別の義務の内容に影響を与える関係
- 〜の例外(EXCEPTIONS):あるルールを上書きする例外的な関係
- 〜に依存する(DEPENDS_ON):条件が満たされないと、次の行動が始まらない依存関係
- 〜と矛盾する(CONFLICTS):お互いが食い違う関係
この作業の結果...... 👉 複数の法律条項をまたいで論理的に「考える」ことを可能にする、構造化された「推論の関係図」ができあがります!
「Fujitsu Assessing Compliance in Enterprise Dataset」の登場
このような「条項の関係図」から、私たちは「企業のコンプライアンス評価(Assessing Compliance in Enterprise)」というデータセットを作成しました。これは、複数の条項を組み合わせて判断する、AIのコンプライアンス推論能力を測るために特別に作られた、初めてのベンチマークデータセットです。
データセットの中身
- 合計4,700の「コンプライアンス状況(シナリオ)」が含まれています。
- これらは、実際に使われている633種類の契約書から作られました。
- 26種類の契約タイプを網羅しています。
- AIが正しく判断するための答えの種類も、バランス良く含まれています。
- 適合(法律に合っている):33.6%
- 不適合(法律に違反している):34.0%
- 適用外(このシナリオは対象外):32.3%
どのシナリオも、たった一つの条項だけでなく、つながり合った複数の条項を組み合わせて「考える」必要があります。
AIをだます!?「対抗的(Adversarial)」なデータセットのすごさ
従来のデータセットと違い、ACEはAIが手抜きをして、表面的なパターンだけで判断してしまわないように、意図的に工夫して作られています。
具体的には、AIにとって非常に挑戦的なシナリオタイプを導入しています。
「有効だけど、ちょっと怪しく見えるケース」(Compliant-with-Distractor)
- 技術的には法律に合っているけれど、見た目には何か問題があるように見えるケースです。(例えば、正式な書式ではないけれど、法的には問題ない通知)
「違反しているのに、もっともらしい言い訳があるケース」(Violation-with-Plausible-Defense)
- 明らかに法律違反なのに、それを正当化するような、もっともらしい理由が付けられているケースです。
「関係ありそうに見えて、実は別の条項が関係するケース」(Cross-Clause Non-Applicable)
- 一見すると関連していそうなシナリオなのに、実はまったく別の条項で判断されるべきケースです。
これによって、以下のことが保証されます。
AIはキーワードを探すだけでなく、本当に「考える力」が求められることになります。
なぜ複数の条項を考慮した推論は難しいのか
法律の複雑さは、次のようなパターンから生まれます。
- 定義が連鎖するパターン(AがBを定義し、BがCを定義するような、芋づる式の関連)
- 時間的な矛盾(複数の締め切りが重なったり、前後したりする)
- 例外の階層(いくつかの例外規定があり、どれが優先されるかという順番)
- 条件が網の目のように絡み合うパターン
私たちのデータセットは、これらの複雑なパターンを明確にターゲットにしています。それにより、AIは「条項の関係図」をまたいで、複数のステップで「考える」ことを強制されるのです。
結果:単なるAIモデルから、法務のプロのようなAIエージェントへ
ACEデータセットでAIを訓練すると、驚くほど性能が向上しました。
1. 劇的な性能向上
- 正解率が22%〜43%ポイントも大幅にアップしました。
- 特に、小規模なAIモデル(30億パラメータ程度)でも、非常に大きな改善が見られました。
2. 大規模でも効率的に動く
- 小規模な30億パラメータのモデルでも、これまでの大型モデルよりも優れたパフォーマンスを見せました。
- これは、企業がAIを導入する際にコストを抑えながら、十分な性能を得られることを意味します。
3. いろんな分野に応用できる(ドメイン横断的な汎化)
Fujitsu Assessing Compliance in Enterprise Datasetで訓練されたモデルは、他の法律関連のテストでも性能が向上しました。例えば、
- EU AI Act(ヨーロッパのAI規制法)に関する問題
- HIPAA(アメリカの医療情報保護法)に関する問題
- 一般的な法律の文章の関連性を判断するベンチマーク
といった、様々な分野の問題に役立つことを示しています。
これはつまり、 AIは特定のデータセットのパターンを覚えただけでなく、もっと一般的な「法律を考える」能力を身につけた、ということです。
一番大事なポイント:「読む」から「考える」へ
今の法務AIの限界は、言葉を理解できないことではありません。本当の問題は、言葉の背後にある「関係性」を理解できないことにありました。
COMPACTとFujitsu Assessing Compliance in Enterprise Datasetは、この課題に対し、これまでのやり方を大きく変える、新しいアプローチを提案します。
- 今までの「条項ごとの理解」から → 「関係図(グラフ)に基づいた推論」へ
- 今までの「テキストを予測する」AIから → 「法務判断を下す」AIへ
結論
Fujitsu Assessing Compliance in Enterprise Datasetは、まるで実際の弁護士や法律専門家のように「考える」ことができる、企業向けのAIアシスタントを作るための、重要な一歩となります。
私たちの研究のポイントは、次の通りです。
- ✅ 契約書を「関係図(グラフ)」として扱う新しいAIの仕組み
- ✅ 実際のコンプライアンス判断に必要な、複数の条項を扱うベンチマークデータセット
- ✅ AIが手抜き学習をしないように工夫された「対抗的」なシナリオ
- ✅ 効率的で、様々な分野に応用できることを実証
AIシステムが、失敗が許されない重要な企業分野に入っていくとき、単に情報を生成する能力だけでなく、「考える力(推論能力)」こそが、その真の価値を決めることになるでしょう。
参考リンク
- 📄 論文: COMPACT: Building Compliance Paralegals via Clause Graph Reasoning over Contracts - ACL Anthology
- 🤗 データセット(Fujitsu Assessing Compliance in Enterprise Dataset): https://github.com/FujitsuResearch/Fujitsu-Assessing-Compliance-in-Enterprise-Dataset.git
- 📧 お問い合わせ先: {Pranav.bhagat, Ayush.singh, Dishank.aggarwal}@fujitsu.com