fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

Fujitsu ナレッジグラフ拡張RAG技術のご紹介 #6 ナレッジ公開 ~単なるデータから「使えるナレッジ」の共有へ~

こんにちは。人工知能研究所の菊月・成田・菊地・宮原です。

富士通では企業における生成AIの活用促進に向けて、多様かつ変化する企業ニーズに柔軟に対応し、企業が持つ膨大なデータや法令への準拠を容易に実現する「エンタープライズ生成AIフレームワーク」を開発し、2024年7月よりAIサービス Fujitsu Kozuchi (R&D) のラインナップとして順次提供を開始いたしました。

エンタープライズ生成AIフレームワークは、企業のお客様が特化型生成AIモデルを活用する上で生じる、

  • 企業で必要とされる大規模データの取り扱いが困難
  • 生成AIがコストや応答速度をはじめとする多様な要件を満たせない
  • 企業規則や法令への準拠が求められること

といった課題を解決する以下の技術群で構成されています。

  • Fujitsu ナレッジグラフ拡張RAG技術
  • 生成AI混合技術
  • 生成AI監査技術

本連載では、上記のうち「Fujitsu ナレッジグラフ拡張RAG技術」についての技術紹介を連載形式にてさせていただきます(*1)。皆様の課題解決のヒントとなれば幸いです。また記事の最後には本技術を試す方法についてもお知らせいたします。

大規模データを正確に参照できない生成AIの弱点を克服する Fujitsu ナレッジグラフ拡張RAG技術

生成AIに社内文書などの関連文書を参照させるための既存のRAG技術では、大規模データを正確に参照できない課題があります。我々はこの課題を解決するため、既存のRAG技術を発展させ、企業規則や法令、企業が持つマニュアル、映像などの膨大なデータを構造化するナレッジグラフ(以下、KG)を自動作成することで、従来は数十万、数百万トークン規模だったLLMが参照できるデータ量を1,000万トークン以上の規模に拡大できる Fujitsu ナレッジグラフ拡張RAG(以下、KG拡張RAG)技術を開発しました。これにより、KGから関係性を踏まえた知識を生成AIに正確に与えることができ、論理推論や出力根拠を示すことが可能です。

本技術は対象となるデータや活用シーンに応じて、5つの技術から構成されます。また、これら技術群で構築したナレッジを公開・共有する取り組み紹介とあわせて、計6回の連載となっています。

  1. Root Cause Analysis (公開中)
    本技術はシステムのログや障害事例のデータをもとに、障害発生時のレポートを作成し、類似する障害事例をヒントに対策案を提示いたします。
  2. Question & Answer (公開中)
    本技術は製品マニュアルなどの膨大なドキュメントデータを対象に、全体を俯瞰した高度なQ&Aをおこなうことを実現します。
  3. Software Engineering (公開中)
    本技術はソースコードをデータとして、ソースコードを理解するだけでなく上位の機能設計書や要約を生成、モダナイゼーションを可能にします。
  4. Vision Analytics (公開中)
    本技術は映像データから、特定の事象や危険行為などを見つけ出し、対策の提示までおこなうことが可能な技術です。
  5. Log Analysis (公開中)
    本技術はシステムログのファイルを自動で分析し、障害の原因特定や異常検知、予防保守に関する専門性の高い質問に回答することが可能な技術です。
  6. ナレッジ公開 (本記事)
    上記のFujitsu KG拡張RAGで構築したナレッジを、実際の業務や研究で活用できる形で公開・共有していく取り組みです。

本記事では、6のナレッジ公開について詳しく紹介させていただきます。

ナレッジ公開の概要

本取り組みは、Fujitsu KG拡張RAGで構築したナレッジを、実際の業務や研究で役立つ形で公開・共有していくものです。 まずは、生成AIを用いたデータ活用における課題を整理し、その課題をナレッジ公開によってどのように解決していくのか、その方針をご紹介します。

生成AIを用いたデータ活用の課題とは?

検索システムや生成AIの進化により、社内外のさまざまなデータを扱いやすくなり、マニュアルやドキュメントのリストアップ、あいまい検索などは容易になってきました。 一方で、社内外のデータやWebサイトを生成AIで検索・分析する際、次のような経験はないでしょうか。

  • マニュアル(例:社内システム・クラウドシステム・設備に関するマニュアル)を参照して手順を知りたいが、固有名詞や具体的な事例が少しずれた形で回答されてしまう
  • 難解なドキュメント(例:契約書・標準文書・政府文書)の複数箇所を分析し、個別ケースの方針を定めたいが、キーワードに引っかかったバラバラの文章が参照され、全体像を把握しづらい
  • 公開データ(例:動画データセット・音声データセット・論文集)を用いて、統計分析(件数集計、ランキングなど)やAI分析(人物の挙動解析、論文同士の関係性抽出など)を行いたいが、メタデータが不足しているために分析が不十分となり、精度が上がらない

このように、初期段階の簡単な検索や概況の調査はできるものの、踏み込んだ検討・分析を行う段階になると、データを十分に活用しきれないという課題があります。 これらの問題は、生成AIを用いたデータ活用における技術的な課題に起因しており、その解決に向けたベストプラクティス調査やガイドライン策定(例1例2)も活発に進められています。

これらの課題には、生成AIの技術的な限界も一因としてありますが、最も大きな要因は、対象となるデータの多くが「非構造化データ」であることです。 そこで、非構造化データに対してメタデータを付与したり、モノやコト同士の関係性を付与したりすることで、より実務に活用しやすい「構造化データ」へと変換することが不可欠になります。 本記事では、このように構造化され、実際に有用な形になったデータを、「ナレッジ」と呼称します。

既存の取り組みは?

同様の課題認識は、生成AIが台頭する以前から存在しており、個別の目的ごとに、独自フォーマットや RDF(*2)形式による構造化が進められてきました(例:Google Data Commons, Discourse Graphs, KG公開)。 しかし、これらは主に一部の研究者が扱う解析用データを対象としたものであり、日常的に扱われる一般的な非構造化データを広く構造化していく取り組みとは言えませんでした。

本記事の冒頭でご紹介した Fujitsu KG拡張RAGは、構造化データであるKGを自動作成できる技術であり、データ活用の課題解決のために有望な技術です。しかし、これまでは秘匿性の高いデータ(富士通社内データやお客様データ)に対して技術適用を進めており、公開データは対象としていませんでした。

このように、既存の取り組みだけでは、共益性の高い公開データ(マニュアル・ドキュメント・データセットなど)をナレッジとして活用可能な形に変換することは十分にできていませんでした。

なぜナレッジを公開するのか? - データ活用の課題を解決する新たな提案

データ活用の課題を本質的に解決するためには、共益性の高い公開データを構造化し、誰もが扱いやすいナレッジへと変換していくことが重要です。 そこで私たちは、Fujitsu KG拡張RAGを用いて公開データをKGに変換し、そのナレッジを広く公開する取り組みを開始しました。

下図はナレッジ公開の全体構想を示したものです。 公開したナレッジを活用し、さまざまな方に独自のチャットアプリケーションを構築していただくことなどを通じて、データ活用を推進するコミュニティの形成を目指しています。 また、Fujitsu KG拡張RAGは、作成済みのナレッジを対象とした高度な機能(ナレッジのカスタマイズ・拡張、統計処理など)も備わっており、これらを要望する方には、Fujitsu Kozuchiのプラットフォーム経由でご利用いただくことも可能です。 研究者の方には、ベンチマークデータとして活用いただき、AI技術の研究開発に役立てていただくことも想定しています。

システム構成図

Fujitsu KG拡張RAGによって構造化したナレッジを多くの方にご利用いただき、データ活用の課題を共に解決していきたいと考えています。 また、活用しやすくするため、OSSライブラリであるLangChainから利用しやすいNeo4j形式での公開を進めています。 本記事執筆時点では、Fujitsu KG拡張RAGを構成するRoot Cause AnalysisQuestion & AnswerVision Analyticsの3つの技術を用いて作成したナレッジの一部を公開しています。 次章以降では、それぞれのナレッジがもたらす具体的な価値や活用方法について説明していきます。

ナレッジの価値と適用例

(1) マニュアルや障害事例文書を「使えるナレッジ」へ

取り組みの概要

マニュアルや障害事例文書は読解が難しい例の一つです。 実際の業務で障害が発生した際に活用しようとしても、専門家が多大な工数をかけて読解し、障害原因の分析や調査を実施しています。 生成AIによって読解のサポートは可能ですが、障害の因果関係をとらえずに断片的な解析となってしまい、不充分な回答やハルシネーションを避ける事が困難です。 Fujitsu KG拡張RAG for Root Cause Analysisは、障害事例文書などの記載から事象間の複雑な因果関係を自動抽出する事ができ、それをKGに変換します。

このナレッジを活用する事で、障害対応の現場で具体的な手順や因果を精度良く提示することができます。また、因果を提示することで、説明性の観点からも優れた回答を提示できます。

具体例

Official Ubuntu Documentation をもとに作成したナレッジ例を紹介します。

下図のように、ドキュメント内の障害に関わる文章を自動分析し、障害に至るまでの因果や障害復旧手順などをKGとして構造化しています。

RCAナレッジ例

このKGをLLMにプロンプトとして与えて障害原因分析をした例が以下です。単純にドキュメントを読み込ませるRAGと比較して、より具体的な手順を提示できたり(下図例)、障害に至る因果を説明することが可能になります。

RCA回答例

さらに、Fujitsu KozuchiのKG拡張RAG for Root Cause Analysisのアプリで本KGを読み込むと、障害の切り分け手順として可視化したりと(下図例)、より高度な分析も可能になっています。

Kozuchi画面例

(2) 図表を含むドキュメントを「使えるナレッジへ」

生成AIで検索拡張生成(RAG)を用いて回答(Q&A)をする際、膨大なドキュメントから回答に必要なチャンク(ドキュメントを生成AIに入力する最小単位)を選別できず、正しく回答できないケースがしばしば発生します。その対策の一つとして、必要な文章をより正確に抽出できるよう、文章の構造化が考えられます。
我々はドキュメントの構造化情報(KG)からさらに検索精度を高めるため、「洞察」「列挙関係」という2つの追加情報でKGを拡張しました。 ここでは、より詳細にそのKGについてご説明します。

フォーカスした課題

KG拡張RAG for Q&A 2.0では、図表を含む多数の文書を対象にエンドユーザに高精度な回答をするQ&Aシステムを提供しています。設計書や技術文書といった画像を含む文書を対象としたRAGにおいて、以下の課題のため、しばしば回答に有用なドキュメントの検索に失敗します。

1. "洞察"の欠落
通常のRAGでは「質問文」と「文書内容」のベクトル類似度で検索しますが、画像を含む文書には、業務上の目的や意図といった「洞察」が明示されていないことが多く、質問文に適した文書として抽出することが困難です。

2. チャンクの分断
手順や商品リストなど、ドキュメントには数ページにまたがる列挙情報がしばしば存在します。
チャンク分割は固定長分割や意味解析を含んだ可変長分割が主流ですが、ページをまたいだ列挙情報は正しく抽出できず、本来ひとかたまりの列挙文が複数のチャンクに分断され、適切に回答に用いられないことがあります。

取り組み

当該課題に対応するため、KG生成には以下の2つの要素を追加しました。

1. 洞察文
画像を含むページについて、単なる要約ではなく、その情報がどのようなビジネス文脈や意図で価値を持つのかを言語化した洞察文を動的に生成し、該当ページのノードに紐づけてKGを補完します。

2. 列挙関係
チャンク化によって分断されやすい列挙文同士の関係性を解析し、チャンク間を列挙関係でつなぐことで、列挙情報が一体として扱えるようになります。

効果

図表単体からは読み取れない「なぜその数値になったのか」という背景(成長要因や利益内訳など)を、AIが正確に回答できるようになります。
下図には、洞察ノードを含んだKG例と列挙関係を補完したKG例を掲載しました。ドキュメントの各ページを示すページノードを無数の洞察ノードで補完し、図表を多くの洞察で補完しています。

具体例

1. 洞察文

洞察ページの具体例を紹介します。Q&A公開ドキュメントの下記ページ(P4)は本文がなく、図表に売上収益などがまとめられています。
このような図表を単体で見たとき、引き出せる情報は単純な数値データなどに限定されます。

P4のスクリーンショット

しかし、内容を示唆する洞察ノードを付与することで、図表だけでは読み取れない情報で補完することができます。

代表的な洞察ノード例:
1. 全体の企業戦略と市場動向:2023年度サービスソリューションの売上収益21,375億円/調整後営業利益2,372億円、Fujitsu Uvance の拡大と市場の変化への柔軟な対応をまとめたストーリー
2. 調整後営業利益の変動内訳:増収602億円・採算改善353億円・投資拡大のマイナス214億円といった寄与を数字付きで整理し、「なぜ利益が上がったか」という背景説明として使える
3. サービスソリューションの業績:2021~2023年度の売上収益・調整後営業利益・営業利益率(6.1%→11.1%)を列挙し、年次間の推移と率の改善を即座に取り出せるようにしている

これらの洞察ノードを組み合わせれば、「成長の要因」「利益の内訳」「利益率の比較」など、想定問答に必要なコンテクストが自動的に指し示され、最終的な回答へと繋がります。

2. 列挙関係

次に、列挙関係を示す事例を紹介します。下図は、同じKGで列挙関係に焦点をあてたKGです。
この事例では、たとえばP3ノードとP4ノードが列挙ノードでつながっているため、この2ページに列挙がまたいで記述されていることを示唆しています。

列挙関係を補完したKG例

実際にドキュメントを確認してみましょう。P3とP4が概況についてそれぞれ異なる視点で記載されていることがわかります。

P3(左)とP4(右)のスクリーンショット

(3) 長時間映像を「使えるナレッジ」へ

ドキュメントと同様に、映像データも、現場の状況や作業手順を克明に記録する貴重な情報源です。しかし、その多くは非構造化データであるため、目的の情報を探し出すことが難しく、十分に活用できていないという課題がありました。我々は、この映像データを構造化し、誰もが活用できる「使えるナレッジ」へと変換する技術を開発しました。

フォーカスした課題

映像解析では、長時間映像や大量の動画から必要な情報を効率的に抽出することが課題です。既存の映像理解モデルは数秒程度の短いクリップしか一括処理できず、例えば5分の動画(30fps)は約9,000フレームとなるため、計算資源やメモリ、さらにはLMMのコンテキストウィンドウ(*3)の制約からすべてのフレームを同時に扱うことが困難です。

そのため従来は、フレームを間引く、あるいは動画を短いクリップに分割して個別に解析し、後から結果を統合する方法が一般的でした。しかしこの方法では重要なシーンを見逃す可能性があり、さらに多数のクリップに対して同じ質問を繰り返し処理する必要があるため、計算コストや応答時間が増大します。

また、RAG技術は主にテキストを対象として設計されているため、映像や音声に含まれる人物・物体・行動といった関係性を直接扱うことが困難です。その結果、動画内の重要なイベントや対象間の関係を十分に活用できず、質問応答の精度が低下する可能性があります。

長時間映像の理解: GPT-5やGeminiなどのLMMはコンテキストウィンドウの制限があるため、動画のフレームを間引いたり、短いクリップに分割して処理する必要があります。そのため、長時間映像においても重要なシーンを見逃さずに理解できる技術が求められています。

マルチモーダル入力への対応: 既存のRAG技術は主にテキストデータを対象としており、映像・音声・テキストを統合的に扱う仕組みが十分に整備されていません。

取り組み

RAG技術による長時間映像理解の課題を解決するため、映像から人物・物体・行動といった要素を抽出し、それらの時間的・空間的関係を明示的に表現する、更新可能なマルチモーダルKGを生成・拡張する技術を開発しました。このように構築されるグラフを Multimodal Dynamic Knowledge Graph(以下、Multimodal DKG)と呼びます。

映像を「あとで使える形」に整理する: 本手法では、まず物体検出や行動認識などを行う比較的軽量な認識モデルを用いて、入力された映像内のすべてのフレームを一度だけ解析します。 その結果として、

  • 映像に登場する人物や物体
  • 発生した行動やイベント
  • それらが起きた時間や位置

といった情報を抽出し、要素を示す「ノード」、要素間の関係を示す「エッジ」で構成されるグラフ構造として保存します。 このグラフは映像の進行に合わせて追加できるため、長時間映像でも直接扱うことができます。LMMの入力長制限を考慮してフレームを間引く必要はありません。

映像を何度も処理しなくてよい仕組み: 従来の方法では、質問のたびに映像を短いクリップに分割し、それぞれをLMMで処理する必要がありました。一方、本手法では以下の流れになります。

  1. 映像を一度だけ処理してKGを作成
  2. 質問時は、まずKGを検索
  3. 関係する最小限の映像区間だけをLMMに入力

このため、映像全体を毎回処理する必要がなく、計算コストや応答時間を大幅に削減できます。

グラフを使って必要な場面を絞り込む: 質問応答の際には、まずKG上で 質問に関係する人物・物体・行動や時間区間を探索します。 例えば、

  • 「この人物が話しているのはいつか」
  • 「特定の物体が使われているシーンはどこか」

といった質問に対しては、ノードとエッジをたどることで、該当する時間範囲を直接特定できます。この段階では重いLMM処理を使わないため、無駄な映像入力を減らしつつ、重要なシーンを確実に抽出できます。

マルチモーダル入力(映像・音声・テキスト)をまとめて扱う: Multimodal DKGには、映像情報だけでなく、音声認識結果(発話内容)とテキスト情報も同じグラフ上に統合できます。人物や物体を共通の軸として情報がつながるため、映像を起点に音声やテキスト情報を参照するといった使い方が可能です。このように、KGとLLMを組み合わせることで、回答精度の向上や、LMMの誤回答(ハルシネーション)の抑制が期待できます。

DKG生成の様子

まとめると、「Multimodal DKG」は、主に以下のステップで構築されます。

  1. 要素認識: 軽量な映像認識モデル(物体検出・行動認識など)を用いて、映像の各フレームから主要な人物、物体、行動などの要素を検出・分類します。さらに、フレーム間の変化を時系列で解析し、「工具を手に取る」「ボルトを締める」といったイベント(行動)を言語化して抽出します。
  2. 関係性抽出: 検知した要素(例: 人物A,工具B,行動C)間の時間的・空間的な関係性を解析し、「人物Aが工具Bを使っている」といった意味的な関係を定義します。
  3. KG構築: 抽出した要素とそれらの関係性をそれぞれノード(人物、物体などの要素)とエッジ(関係性)としてKGに追加します。

Multimodal DKGのノード例

効果

映像をMultimodal DKGに変換し、KG拡張RAG技術で活用することで、従来の検索手法では不可能だった、極めて高精度な映像理解が実現できます。 具体的には、単なるキーワード検索の枠を超え、「Aさんが工具Bを使って、手順Cの作業をしているシーンを探してほしい」といった、登場人物・物体・行動の関係性を踏まえた複雑な問いに答えることが可能になります。これにより、映像は単なる記録媒体から、業務手順の分析、熟練者の技能伝承、危険行動の検知など、より高度な分析やインサイトの発見を可能にするビジネス価値を生み出す「使えるナレッジ」へと発展します。さらに、映像をKGとして構造化することで、長時間映像の内容を知識として保持できるようになり、長時間映像の情報の検索や参照を効率的に行えるようになります。

Multimodal DKGにおけるKG構築

具体例

実際にどのように映像からKGが生成されるのか、具体例を見てみましょう。 上図は、スーパーマーケットの店舗の通路を、灰色のコートを着た女性がカートを押して歩き、売り場に入っていくシーンの例です。入力映像の各フレームからキャプション(例:「灰色のコートを着た女性がカートを押して売り場に入った。」)が生成され、そこから要素を示すノード(Woman、Gray coat、Cart、Store aisle など)と関係性を示すエッジ(着ている、押している、入った など)が抽出されて小さなグラフが作られ、それらが統合されて一つのKGが構築されます。このKGの断片では、例えば (Woman) -[wears]-> (Gray coat)、(Woman) -[pushes]-> (Cart)、(Woman) -[enters]-> (Store aisle) といった関係が表現されます。

このようなKGを構築することで、例えば「灰色のコートを着た女性がカートを押して売り場に入っているシーン」といった、複数の条件を組み合わせた複合的な検索が可能となります。

ナレッジに触れてみよう:ナレッジの活用法

実際に触れられるナレッジおよびデモコードは以下の場所に格納しています。 本章では、実際にこれらナレッジを体験する方法をご紹介します。

項目 URL 概要
ナレッジ HuggingFace KGデータ本体(Neo4jのGraphML形式)を、*_Knowledge_Datasetという名称で格納
デモコード GitHub KGデータをNeo4j環境にインポートし、LangChainを用いてQAを実行するデモコードを格納

(1) マニュアルや障害事例文書のナレッジ活用

本記事執筆時点では、RCA向けには Utuntuドキュメント、 Windowsのセットアップトラブルを想定したドキュメント () 製造業における設備トラブルを想定したドキュメント ()、 から生成したナレッジを格納しました。

まずは、デモコードを用いて簡単な障害分析を実施できます。

また、さらに高度なナレッジ活用にご興味があれば、Fujitsu KozuchiのKG拡張RAG for Root Cause Analysisのアプリをお試しください。ナレッジを読み込んで障害分析を実施できるほか、障害切り分け手順なども参照できます。ナレッジを拡張する事も可能です。例えば、Utuntuドキュメントのナレッジを読み込み、Ubuntu上で動くアプリケーションの障害事例ドキュメントを追加すると、Ubuntu+上記アプリケーションに関するナレッジとすることもできます。

(2) 図表を含むドキュメントのナレッジ活用

今回ご紹介したKGは、Q&A公開ドキュメントをForQ&A2.0へ登録するだけで簡単に作成できます。 作成したKGをGitHubで公開しているため、Neo4jでインポートして実際に触ってみてください。

1. ナレッジ説明

まず、代表的なノードについて説明します。

ナレッジグラフ例

  • RAGに必要な最低限のノード

KGは、それ自体がドキュメントであることを示すMMKGFileChunkNodeを中心に、ドキュメントの各ページを示すMMKGPageChunkNodeが紐づいています。
この2つのノードが、ドキュメントをただ単純にRAGに取り込ませるために必要な最低限のノードです。

  • 洞察ノード

MMKGPageChunkNodeの周辺に固まる無数のMMKGIndexNodeに注目してください。これはそのページの内容から生成された洞察ノードです。
洞察ノードは1つのページから様々な観点で多数の情報を補完しています。任意のMMKGIndexNodetextプロパティを確認することで、どのような洞察が生成されているのかが確認できます。

  • 列挙関係ノード

最後に、MMKGPageChunkNodeをつなぐMMKGChunkLinkNodeに注目してください。このノードは、MMKGPageChunkNodeで示されたページに列挙情報がまたがっていることを示します。

2. ナレッジの効果

では実際に、このKGをQ&Aアプリケーションに組み込んだ際の実行結果を紹介します。
先程のナレッジグラフを用いてQ&Aを実施した結果は下記のとおりです。

項目 内容
クエリ 富士通のFY2023の営業利益が下がった原因は何ですか?
回答 富士通のFY2023の営業利益が下がった主な原因は、事業再編や構造改革に伴う一過性の損失が含まれていることです。
具体的には、営業利益は1,602億円で、前期比で1,753億円の減少が見られ、この中には一過性の損失1,234億円が含まれています。これらの損失は、企業が長期的な成長を目指すための戦略的な投資や再編成の一環として発生したものです。
また、競争の激化や市場環境の変化も影響している可能性があります。特に、サービスソリューション部門の強化や新たな市場開拓が進められている中で、短期的には利益を圧迫する要因となっています。

このQ&A例では、P3/P4と洞察チャンクがKG内で連携することで、単なる語句や数字からは得られない背景・つながりを補完し、より説得力のある回答へとつながっています。

  • 列挙関係による補完

P3/P4が列挙関係として連結されており、RAG検索が片方のページしか拾わなくても双方向の文脈をたどれます。

  • 洞察情報の補完

P3に対し「FY2023の営業利益減少の原因は?」といった想定問答を洞察チャンクとして付与し、ユーザの質問から適切なページを検索できるようにしています。

本実行例で使用したQ&Aアプリケーションは、ナレッジグラフ拡張RAG for Q&A 2.0としてFujitsu Kozuchiで公開しています。
Q&A公開ドキュメントを登録することで、簡単に本事例を実行することができるため、ご興味のある方はそちらもご参照ください。

(3) 長時間映像のナレッジ活用

現在、映像を対象としたKGであるMultimodal DKGの効果をより多くの人に実感してもらうために、既に世の中に公開されている映像データセットに適用し、ナレッジとして公開しています。富士通が公開している工場やリテール店舗などの現場作業に特化したAIエージェント評価のためのベンチマークFieldWorkArenaに適用し、映像データをナレッジ化した『FieldWork as a Knowledge』を2026年1月に公開しました。

1. FieldWork as a Knowledge

FieldWork as a Knowledgeでは、FieldWorkArenaデータセットにある映像データをMultimodal DKGへと構造化しています。 FieldWork as a Knowledgeでは、用途の違う2種類のKGを公開しています。

KG種類 内容 動画数 入力映像のfps 用途
動画KG 単一動画を対象に、動画内の出来事や要素を高い粒度で構造化したKG 1 1 動画内の特定シーンをピンポイントで探索
動画群KG 複数動画を対象に、動画間の関連性や共通シーンを表現したKG 関連シーン単位 0.2 特定のシーンを含む動画を横断的に探索

動画KGは、単一の動画内に含まれる情報を高い粒度で構造化し、グラフとして表現したものです。シーンを細かく区切って記述しているため、動画内の特定の場面を短い時間範囲から効率的に検索できます。 一方、動画群KGは、複数の動画を対象に、より粗い粒度で情報を構造化し、動画間の関連性をグラフとして表現したものです。粒度は動画KGよりも低いものの、動画間のつながりを横断的に探索できるほか、特定のシーンを含む動画を効率的に見つけることができます。

FieldWork as a Knowledgeは、Hugging Faceにて公開しています。 Hugging Faceのページには、FieldWorkArenaに掲載されている申請フォームから申請することでアクセスできます。併せて、KGを活用するためのサンプルコードもGithubにて公開しています。KGを用いて直接Q&Aを行うためのサンプルコードだけでなく、特定のシーンを探索するコードも用意していますので、ぜひ触ってみてください。

2. Fujitsu Kozuchi ナレッジグラフ拡張RAG for Vision Analytics

2026年3月末より、Fujitsu Kozuchi にて映像データをMultimodal DKGとして構造化する技術を「Fujitsu ナレッジグラフ拡張RAG for Vision Analytics」のアップデート版として公開します。前節でご紹介したFieldWork as a Knowledgeでは、既存のデータセットを構造化した成果物を利用できますが、KG拡張RAG for VAではより実践的に、ユーザが保有する任意の映像データを対象に、同じアプローチで構造化を行うことが可能です。本技術の使用を検討されている方は、こちらのサイトの「お問い合わせ」からご連絡ください。 本技術は、単一動画の解析・構造化にとどまらず、複数の任意の長さの動画を横断的に扱える点を特徴としています。これにより、FieldWork as a Knowledgeと同様に、動画単位で高粒度に構造化された動画KGに加え、動画間の関係性を含めて表現する動画群KGの生成が可能となっています。 FieldWork as a Knowledgeに触れてその可能性に興味を持った方は、ぜひ次のステップとして、ご自身のデータを用いたMultimodal DKGの構築も試してみてください。

おわりに

本記事では、生成AIを用いたデータ活用の課題を解決するための取り組みをご紹介しました。具体的には、共益性の高い公開データ(マニュアル・ドキュメント・データセットなど)を、実際に役立つ構造化したナレッジへと変換し、公開・共有していくものです。 富士通の人工知能研究所で開発した Fujitsu KG拡張RAGにより自動作成したナレッジを、広く社会へ共有していく取り組みです。

本記事執筆時点では、Fujitsu ナレッジグラフ拡張RAGを構成するRoot Cause AnalysisQuestion & AnswerVision Analyticsの3つの技術を用いて、ナレッジの一部について公開を開始した段階です。今後は、対象とする公開データやナレッジの範囲を広げながら、データ活用の課題を皆様とともに解決していきたいと考えています。

構造化したナレッジへの変換を希望される公開データに関するご要望など、皆様からのコメントも歓迎いたします。 本取り組みが、皆様のデータ活用やAI開発の一助となれば幸いです。

*1: RAG技術:Retrieval Augmented Generation。生成AIの能力を外部データソースと組み合わせて拡張する技術。

*2: RDF:Resource Description Framework。異なるデータソース間の情報を統合し、関連付けることを目的としたフレームワーク。

*3:コンテキストウィンドウ:モデルが処理できるトークン数の上限