Fujitsu ナレッジグラフ拡張RAG技術のご紹介 #4　Fujitsu ナレッジグラフ拡張RAG for VA (Vision Analytics)

こんにちは。人工知能研究所の伊海です。

富士通では企業における生成AIの活用促進に向けて、多様かつ変化する企業ニーズに柔軟に対応し、企業が持つ膨大なデータや法令への準拠を容易に実現する「エンタープライズ生成AIフレームワーク」を開発し、2024年7月よりAIサービス「Fujitsu Kozuchi」のラインナップとして順次提供を開始いたしました。

本記事では、このフレームワークを構成する「Fujitsu ナレッジグラフ拡張RAG for VA (Vision Analytics)」についてご紹介いたします。( *1 )

エンタープライズ生成AIフレームワークは、企業のお客様が特化型生成AIモデルを活用する上で生じる、

企業で必要とされる大規模データの取り扱いが困難
生成AIがコストや応答速度をはじめとする多様な要件を満たせない
企業規則や法令への準拠が求められること

といった課題を解決する以下の技術群で構成されています。

Fujitsu ナレッジグラフ拡張RAG技術
生成AI混合技術
生成AI監査技術

本連載では、上記のうち「Fujitsu ナレッジグラフ拡張RAG技術」についての技術紹介を連載形式にてさせていただきます。皆様の課題解決のヒントとなれば幸いです。また記事の最後には本技術を試す方法についてもお知らせいたします。

大規模データを正確に参照できない生成AIの弱点を克服するナレッジグラフ拡張RAG技術

生成AIに社内文書などの関連文書を参照させるための既存のRAG技術では、大規模データを正確に参照できない課題があります。我々はこの課題を解決するため、既存のRAG技術を発展させ、企業規則や法令、企業が持つマニュアル、映像などの膨大なデータを構造化するナレッジグラフを自動作成することで、従来は数十万、数百万トークン規模だったLLMが参照できるデータ量を1,000万トークン以上の規模に拡大できるナレッジグラフ拡張RAG技術(以下、Fujitsu KG拡張RAG技術)を開発しました。これにより、ナレッジグラフから関係性を踏まえた知識を生成AIに正確に与えることができ、論理推論や出力根拠を示すことが可能です。本技術は対象となるデータや活用シーンに応じて、4つの技術から構成されます。

Root Cause Analysis　(公開中)
本技術はシステムのログや障害事例のデータをもとに、障害発生時のレポートを作成し、類似する障害事例をヒントに対策案を提示いたします。
Question & Answer　(公開中)
本技術は製品マニュアルなどの膨大なドキュメントデータを対象に、全体を俯瞰した高度なQ&Aをおこなうことを実現します。
Software Engineering　(公開中)
本技術はソースコードをデータとして、ソースコードを理解するだけでなく上位の機能設計書や要約を生成、モダナイゼーションを可能にします。
Vision Analytics　(本日公開)
本技術は映像データから、特定の事象や危険行為などを見つけ出し、対策の提示まで行うことが可能な技術です。

本記事では、4番目のVision Analyticsについて詳しく紹介させていただきます。

Fujitsu KG拡張RAG for VA (Vision Analytics) とは

ChatGPTをはじめとする一般向けの生成AIでも、ユーザーが指定した動画データの内容を理解し、内容の要約や質疑応答などが可能になりました。技術的には素晴らしい進歩ですが、しかし、数分程度の短時間の映像について質問に答えられると言われても、ビジネスの現場でどう活用したらよいかパッと思いつかないのではないでしょうか。数分の映像であれば人が見てもさほど時間はとられないし、映像メッセージや研修用ビデオなど多くの映像は普通、見る人のことを考えて撮影され編集されているものなので、要約をするニーズもそこまで高くありません。

一方で、倉庫や工場に設置された監視カメラや、商業施設の防犯カメラなど、編集も要約もされていない、何か月という単位の長時間映像を扱う業務もあります。こういった無編集の超長時間映像は、事故や事件があったときに後から見返す用途で撮りためられてはいるものの、①動画データは簡単に分析ができない「非構造化データ」であること、②量が多すぎて人手による分析にはコストがかかりすぎること、から、これまで十分に活用できていませんでした。

しかしもし、数か月におよぶ超長時間映像の中身をAIが全て記憶したうえで、チャットで質問するだけでその情報を分析して回答してくれるとしたら、どうでしょうか？

「直近3ヶ月の倉庫内の監視カメラ映像から、事故リスクのあった場面を教えて。」

「危険行動をした作業員は、その前後でどんな作業をしていた？集計をとって。」

「2か月前のレイアウト変更の前後で、レジの混雑具合はどう変わった？」

「休憩エリアが混雑する時間帯を、曜日別に数値化して。」

などなど、様々な有用な情報を引き出し、ビジネスに役立てることができるのではないでしょうか。

富士通の開発している Fujitsu KG拡張RAG for VAは、まさにそのような新たな映像の使い方を可能にする技術なのです。

超長時間映像を構造化データに変換する行動ナレッジグラフ

次に、技術内容について簡単にご紹介いたします。

数か月単位の超長時間映像を生成AIが理解できるようにするためのキーテクノロジーは、非構造化データである動画データを、構造化データであるグラフデータという形式に変換する技術です。グラフデータとは、一般的な表形式のデータではなく、"ノード(頂点)"とその連結関係を示す"エッジ(辺)"のネットワークでデータを記録する形式で、データ間の関連性や類似性を記録するのに向いていると言われています。

富士通はこれまで Fujitsu Kozuchi for Vision、Actlyzer といった映像分析技術を開発しており、約100種の人の基本動作学習済みモデルと、ノーコードUIで作成する行動認識ルールにより、複雑な人の行動を容易に認識することが可能でした。今回開発した行動ナレッジグラフは、この Fujitsu Kozuchi for Vision で認識された人・物・行動・時間・場所などをグラフのノードとし、それらの関係性をグラフ形式で表現することにより、映像に映るシーンを分析可能なデータとして保存したものです。

例えば、倉庫の映像で「作業員とフォークリフトが異常接近した」という事象が記録されたとします。そのとき、上図のような行動ナレッジグラフが映像から生成されます。フォークリフトに接近するという「人の行動」、接近した人とフォークリフト、場所、時間、前後の状況など、映像シーンがコンパクトなグラフデータの形で表現されています。

実際の運用では、フォークリフトに接近する行動の他にも、倉庫での作業内容など様々な行動についてリアルタイムで認識をすることで、常時稼働のカメラに映る全てのシーンをグラフデータに変換・保存することができます。何か月も分析を続けることでグラフデータのノード数も増加していきますが、専用のグラフデータベース（以下、グラフDB）を用いることで動画データと比べると桁違いに高速な分析が可能です。

例えば、事故リスクのある行動が発生したときの状況を詳しく調査するため、事故リスクのある行動をとった人物がその前後に実施していた行動と、その行動の相手を抽出して統計をとることを考えます。グラフDBでは「事故リスクのある行動」のノードを起点に、連続して発生した行動や行動対象のノードをたどっていく処理を行いますが、このような処理は通常の表形式のデータベース（リレーショナルDB）は苦手です。ある調査では、100万ノード規模のグラフデータでノードをたどっていく処理をした場合、ノードの深さ4までの処理ではグラフDBはリレーショナルDBの千倍以上の速度（1.4秒）でした。さらに深さ5までの処理では、グラフDBが2.1秒だったのに対し、リレーショナルDBでは処理が終わらなかったということです。動画データをグラフデータに変換して蓄積しておくことで、発生した行動の前後の状況や関連する物事を分析でき、原因調査や対策の考案などのより高度な活用が可能となるのです。

倉庫のユースケース以外でも、防犯カメラのような人間ではとても見きれないし覚えることもできなかった超長時間の映像を、手軽に分析できるデータに変換できるようになります。これまで有効活用できなかった大量の映像が、ナレッジの詰まった価値のある"行動ナレッジグラフ"に生まれ変わるのです。

グラフデータからナレッジを取り出す Fujitsu KG拡張RAG技術

次に、行動ナレッジグラフから知りたいデータを抽出する方法について解説します。

グラフデータの分析に精通した人であれば、行動ナレッジグラフからツールを使って様々なナレッジを抽出し、そのまま業務に応用できることもできます。しかし、グラフデータの分析にはそれなりの知識と経験が必要とされます。富士通では、専門の知識がなくてもナレッジを抽出可能にするため、行動ナレッジグラフの分析は生成AIが行い、ユーザーはチャットを用いた自然言語インタフェースでナレッジを取り出すことができるエンタープライズ向け生成AI技術、Fujitsu KG拡張RAG for VAを開発しました。

例えば、ユーザーが生成AIに「直近3ヶ月の倉庫内の監視カメラ映像から、事故リスクのあった場面を教えて」とチャットで質問したとします。生成AIはこの質問をもとに以下のような処理を行います。

Step1.「事故リスクのある」とはどんな事象かを業務情報ナレッジグラフ（個々の企業の業務情報をまとめたナレッジグラフ）から調べ、具体的な行動として抽出します。
Step2.「事故リスクのある事象」に関連した行動を行動ナレッジグラフから抽出し、生成AIにRAGの入力として与えます。
Step3. 生成AIは入力された行動ナレッジグラフを元に分析や集計を行い、チャット経由で結果をユーザーに提示します。例えば「直近3ヶ月の倉庫の監視カメラ映像から、事故リスクのあった事象は以下の通りです。フォークリフトに接近：85件、・・・」など。

つまり、超長時間映像の行動ナレッジグラフ変換技術と、生成AIによるグラフデータの抽出・分析技術を組み合わせることで、「何か月もの監視カメラをすべて記憶しているAIが、ユーザーの質問に応じて瞬時にデータを分析し、結果を回答してくれる」システムが実現できるのです。

このシステムのユースケースとして、例えば以下のような使い方が考えられます。

作業現場での危険行動の検出と原因調査：例えば、「これまでの作業員がフォークリフトに異常接近したケースで、その作業員とフォークリフトは前後3分間にどんな作業をしていた？すべてのケースで集計をとって。」と質問　→ 危険行動の前後の状況を統計的に把握することで原因を調査し、現場の安全性を向上。
小売店の売り場状況の統計的把握と対策：例えば、「レジ前の混雑状況を、曜日別、時間別に集計して」と質問 → スタッフの配置計画などに反映し、売り場の快適性を向上。

他にも、駅や空港などの公共エリアでの安全性向上、工場での作業分析による生産効率の向上、大規模商業施設でのトラブル検知と防止策の検討など、様々な用途に応用が可能です。

このシステム実現には、前述した超長時間映像のグラフ化技術の他にも、

ユーザーからの自然言語での質問をもとに、グラフDBへの適切なクエリを生成する技術
関連したグラフを抽出した後、グラフの情報をLLMに入力し、それをもとにユーザの質問に適切な回答を導く技術

など、ナレッジグラフとLLMを連携させる高度な技術が用いられています。

また更なる発展として、AIによる安全指導などを行うことができるコーチング技術、誰でも同じ回答ではなく個人に適応した回答を可能にするパーソナライズ技術などを、富士通スモールリサーチラボ（SRL）の一つである Fujitsu Macquarie AI Research Lab で研究中です。

Fujitsu Macquarie AI Research Lab については、ぜひこちらのブログもご覧ください。

Fujitsu KG拡張RAG for VA の技術を試すには

本技術は現在、富士通オーストラリアの倉庫映像を用いて社内での実証試験を行っており、ブラッシュアアップを進めています。

近日中に Fujitsu Kozuchi (R&D) のラインナップの一つとして、Fujitsu KG拡張RAG for VA を提供できる見込みです。

業務での活用にご興味を持たれた方は、こちらのサイトの「お問い合わせ」にご連絡いただければと思います。

さいごに

この記事の技術やデモアプリは、以下のメンバーで開発を行いました。この場を借りて紹介させていただきます。

Fujitsu Australia Limited：竹内駿
富士通研究所　人工知能研究所　ヒューマンリーズニングCPJ：本田崇、伊海佳昭、山尾創輔、斎藤淳哉、齊藤孝広、遠藤ありす、高橋佑、ペラトギヨーム、井谷宣子、弘中伸吾、菊地高史、原園友規、井上一成、宮原捺希、平井由樹雄、藤本純也、浅山能久、高橋悟、遠藤利生、矢吹彰彦

*1:RAG技術：Retrieval Augmented Generation。生成AIの能力を外部データソースと組み合わせて拡張する技術