fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

我々のエージェント評価システムが Agentic AI 国際コンペティションで2位を獲得しました!!

はじめに

こんにちは、富士通研究所 人工知能研究所の高橋と佐藤です。Agentic AI の国際的なコンペティション「AgentX AgentBeats Competition」に参加し、2nd Place(2位)を獲得することができました!! 本ブログは、コンペの取り組みについてご紹介いたします。

Competition 結果 (我々のチーム名は 'fieldworkarena')

AgentX AgentBeats Competition とは?

AgentX AgentBeats Competition は、カリフォルニア大学バークレー校 RDI センター が中心に開催している、Agentic AI を対象とした国際的なコンペティションです。*1。2026年2月現在、世界中から1300以上のチームがこのコンペに参加しています。

AgentX - AgentBeats Competition (https://rdi.berkeley.edu/agentx-agentbeats)

近年、LLM を中核とした Agentic AI (エージェント AI) に関する研究が急速に進展しています。単一の質問応答にとどまらず、状況を認識し、計画を立て、複数のアクションを実行するエージェントは、実運用を見据えた重要な研究対象となっています。従来の多くのベンチマークでは、評価タスクの実行、結果の収集、スコアリング、結果の可視化といったプロセスは、人手またはスクリプトベースで行われてきました。

本コンペは、評価エージェントがタスク提示から実行管理、結果収集、スコア算出までを一貫して行う という思想をもとにしたプラットフォーム AgentBeats を利用する点に特徴があります。AgentBeats は、評価を行う Green Agent と評価される Purple Agent を共通のオープンプロトコル上で接続・管理することで、評価実行、ログの可観測性、リーダーボードによる結果の可視化までを統合的に提供し、エージェントの内部構造や制御方式、マルチエージェント構成の違いに依存しない、実運用に近い標準化・再現可能で透明性の高いエージェント評価を可能にしています。*2

Green Agent / Purple Agent

AgentX AgentBeats Competition では、

  • Phase 1:評価エージェント(Green Agent)の構築
  • Phase 2:評価される側のエージェント(Purple Agent)の構築

という 2 段階の構成でコンペティションが行われます。我々はこれまで、現場作業支援を目的とした Agentic AI 評価用ベンチマーク FieldWorkArena を構築・公開してきました。今回、 FieldWorkArena を用いたエージェント評価システムで AgentX AgentBeats Competition Phase 1 の「Multi-agent Evaluation」というトラックにエントリーしました。

FieldWorkArena とは?

FieldWorkArena は、製造・物流・小売といった実世界の現場環境を対象とする現場向け Agentic AI ベンチマークです。 本ベンチマークは、Carnegie Mellon University (CMU) との共同研究により開発されたものであり、現場作業支援エージェントの実運用を見据えた評価指標・タスク設計を特徴としています。本取り組みの背景につきましては、以下の富士通公式インタビュー記事でも詳しく紹介されています。

global.fujitsu

FieldWorkArena のタスクは、画像・動画・文書を横断した マルチモーダル理解、時間・空間を含む 状況認識、曖昧さを含む状況での 判断/報告など、現場特有の要件を評価可能にすることを目的として設計されています。例えば、

  • 「安全装備が正しく着用されているか?」
  • 「作業手順に違反があった場合、どのタイミングで、どんな内容か?」
  • 「特定の作業が動画の何秒から何秒まで行われているか?」

のような、現場寄りのタスクを評価できます。本コンペでは、FieldWorkArena の Python ベースの評価コードを評価エージェント (FieldWorkArena Green Agent) として再設計した点がポイントです。 FieldWorkArena の詳細は以下のページで紹介しております。*3 *4 *5

FieldWorkArena

FieldWorkArena Green Agent のシステムアーキテクチャ

システム構成

FieldWorkArena Green Agent の構成を下図に示します。この構成の技術的な本質は、評価のエージェント化になります。Green Agent は単なるスクリプトではなく、状態を持つエージェントであり、ユーザからの API Key のチェック、タスクに応じて Hugging Face からマルチモーダルデータの取得、 Purple Agent へのタスク/クエリ/データの配布、Purple Agent からの結果の取得/評価、および、評価結果の Leaderboard 更新を行います。Green Agent と Purple Agent やりとりはエージェント間通信のオープンなプロトコルである Agent2Agent (A2A) プロトコルを介して行われます。

FieldWorkArena Green Agent 構成

GitHub Actions を中核とした自動化パイプライン

評価実行基盤には GitHub Actions を採用しています。Green Agent / Purple Agent の Docker イメージビルドを行い、評価タスクの自動実行し、各タスクの結果に対して Leaderboard の自動更新を行うことが可能です。これにより、従来は人手に依存していた FieldWorkArena の評価を、「誰でも・何度でも・同じ条件で」実行できる評価システムとして提供できるようになりました。

パイプライン構成

苦労した点

FieldWorkArena には、動画などのサイズの大きいマルチモーダルデータが多く含まれていますが、当初、本コンペではマルチモーダルデータの取り扱いに関する具体的なルールが明確に定義されていませんでした。そのため、コンペ主催者側と直接コミュニケーションを取りながら、利用可能なデータや運用ルールを一つずつ確認・整理していく必要がありました。調整を進める中で明らかになったのが、コンペの評価環境ではエージェント間通信において転送可能なファイルサイズに制限があるという点です。この制約と限られたコンペ期間と対応可能な工数を考慮した結果、今回は大容量の動画データを必要とするタスクを見送り、実行可能なタスクに評価対象を絞る判断をしました。

また、本コンぺのコンセプトに合わせて、評価の実行からリーダーボードの更新までを一貫して GitHub Actions で自動化するパイプラインを構築する必要がありました。この過程で、従来の評価スクリプト単体では考慮してなかった、2種類のエージェントを安定して起動/停止させるためのヘルスチェックや評価中にエージェントが停止した場合の再試行ロジックも加える必要がありました。「動けばOK」という実験コードではなく、「他のチームも使う評価の土台」として、どれだけ堅牢に作り込むか。この点については特に頭を悩ませた部分であり、今回の取り組みの中でも最も多くの時間と労力を費やしたポイントでした。

審査基準、結果

コンペティション Phase 1 は 2025年10月16日より2026年1月31日まで開催されました。エントリーされた各 Green Agent に対して、以下のような観点で審査が行われました。

  • Goal & Novelty / Analysis
  • Scope & Scale
  • Evaluator Quality
  • Validation & Quality Assurance
  • Reliability
  • Impact & Reusability

FieldWorkArena の「実環境の画像・動画・文書に基づいた、現場タスク志向のベンチマークであること」、「現場エージェントに必要な能力を広くカバーしていること」、「AgentBeats 上で実際に動作する Green Agent として実装し、リーダーボード運用が可能な状態まで作り込んでいること」が評価され、Multi-agent Evaluation トラックで 2nd Place という結果になりました。コンペ主催者からは、「現時点ではトラックごとエントリー数を公開できませんが、特に応募が多かった人気トラック上位10に Multi-agent Evaluation トラックが含まれています」と連絡がありました。そのような状況の中で高い評価を得られたことに、我々は大きな自信を感じています。

もちろん課題もあります。今回エントリーしたシステムでは、本コンペの制約から実行可能なタスクを絞っています。しかし、単に実行できるかどうかだけでなく、評価指標としての妥当性やベンチマークとしての価値をどう維持するかも同時に考える必要があり、「どのタスクを優先的に評価するか」という選定も考慮すべきだと思います。これらの改善点も踏まえ、さらなる発展を目指していきます。

まとめ

本記事では、我々が公開している Agentic AI 評価用ベンチマーク FieldWorkArena を用いたエージェント評価システムが AgentX AgentBeats Competition で2位を受賞した経緯と、その構成、開発中の苦労話をご紹介しました。この取り組みを通じて、FieldWorkArena が「論文だけのデータセット」から「実際に動く評価エージェント」へと進化できたことは、これからの現場向け Agentic AI 開発にとって、とても大きな一歩になったと実感しています。

FieldWorkArena を利用したコンペティションの Phase 2 (Purple Agent の構築) は 2026年4月6日より開始となります。興味のある方はぜひチャレンジしてみてください!!

関連情報

blog.fltech.dev