
こんにちは、人工知能研究所の浅井・秋間・竹森です。この記事では、マルチAIエージェントシステムを適用する上で課題となる、(組織間で異なる要求を持った)エージェント同士の連携技術についてご紹介します。
組織の垣根を越えて連携するマルチAIエージェント
現在、AIが自律的に動作するAIエージェントの研究や実用化が盛んに進められています。そして、複雑なタスクを解決するための単一のAIエージェントだけでなく、異なる機能をもつ複数のAIエージェントが協調して動作するマルチエージェントシステムの研究が活発に行われています(Tran et al., 2025, Chen et al., 2024)。これらの複数のAIエージェントは、企業や実社会における様々な組織の垣根を越えて連携することが望まれます。本ブログ記事では、組織間のマルチエージェント連携に関する以下の2つの技術を紹介します。
- 不完全情報のもとでの最適化技術(不完全情報最適化技術)
- 不確実な状況でエージェント自身が自律的に行動戦略を進化させる適応的進化技術
不完全情報のもとでの最適化
マルチAIエージェントシステムにおいては、環境が変わったり、AIエージェントの学習に用いるデータが変わった場合に、通常の機械学習モデルの運用と同様、各AIエージェントの最適化や調整を行う必要があります。ここで、マルチAIエージェントのための最適化には主に2つの課題があります。一つは、マルチAIエージェントシステムは不完全情報である点です。自社が所有しているAIエージェントはモデルのウェイトにアクセスできるなど、ホワイトボックスモデルですが、複雑なタスクを解決するために複数のAIエージェントを協調させる場合に、それらすべてがホワイトボックスモデルであるとは限りません。例えば、他社のAIエージェントと連携する場合や、LLMをAPI経由で使っている場合、マルチAIエージェントの意思決定に人間の専門家や熟練者がかかわる場合などです。つまり、各AIエージェントの内部情報は不明であり、入出力だけが明らかである設定です。このような場合において、(マルチAIエージェントの)最適化を行うことを不完全情報最適化と呼んでいます。不完全情報最適化を行うために、既存手法(例えばブラックボックス最適化など)を適用することもできますが、以下の図で表されるように各AIエージェントが
というパラメータをもつので、AIエージェントの数の指数オーダーで最適化の難しさが増大します。これが2つ目の課題です。

技術の内容と効果
上記の課題を解決するため、不完全情報の下でも効率的にマルチAIエージェントの最適化を可能にする技術を開発しました。 マルチAIエージェントの最適化のために、上図のように最終的に最適化したい指標(ユーザの満足度やシステム全体の評価値)の他に各AIエージェントの中間評価値を使うことができ、この中間評価値を用いて効率的な最適化を行うことができます。この設定は、function networkの最適化やgray-box最適化(Astudillo and Frazier, 2021)と呼ばれます。しかし、これにはさらに最終的な評価値を最適化(全体最適)するための適切な中間評価値が不明であるという課題があり、我々は適切な中間評価指標の最適化も同時に行う不完全情報最適化技術を開発しました。
以下の図の実験では、サプライチェーンマネジメント(SCM)の例で不完全情報最適化を行っています。このマルチAIエージェントシステムは、需要予測と在庫最適化という2つのAIエージェント(AIモデル)からなり、実験ではシミュレータ環境で既存のブラックボックス最適化手法(LogEI)と比較しました。横軸は最終評価値を観測した回数を表し、縦軸は最終評価値(平均reward, 高い方が良い)を表わしています。2つのAIエージェントからなる小規模なシステムながら、提案手法(青色)が既存手法(オレンジ色)より効率的に最適化できていることが分かります。
適応的進化技術
技術概要
マルチAIエージェントが他者と交渉・協調する際には、相手の考えや利害が完全には分からない「不完全情報」下で意思決定を行う必要があります。適応的進化技術は、このような不確実な状況でも相手の利害や戦略を推定し、エージェント自身が自律的に行動戦略を進化させる技術です。具体的には、断片的な対話内容から相手の価値観をベイズ的に更新する「信念空間」と、双方の満足度(効用)を可視化する「効用空間」を組み合わせ、効率性と公平性の両立を実現します。行動戦略の探索には、先行研究 AFlow (Zhang et al., 2025) で用いられたモンテカルロ木探索の枠組みを発展的に活用し、戦略の改変・評価を繰り返すことで、交渉経験を通じてより洗練された戦略を自動生成します。この結果、単なる利得の最大化にとどまらず、相互に納得可能な「公平な合意(envy-free)」を導き出し、不確実な環境でも高い成果を発揮するマルチAIエージェントの実現を可能にします。

初期評価
初期的な評価では、小売業における仕入れ条件交渉を模したシナリオを対象に、提案手法の有効性を検証しました。リベートや販促支援、ボリュームコミットといった複数の交渉要素を含む設定において、適応的進化技術を用いたエージェントは、従来の固定戦略やルールベースの手法と比較して、より高い合意率と安定した効用を示す傾向が確認されました。また、交渉履歴から再学習したエージェントは、相手の発言傾向に応じて譲歩と主張のバランスを自律的に調整し、全体効用と公平性の両指標で最も高いスコアを記録しました。これにより、適応的進化技術が不完全情報環境においても効率的かつ公平な合意形成を実現できることが確認されました。
もっと知りたい読者の方へ
人工知能研究所では、不完全情報のもとでの組織間マルチエージェント連携技術と、その活用例を、様々なチャネルで発表・公開しています。興味がありましたら、以下のリンク先もぜひご覧になってください。
