Please enable JavaScript in your browser.

"想像"する空間:複数ロボットの協調動作を実現 - fltech - 富士通研究所の技術ブログ

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

"想像"する空間:複数ロボットの協調動作を実現

こんにちは、空間ロボティクス研究センターの長村です。
本記事では、Fujitsu Technology Update(FTU2025)の取り組みとして、人とロボットが現実世界で協調するための「空間World Model」 の研究開発について紹介します。

また本日、空間World Modelに関する公式プレスリリースも公開しました。併せてご覧いただければ幸いです。

1. ロボットが人の生活空間に広がる時代

近年、AIロボットは工場や倉庫の枠を超え、オフィス・カフェ・店舗・空港など、人が行き交う生活空間に急速に進出しています。 こうした “Physical AI” の拡大に伴い、多様な人とロボットが同じ空間で同時に活動する場面が増え、安全性と効率性を両立した運用がこれまで以上に求められるようになりました。

しかし、現在のPhysical AIは、製造業や倉庫のような整備された・制御可能な環境とは異なり、人の動きが複雑で状況変化が激しい生活空間では、依然として人とロボットの協調が大きな課題となっています。

実際の現場では、たとえば、

  • 歩行者と接触しそうになる配送ロボット
  • 互いの動きをうまく調整できない自律ロボット
  • 複雑な状況変化を読み取れないサービスロボット

といった問題が顕在化しています。

これらの背景には、ロボット“単体”の限られた視野と局所的な判断だけでは、空間全体の状況や文脈・因果関係を十分に把握できないという構造的な限界があります。

現場で顕在化するロボット運用の課題

そこで私たちは、ロボットだけでなく空間全体を知能化するという発想にもとづき、空間World Modelの研究開発に取り組んでいます。長年のVision AI研究で培った技術を基盤に、整備されていない複雑な現実世界の理解力を高めることで、Physical AIを次の段階へ進化させることを目指しています。

2. 空間World Modelとは?

空間World Modelは、天井カメラ、ロボット搭載カメラ、各種センサーから得られる情報を統合し、空間全体の状態を理解し、その背後にある因果関係を捉え、未来の状況を想像するための技術です。 従来の「監視」や「センシング」を超え、“空間の頭脳”として働く点が特徴です。

従来のWorld Modelとの違い

従来のWorld Modelは大きく2種類に分類されます。

①: 映像生成型

テキストや映像から次のシーンを高精度に生成するモデルですが、5秒の予測に30分を要するなど計算負荷が大きく、実世界のロボット制御には現実的に利用できません。

②:未来予測型

エージェントの状態を抽象化し高速に次状態を予測できますが、扱える範囲はエージェント自身の周辺のみであり、空間全体の理解には不向きです。

World Modelのユースケース

従来のWorld Modelはシミュレータや映像生成などの“閉じた世界”における予測が中心で、実世界へ直接働きかける用途は想定されていません。

空間World Modelのコンセプト

空間World Modelは、空間全体の人・ロボット・モノの関係性を抽象化して捉え、未来の行動や状況をリアルタイムに予測します。 これにより、予測した結果をそのまま実世界のロボット制御へ反映でき、人が活動する現実空間での運用に適用可能です。

従来のWorld Modelと空間World Modelの比較

特徴①:複数視点を統合する空間World Model構築技術

固定カメラと移動ロボットビジョンとで位置と取得タイミングのずれを相互補正

生活空間では人やロボットが絶えず動き、視点も状況も常に変化します。そのため、天井カメラとロボット搭載カメラをリアルタイムに統合することは大きな技術課題でした。

従来の統合手法には次の課題がありました。

  • 視野やカバー範囲がカメラごとに異なる
  • 視野角・レンズ歪み等により見た目が一致しない
  • 画素レベルの統合はノイズに弱く、動的環境で不安定

そこで空間World Modelでは、画素単位での一致に依存せず、各カメラで検出した「人」や「ロボット」といった個体(エンティティ)ごとの位置情報を手がかりに、固定カメラとロボットカメラのずれを相互補正する方式を開発しました。

このアプローチにより、

  • カメラ間の位置ズレ
  • 取得タイミングのズレ
  • 視野差やレンズ歪みの影響

を抑えながら複数視点を統合し、空間全体を一貫して把握できます。 その結果、リアルタイムに次の情報を高精度に取得できます。

  • 人・ロボット・モノの正確な位置と軌跡
  • ロボット単体では見えない死角領域
  • 時間同期された統合視点による空間マップ

特徴②: 空間全体の未来を予測する技術

空間内の人・ロボット・モノの未来を想像

ロボットが人と協調するためには、相手の意図を理解し、その先の未来を予測する能力が不可欠です。 しかし従来技術では、

  • ロボット視点に依存し見えている範囲しか扱えない
  • 空間全体の状況変化を捉えられない
  • 相手の意図や未来行動を扱えない

空間World Modelは、空間内の関係性を統合し、因果構造にもとづいて「誰が・どの状況で・どんな意図を持ち・次にどう動くか」を推論します。 この因果的理解を通じて、空間内でこれから起こりうる未来の変化を高精度で推論できます。 また、空間World Modelが想像した未来に基づき、次の協調動作プランを生成します。

  • 最適なタスク割り当て
  • 経路調整
  • 混雑回避・衝突回避

その結果、人が行き交う複雑な環境でも、ロボットが自然に連携し、安全かつスムーズに動作できる空間が実現します。

3. デモ紹介:空間World Modelが支えるマルチロボット協調動作

今回構築したデモシステムは、空間World Modelの特徴を最も分かりやすい例として、複数ロボットの協調動作をリアルタイムに可視化しています。 天井カメラとプロジェクタを組み合わせ、空間World Modelによるリアルタイム推論・制御と、それに基づくプロジェクションマッピングを実現しています。

空間World Modelによるマルチロボット協調デモ(天井カメラとプロジェクタによるリアルタイム可視化)

ロボットは自律的に周囲を認識し動作しますが、想定外の人の動きや混雑が増えると、その判断だけでは限界があります。 そこで空間World Modelが、

  • 空間全体を俯瞰して未来の状況を先読みし
  • 必要に応じてロボットの経路や動作を補正し
  • プロジェクションや音声案内と連動して人にも通知する

ことで、複雑な状況下でも安全な協調動作を可能にします。

通常時:ロボットの自律制御

ロボットが自律的にタスクを進めながら地図を更新し、音声で状況を知らせるなどの即応制御を行います。 一方で、人の往来や混雑が増えると、ロボット単体では空間全体を把握できず、挙動が乱れやすくなります。

ロボット自身の判断のみで動作している状態を示したプロジェクション

状況変化時:空間World Modelによる協調制御

急な人の動き、混雑の発生、衝突リスクなど、状況が不安定になりそうな場面では、空間World Modelが空間の変化を リアルタイムで先読み し、ロボットの動作を調整します。

空間World Modelが禁止エリアへの侵入を先読みし制御する状態を示したプロジェクション

4. 今後の展望

富士通では、空間World Modelの社会実装に向けて、実環境での検証と応用拡大を進めています。 世界最大級テクノロジーフォーラム見本市 CES2026 では、空間World Modelが実現する“未来の協調ロボット”をテーマに、新たなデモ展示を予定しています。

CES2026出展(Coming soon)

また、再開発されるFujitsu Technology Park (FTP)等を通じて、広域環境を用いた実証を行い、空間World Modelを現場レベルで最適化していきます。

FTP再開発等で技術トライアルを進めて、オフィスや工事現場、医療・介護施設で実証

5. まとめ

空間World Modelは、ロボットだけでなく空間そのものを知能化し、両者が協調しながら進化する技術です。今後はFTPの実環境等を活用し、運用データを取り込みながらモデルを継続的に高度化していきます。富士通はこの取り組みを通じて、知能化された空間とロボットが共に進化する新しい社会の実現を目指します。

参考文献

[1] Cosmos World Foundation Model Platform for Physical AI
[2] OpenAI Sora
[3] Mastering Diverse Domains through World Models
[4] Diffusion for World Modeling:Visual Details Matter in Atari
[5] 1x