Please enable JavaScript in your browser.

SSII2025参加報告~プライバシー・セキュリティに関する研究成果の発表と最先端のロボティクス技術動向~ - fltech - 富士通研究所の技術ブログ

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

SSII2025参加報告~プライバシー・セキュリティに関する研究成果の発表と最先端のロボティクス技術動向~

はじめに

こんにちは。富士通研究所 入社2年目の野路です。学生時代は点群処理による自動運転のための地図作成[1]に取り組んでおり、現在はその専門性を活かし、今年度より新設された「空間ロボティクス研究センター」にて、ロボットのための地図作成の技術開発に取り組んでいます。 この度、2025年5月に開催された第31回画像センシングシンポジウム(SSII2025)に参加し、富士通からは2件の研究発表を行ってきました。私の発表はスポットライト発表16.3%(18/110件)に選出され、多くの聴講者の前でお話しする機会もいただきました。 今回のSSII2025参加では、ロボティクス分野の最先端研究をキャッチアップすることも重要な目的の一つでした。本記事では、SSII2025での富士通の発表内容を中心に、最先端のロボティクス技術動向についても報告いたします。

SSII2025について

SSII(Symposium on Sensing via Image Information: 画像センシングシンポジウム)は、画像センシング技術を軸として機械学習・パターン認識・人工知能(AI)分野の研究者・技術者が集結する国内最大級の学会です。第31回目となる今回は「『知る』からはじまる協調的イノベーション」をテーマに掲げ、3日間にわたって開催されました。

開催概要

  • 開催日程: 2025年5月28日(水)~30日(金)
  • 会場: 東京ビッグサイト レセプションホールA・B
  • テーマ: 「知る」からはじまる協調的イノベーション
  • 参加形式: 現地開催(一部オンライン配信併用)

SSIIの特徴として、基礎研究から実用化まで幅広い内容を扱い、特に企業と学術界の橋渡し役として機能しています。2007年以降は発表者と参加者のインタラクティブな議論を重視した運営を行っています。会場には多くの企業ブースも出展されており、他社の先進的な取り組みや製品を直接見聞きすることができ、今後研究していくロボティクス分野の最新動向を把握する絶好の機会となりました。

富士通の発表内容

今回、富士通からは私と同研究センター長村の2名が発表しました。発表内容は前年度まで所属していたデータ&セキュリティ研究所での研究成果です。どちらも、AI技術の社会実装が進む中で重要性が増している「プライバシー・セキュリティ」に関連する研究です。

1. プライバシーを守りながら"手足の動き"まで捉える:3Dセンサを用いた「人体構造に基づく高精度姿勢推定」(野路)

著者の発表の様子

研究背景

3D人物姿勢推定は、行動検知[2]や歩容照合[3]など幅広い分野で活用される基盤技術です 。しかし、従来のカメラを用いた手法は、顔や服装が映り込むためプライバシー侵害のリスクがありました。そこで近年、3Dセンサ(LiDARや深度カメラ)から得られる「点群データ」を用いた手法が注目されています。点群データは人の見た目ではわかりにくく、プライバシー保護に有利な一方で、データがまばらであるため、ノイズやオクルージョンの影響を受けやすく、特に細かい動きが多く形も複雑な手や足の先の関節を高精度に推定することが困難でした。

提案手法

この課題に対し、私たちは人体構造の知識を組み込んだ新しい3D人物姿勢推定手法を提案しました。本手法は、以下の2つの主要なモジュールで構成されています。

  • 階層的特徴抽出:点群データを関節(Joint)、部位(Part)、全身(Global)という階層で捉え、人体構造に基づいた点群の“形”の特徴量を効果的に抽出します。
  • 時空間情報の活用:点群情報と過去フレームの関節座標情報の情報を組み合わせ、次に来る自然な"動き“を予測します。

これらにより、まばらな点群データからでも、人体として自然な骨格の動きを、特に推定が難しかった手足の関節まで高精度に推定することが可能になります。

提案手法のフレームワーク

実験結果

3D人物姿勢推定のデータセットITOPを用いた評価実験の結果、従来手法と比較して特に手足の関節推定において大幅な精度向上を達成し、手足も含めた全身の精度においても最先端の精度を達成しました。また、8.74msという高速な推論時間を実現し、リアルタイム性が求められる実応用にも適していることを示しました:

提案手法と従来手法[4]の手足・全身の関節の推定精度と推論時間の比較
アプローチ手の精度(PCK)足の精度(PCK)全体精度(mAP)推論時間
提案手法75.59%89.23%90.73%8.74ms
従来手法比+3.88%+4.93%+1.54%同等(10ms以下)

姿勢推定の結果比較(左:正解、中央:従来手法 SPiKE[4]、右:提案手法):手足の精度に注目

2. セキュリティ対策に向けた、1枚の画像から"地域性"を手がかりに地理的位置を高精度推定: Coarse-to-Fine戦略によるマルチタスク学習を提案(長村)

著者の発表の様子

研究背景

画像位置推定は、画像から地理的な撮影場所(緯度・経度)を推定する技術です。この技術は、交通整理や都市計画への応用に加え、TwitterなどのSNS上に投稿された画像の位置情報をもとに、偽情報や誤情報を検出するセキュリティ対策にも活用されることが期待されています。しかし、既存の手法では、地域や都市レベルで見た目が類似する場所の判別が難しく、高精度な位置推定が困難であるという課題がありました。近年、画像と言語の関係を学習するVision-LanguageモデルであるCLIPを応用したGeoCLIP[5]が登場し、高い性能を示していますが、地域固有の文脈情報を十分に活用できていないという欠点があります。

提案手法

そこで私たちは、GeoCLIPのフレームワークを基にマルチタスク学習を導入した新たな手法を提案しました。本手法では、以下の2つのタスクを同時に学習する「Coarse-to-Fine(粗から密へ)」戦略を採用しています。

  • 地域分類(Coarse): 画像がどの都道府県で撮影されたかを分類
  • 位置推定(Fine): 都道府県内で、より詳細な緯度・経度を特定

これらのタスクを共同で学習させることで、モデルは地域に関する手がかりを活用しつつ、より正確な位置推定を実現します。これにより、従来手法と比較して高精度な位置推定が可能となりました。

提案手法のフレームワーク

実験結果

日本国内で撮影された商用利用可能なFlickrデータセット(訓練画像36,236枚、テスト画像4,667枚)を用いた評価において、提案手法は、ベースラインとなる従来手法GeoCLIPを全ての評価指標で上回りました。特に重要な指標であるRegion(距離範囲200km以内)では+1.6%、City(距離範囲25km以内)では+2.7%の精度向上が確認されました。

従来手法GeoCLIPと提案手法の精度比較

レベル 距離範囲 従来手法の精度 提案手法の精度(向上幅)
Street 1km以内 28.8% 28.9%(+0.1%)
City 25km以内 64.6% 66.1%(+1.5%)
Region 200km以内 85.9% 87.5%(+1.6%)
Country 750km以内 94.2% 96.9%(+2.7%)
Continent 2500km以内 96.7% 97.2%(+0.5%)

最先端のロボティクス技術動向

今回のSSII2025では、特にロボティクス分野において「論文の中の技術的に優れた手法を、いかにして現実世界で動かすか」というテーマが、大きな潮流となっていると感じました。ここでは、実応用における最先端のロボティクス技術動向として、私の研究テーマである「ロボットのための地図作成」に関する発表3件と、最前線の議論について報告します。

1. 地図作成技術の実用化に向けた課題解決

ロボットが実環境で賢く動き回るためには、まず周囲の環境地図を作り、その中で自分がどこにいるかを把握する技術が不可欠です。しかし、実環境では様々な問題に直面します。今回のSSIIでは、これらの具体的な課題解決に取り組む研究が目立ちました。

発表会場の様子

1.1 視覚的類似性への挑戦(株式会社日立製作所)[6]

カメラ画像による地図作成技術では、建物の異なる階など、見た目がそっくりな場所を一度通った場所だと誤認識し、地図が破綻する問題がありました。株式会社日立製作所の発表では、画像の見た目だけでなく「空間的な近さ」という物理的な制約を加えることで、この誤認識を防ぐアプローチを提案していました。これは、人間が「ここはさっきの場所に似ているけど、フロアが違うから別の場所だ」と判断するのに似ており、画像処理だけにこだわらない、非常に実用的な解決策だと感じました。

1.2 悪天候への挑戦(青山学院大学) [7]

自動運転の実用化には、雨や霧などの悪天候に強い4Dミリ波レーダーが期待されていますが、地図作成に用いるには点の数が少なく不安定という弱点があります 。青山学院大学の発表では、ミリ波レーダーが捉えた点の「動き」の情報を利用し、過去の点群を現在位置に統合し、まばらな情報を密で安定した情報へと変換する手法が提案されていました。「ミリ波レーダーは点の数が少ないため地図作成には向いていない」という学術的な通説を押し退け、「悪天候に強い」という実用的な強みに焦点を当てたこの取り組みは、非常に実践的なアプローチだと感じました。

1.3 コストへの挑戦(NTT株式会社) [8]

カメラ画像だけで地図を作るには、従来、移動しながら連続的に大量の写真を撮影する必要があり、これが地図データの生成時間の長さと容量の肥大化に繋がるという課題がありました。 NTT株式会社の発表では、LiDARという高精度な3D距離センサで空間情報を補い、カメラからは視覚的な情報の提供にとどめることで、AIが大量の画像の中から地図作成に本当に必要な画像だけを自動で選び出す技術が提案されました。 これにより、地図の精度を落とすことなく、生成時間と容量を大幅に削減できることを示しており、商用展開に不可欠なコスト視点からの研究テーマ立案も意識しないといけないと感じました。

2. オーガナイズドセッション「どの論文でもダメなんだけど!〜実応用とその課題〜」

今回のSSIIで特に象徴的だったのが、「どの論文でもダメなんだけど!〜実応用とその課題〜」と題されたオーガナイズドセッションです。アカデミアで発表される最先端の技術と、それを現場で動かす実応用との間にある「ギャップ」に焦点を当てた本セッションは、質疑応答が飛び交い大盛況でした。ここでは、特に印象的だった2社の発表から、ロボティクス実用化のリアルな課題と解決へのヒントを報告します。

2.1 自動運転の現場(Turing株式会社)

End-to-Endの自動運転モデル開発に取り組むTuring株式会社の発表では、研究室レベルのシミュレーション評価と実車走行との間に存在する深刻なギャップが指摘されました。モデルが自身の行動結果(カメラ映像の変化)を次の入力として受け取る実車環境では、シミュレーションでは見えなかった僅かなエラーが積み重なり、走行が破綻することがあるといいます。また、データセンターの高性能GPUではなく、車載の非力なエッジデバイスでリアルタイムに推論を動かすための軽量化・最適化の工夫や、学習データの「量」だけでなく、一貫性のある運転スタイルといった「質」を担保することの重要性が語られました。論文の性能値だけでは測れない、泥臭いエンジニアリングこそが実用化するうえで避けて通れない道だと強く感じました。

2.2 農業ロボットの現場(株式会社トクイテン)

有機ミニトマト農場の自動化を目指す株式会社トクイテンの発表は、システム全体で課題を捉え直す重要性を示唆するものでした。ミニトマトの収穫ロボットを開発する中で、当初は人間の手のように器用に実を「捻り採る」高精度なハンドを追求していました。しかし、発想を転換し、実に優しく当てて「吸引する」方式を採用したところ、収穫速度が劇的に向上しただけでなく、AIに求められる認識精度もミリ単位からセンチ単位へと大幅に緩和できたといいます。これにより、複雑な姿勢制御モデルが不要になり、シンプルな物体検出モデル(YOLO)で十分対応可能になったという事例は、まさに目から鱗でした。「難しい問題をAIで解く」のではなく、「問題自体を、AIが解きやすいようにデザインし直す」というアプローチは、ロボティクスを社会実装する上で極めて重要な視点だと感じました。

おわりに

今回、2年目研究員としてSSIIに参加し、スポットライト発表という貴重な機会もいただき、大変良い経験となりました。さらに、今年度から「空間ロボティクス研究センター」で研究を始める私にとって、示唆に富む発表を数多く聴講できたことも大きな収穫です。今回の学会で得た知見やフィードバックを、今後の研究開発に活かしていきたいです。 また、前所属の研究所で取り組んだプライバシー・セキュリティ関連の研究成果を、このような形で発表できたことを大変嬉しく思います。学会を通じて多くの方々と議論し、自分たちの研究の位置づけや今後の方向性を再確認することができました。 今後も研究成果を積極的に発信し、外でも通用する研究者になるべく尽力してまいります。

関連情報

  • [1] Noji, Kotaro, Gou Koutaki, and Shuhei Noguchi, "Camera-LiDAR Calibration Using Total Station", IEEE Access, 2025.
  • [2] Actlyzer:https://www.fujitsu.com/jp/about/research/technology/actlyzer/
  • [3] HID 2025 – The 6th International Competition on Human Identification at a Distance 2025:https://hid.iapr-tc4.org/
  • [4] Ballester, Irene, Ondřej Peterka, and Martin Kampel, "SPiKE: 3D Human Pose from Point Cloud Sequences", International Conference on Pattern Recognition, Springer, Cham, 470-486, 2025.
  • [5] Vivanco Cepeda, Vicente, Gaurav Kumar Nayak, and Mubarak Shah. "Geoclip: Clip-inspired alignment between locations and images for effective worldwide geo-localization", Neural Information Processing Systems 36, 8690-8701, 2023.
  • [6] 平川康則, 森田健一, 永吉洋登, 秋山高行, “空間的制約とDetector-Freeな画像マッチングを用いた視覚的類似性と近接被写体に対して頑健なループクロージャ”, 第31回画像センシングシンポジウム, IS2-08, 2025.
  • [7] 金子竜士, 鷲見和彦, “自己運動情報を用いた点群補正による 4D レーダー SLAM精度の向上”, 第31回画像センシングシンポジウム, IS2-07, 2025.
  • [8] 辻真彦, 新垣仁, 谷田隆一, “LiDAR 点群を活用した Visual Localization における推定精度の劣化を抑えた参照画像の削減手法”, 第31回画像センシングシンポジウム, IS1-12, 2025.
  • 第31回画像センシングシンポジウム(SSII2025)公式サイト:https://pub.confit.atlas.jp/ja/event/ssii2025
  • 論文1:野路晃太郎, 長村一樹, 篠原昌子, 安部登樹, “点群を用いた階層的特徴と時空間情報に基づく高精度3D人物姿勢推定”, 第31回画像センシングシンポジウム, IS3-01, 2025.
  • 論文2:Kazuki Osamura, Koki Inoue, Hiroaki Sato, Yuichi Hanada, Akira Fujii, “Refining Image Geolocation with Coarse-to-Fine Multi-Task Learning”, 第31回画像センシングシンポジウム, IS2-30, 2025.