こんにちは、富士通研究所の空間ロボティクス研究センター)長村、人工知能研究所)渡邉です。
今回は、ICASSP 2025に採択された2つの研究成果をご紹介します。
ICASSP 2025について
ICASSP(IEEE International Conference on Acoustics, Speech, and Signal Processing)は、音声・音響・信号処理分野における最大級のトップカンファレンスです。
- 開催日:2025年4月6日〜11日
- 開催地:Hyderabad, India
- 論文投稿数:6,947件
- 採択数:3,145件(採択率:45.3%)
このような競争率の中、私たちの2件の研究が口頭発表に採択されたことは非常に光栄です。 *1
本記事の概要
AI技術の社会実装が進む現在、以下のような課題への対応が強く求められています。
- 限られた実データでも高精度を維持すること
- 学習したデータを効率的に忘れさせること
本記事では、それぞれの課題に対応する以下の2件の研究成果を紹介します。
- Person Re-IDの性能を強化する画像生成技術
- 擬似ラベルによる効果的な忘却を導く近似アンラーニング技術
どちらも、社会実装とプライバシー意識が高まる時代において極めて重要な技術的挑戦といえます。
1. 少ないデータでも高精度!DiffusionでPerson Re-IDを強化する Identity Diffuser
研究背景
人物再識別(Person Re-ID)は、異なるカメラ間で同一人物を照合・識別する技術です。例えば、ある監視カメラに映った人物が、数分後に別のカメラに映った際に、「同一人物である」と自動的に認識することを目的としています。 この技術は、防犯・監視システムにおける不審者の追跡、小売店での顧客行動分析など、さまざまな場面で活用されています。しかし、高精度なモデルの構築には大量のラベル付き画像が必要ですが、
- プライバシー保護の観点から収集が困難
- ラベル付けに高いコストと手間がかかる
といった理由から、十分な学習データを確保するのは容易ではありません。そのため近年では、合成データによる補完が注目されており、3Dレンダリング、敵対的生成ネットワーク(GAN)、拡散モデル(Diffusion Model)等を用いた人物再識別向けの合成データ生成手法が多く提案されています。
既存手法の課題
これまでの人物再識別における合成データ生成手法は、以下の3つに大別されます。
アプローチ | 代表的手法 | 特徴 | 課題 |
---|---|---|---|
① 3Dレンダリングベース | Randperson | CGでのリアル表現 | 高コスト・ドメイン差が大きい |
② GANベース | PG-GAN | 軽量かつ高速に画像生成 | ノイズ・不安定性・画質劣化 |
③ Diffusionベース | PIDM | 高画質な画像生成 | ID保持が不安定・条件制御が難しい |
ただし、これらの手法にはそれぞれ限界があり、中でも近年State-of-the-art (SOTA)として注目されているDiffusionベース手法は、高画質な人物画像を生成できる一方で、「IDの一貫性」との両立が難しく、人物再識別への応用にはさらなる改良が求められています。
提案手法
本研究では、この課題を解決するために、拡散モデルに ID特徴とポーズ情報の両方を条件として与える
新たな画像生成手法「Identity Diffuser」を提案しました。Identity Diffuser は、以下の特徴があります:
- ID特徴とポーズの同時条件付けにより、同一人物の異なる姿勢を自然に再現
- 拡散モデルの安定性と制御性を活かし、GANで課題だったノイズやモード崩壊を回避
- Classifier-Free Guidanceを活用し、多様性と精度を実現し、Re-ID性能を向上
Identity Diffuser の処理フロー
1. 入力
- 元画像(同一人物)
- 目標ポーズのヒートマップ
- ID特徴ベクトル(Re-IDネットワークで抽出)
2. 画像生成
- 拡散プロセスでノイズから画像を再構成
- ポーズを変えつつ、IDの一貫性を保った画像を生成
3. 活用方法
- 生成画像を用いて Re-ID モデルを事前学習(pre-train)
- 実データを用いてファインチューニング(fine-tune)
評価結果
Method | mAP(精度) | FID(画像の自然さ) |
---|---|---|
提案手法(Identity Diffuser) | 〇 最大+5.1%向上 | 〇 PIDMよりも低FID |
既存手法(PIDM) | △ 良好だが安定性に課題 | △ 一部ノイズやぼけあり |
特に、実データを20%しか用いない訓練条件においても、提案手法は既存手法を大きく上回る精度を記録しています。
生成画像の比較
提案手法(Identity Diffuser)は、既存手法(PIDM)と比較して、人物の質感や背景の自然さにおいて優れた画像生成が可能です。
2. AIから“忘れさせる”技術:近似アンラーニングを効率的に実現するPseudo-Labeling
研究背景
機械学習モデルからの「忘却(Machine Unlearning)」は、AI産業の発展とそれに伴う責務の増大に対応する上でますます重要になっています。EU GDPRなどに代表される規制は「自分のデータを削除してほしい」という権利( Right to be Forgotten)を保証しており、企業はユーザープライバシーを保護する責務が求められます。また忘却はデータの誤注入などを除去する際にも重要であり、近年多くの技術が提案されています。
従来技術と課題
本分野の手法は、大きく正確アンラーニング(Exact Unlearning)と近似アンラーニング(Approximate Unlearning)の二系統に分けられます。
- 正確アンラーニング: 忘却対象のデータを完全に除外したうえでモデルを最初から再学習する手法等が挙げられます。厳密な忘却を可能とする手法ではありますが、近年モデルサイズの巨大化に伴い再学習に要する計算コストが大きな課題となります。
- 近似アンラーニング: 忘却対象を含む学習済モデルに対して任意の忘却アルゴリズムを適用し、対象データの影響を効率的に最小化し正確アンラーニングに近い状態を目指す手法です。計算コストは低く抑えられる一方、モデル内部に残る情報を完全に忘却することは保証しません。そのため、 MIA(Membership Inference Attack)*2指標による忘却性能の評価が必要不可欠かつ最も重要となります。
アプローチ | 実施コスト | 忘却性能 |
---|---|---|
正確アンラーニング | ↑ 再学習に類するためコスト大 | ↑ 厳密忘却のため忘却性能は最大 |
近似アンラーニング | ↓ 学習済モデルの微調整が主のためコスト小 | →忘却アルゴリズムに依存 |
近似アンラーニングにおける1つのアプローチとして疑似ラベリング法が挙げられます。従来は忘却対象データにランダムな疑似ラベルを付与しそれらデータセットを用いてファインチューニングする手法が主流でした。しかし、この方法はモデル出力の振る舞いまでは考慮しておらず出力ラベルの誤り率(ラベルエラー率)は向上しても、出力挙動からモデル内部の情報有無を判断するMIA指標(漏洩リスク評価)の観点では効果が限定的であるという課題があります。
提案手法
本研究は近似アンラーニングにおいて どのデータに、どんな疑似ラベルを与えるかを精密に設計した 2 種類の新しい疑似ラベリング手法を提案します。これらは忘却対象データに対する正確アンラーニングの振る舞いを効率的に模倣することを目的としています。また両手法はそれぞれ学習プロセスの異なる段階に着目して設計されており、互いに補完し合うことで忘却に要するコストを抑えつつMIAの改善を目指します。
- WD-Pseudo(Wrong Direction Pseudo-Labels)
まず学習済モデルを出発点とします。次に残したいデータのみで簡易な追加学習を実行し、正確アンラーニングのパラメータに近づくよう微調整されたモデルを新たに取得します。この両者のモデルで忘却対象データを推論し、学習済モデルでは正しく正解/記憶していたのに後者の微調整モデルでは誤り/忘却の方向に推論がシフトしたデータに着目します。その特定データと誤り方そのものを疑似ラベルとして採用します。これはモデルにとって記憶が浅く比較的忘却しやすいデータポイントを特定する手法と捉えることができ、正確アンラーニングの中でも再現しやすい誤りを効率的に模倣することが狙いです。 - LI-Pseudo(Localized Incorrect Pseudo-Labels)
未学習モデルを出発点とします。次に残したいデータのみでこのモデルを簡易に学習したスクラッチモデルを開発します。これは正確アンラーニングのパラメータに少しだけ近づいた学習初期状態のモデルと見なすことができます。このモデルで忘却対象データを推論すると確信度が高いにも関わらず誤っているデータが存在するため、その特定データとその誤り方を疑似ラベルとして採用します。これは学習の初期段階で適切な記憶が定着しにくいデータポイントを推定する方法であり、特定データはその他データ群から見て異質なため正しく記憶しにくいパターンとして早期に誤分類するもので、正確アンラーニングにおいても再現されやすい誤りと考えられます。
評価結果
提案手法について、CIFAR-10及びCIFAR-100データセットを用いて性能評価を行いました。評価の結果、提案手法はラベルエラー率やMIAに対する頑健性において、ランダムな疑似ラベルを割り振る従来手法を上回る性能を示しました。この成果は、著者が座長を務めた「Deep Learning Fairness and Privacy」セッションにて発表しました。
条件 | ラベルエラー率 | MIA(漏洩リスク評価) |
---|---|---|
従来手法(rand-pseudo) | △ 一定の向上は可能 | △ 漏洩リスクは一部残存 |
提案手法 | 〇 従来手法を超える | 〇 最大+4.7%リスク低減 |
おわりに
AIが社会に浸透する中で、プライバシー保護と高精度な学習の両立はますます重要なテーマとなっています。 今回紹介した2件の研究は、それぞれ生成モデルによる学習効率の改善と擬似ラベリングによる安全性強化という異なる方向から、実社会におけるAI活用の課題に挑んだものです。 今後の社会実装や研究発展のヒントとして、ぜひご参考いただければ幸いです。
関連情報
- ICASSP公式サイト
- 論文1: Attribute Conditional Diffusion-Augmented Person Re-Identification
https://ieeexplore.ieee.org/document/10887789
- 論文2: Pseudo-Labeling for Enhanced User Privacy in Approximate Machine Unlearning