こんにちは、人工知能研究所の江田です。富士通では、AIの安全な利用を可能にする技術の開発を行っています。 この度研究成果の一つを、機械学習・コンピュータビジョンの最難関会議の一つであるCVPRにて発表しましたので、その内容を紹介します。
本研究は、ベングリオン大学と富士通による共同研究の成果になります。
本技術を用いることで、物体認識AIモデルを、安全で高性能な状態に保つことができるようになります。
論文情報
- タイトル:YolOOD: Utilizing Object Detection Concepts for Multi-Label Out-of-Distribution Detection
- 発表会議:IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024
- 著者:Alon Zolfi1, Guy Amit1, Amit Baras1, Satoru Koda2, Ikuya Morikawa2, Yuval Elovici1, Asaf Shabtai1 (1: ベングリオン大学, 2: 富士通)
- 論文へのリンク: cvpr.thecvf.com
研究背景
Out-of-Distribution Detection
近年の物体認識AIは非常に高性能で、様々な物体のカテゴリを正しく認識できます。 これは、訓練データとして与えた物体の各特性をモデルが理解し、上手く認識するよう学習しているためです。 一方で訓練時に見たことのない物体に対しては、認識方法を学習していないため、当然のことながら正しく認識することはできません。 しかしながら、AIモデルは未知の物体を高い確信を持って無理やり既知の何かのカテゴリに分類しようとすることが知られています*1。 これは人間でいう「知ったかぶり」のようなものです。
例として、画像を与えると、その画像に映る動物のカテゴリを全て列挙するするようなAIモデルがあるとします。 そしてこのモデルは、動物以外の物体に関しては学習を行っていないと仮定します。 ここに、AIモデルにとって未知の物体の画像(例:自転車)を入力したとします。 このようなとき、モデルは自転車を「学習していない物体」とは認識せず、いずれかの動物カテゴリ(例えば「鹿」)に分類しようとします。 我々が未知のものを見たときは、検索する等なんらかの行動を行いますが、AIモデルはしばしば確信を持って既存の何かであると認識します。
上記の例では大きな問題は起こり得ないように思えるかもしれません。 しかし、自動運転システム等の "セーフティクリティカル" なシステムに搭載された物体認識モデルが知ったかぶりをしてしまえば、重大な事故を起こしてしまう可能性があります。 実世界では、「現在」にない新しいものが絶えず出現し、AIにとって未知のこと・物体が絶えず現れるため、この事象は非常に現実的な問題です。
従って、物体認識モデルは「既知の物体を正しく認識する能力」に加えて、「未知の物体を未知であると正しく識別する能力」が求められます。 このような未知の物体は out-of-distribution (OOD) サンプルと呼ばれます。そして、OODサンプル(物体)を未知であると正しく識別するタスクが OOD detection と呼ばれます。 未知の物体を正しく識別することができれば、モデルが未知のものに想定外の出力(知ったかぶり)をすることを防止できるようになります。 また、未知である物体を基にモデルを再訓練することも可能になります。 これによって、モデルを適切な折に更新し、セキュリティアップデートのように、AIモデルをできるだけ安全な、最新で高性能な状態に保つことができるようになります。 OOD detection はそれを実現するための足掛かりとなるタスクなのです。
研究の目標
本研究では、マルチラベル判別(一枚の画像が与えられたとき、その画像に映る物体のカテゴリを隈なく認識するタスク)において、精度よく OOD detection することを実現する技術の開発を行いました。 本研究の成果を用いることで、例えば画像による部品判別・在庫管理、人物のトラッキングのような処理を、常に高性能に行うことができるようになります。
開発技術
物体検出モデル YOLO
物体"検出"モデルとは、動画像に映る物体の「位置座標(バウンディングボックスと呼ばれる)」と「カテゴリ」を隈なく認識するタスクを行うモデルです。 その中でも YOLO*2 は、非常に高性能かつ高速な物体検出モデルとして知られています。 以下の例はYOLOによる物体検出モデルの出力例です。 物体検出では図のように、物体を囲う「バウンディングボックス」と物体の「カテゴリ」を推定する必要があります。 一方で本研究が扱う物体"認識"モデルは「カテゴリ」のみを認識するタスク、つまりマルチラベル判別を解きます。 マルチラベル判別は、「カテゴリ」のみ推定すればよいため、上記の画像に対して想定される出力は、("dog", "bicycle", "truck")のようなタプルとなります。
YOLOをマルチラベル判別に応用
前述のように、物体検出モデルは物体の「位置」を特定するタスクを学習しています。 これは裏を返せば、物体が映っていない領域には「何もないこと」を学習しています。 つまりこのようなモデルは潜在的に、「検出対象"内"の物体」と「検出対象"外"の物体(検出する必要が無い物体や背景等)」を区別する能力を有している、といえそうです。 これは OOD detection のタスクとよく似ています。
OOD detection の既存研究では、モデルに「負例」として認識対象"外"の物体を与え、それを認識対象である物体のいずれとも認識しないように訓練することがよく行われていました。 いわゆる negative learning と呼ばれる学習です。 しかしこれを実現するには、負例となる追加データを用意しないといけない課題がありました。
そこで私たちは、この学習に物体検出モデルのコンセプトを応用できるのではないかと考えました。 つまり、物体検出モデルが行う「検出対象外の画像領域」を識別する潜在的能力を応用して、マルチラベル判別においても「認識対象外の物体」を識別する能力(OOD detection)を学習させることにしました。 要約すると、OOD detection に有効な negative learning を、一枚の画像内で「認識対象内の物体」と「認識対象外の物体・領域」を検出することで、それらを区別する能力を学習する、ことを行っています。 これによって、追加データを用意する必要無く、認識すべきでない(=知ったかぶりしてはいけない)物体の存在を学習します。 (その代わりにバウンディングボックスを付与する必要になりますが、その工程を自動化する方法も論文では述べています。) 私たちはこの技術を、YolOOD と名付けました。
評価実験
YolOOD の評価のため、SOTA技術である JointEnergy *4 と比較実験を行いました。 その結果、複数の実験設定で JointEnergy を上回る結果を得ることができました。 例えばある設定では、false positive rate (未知の物体に何らかのカテゴリを付与してしまう割合)を、24.46% から 12.19% に、12.27% 削減することに成功しました。
このように、未知物体の検出をより正しく行うことができるようになったため、モデルが未知物体に想定外の出力をしてしまうことの防止や、モデル所有者がモデル再訓練の必要性を適切に判断することなどができるようになります。 結果的にAIのライフサイクルをより安全にすることができます。
CVPRでの発表
CVPRは、機械学習・コンピュータビジョン領域で最難関の会議です。 2024年の論文投稿数は過去最多の11,532本で、採択率は23.6%でした。 会議はアメリカ・シアトルで6月19~21日に開催され、12,000人以上が参加するなど、非常に注目度が高い会議です。
本研究プロジェクトからは、筆頭著者である Alon Zolfi (Ph.D. student @BGU) 氏がポスター形式で発表を行いました。(私は子の出産が近く、泣く泣く参加を断念しました。) 彼の報告によると、多くの方に興味を持って頂き、非常に活発なポスターセッションになったとのことでした。
おわりに
私たちのチームでは、今回のCVPRでの発表の他にも、OOD detection に関する複数の成果を発表するなど、AIの安全性に関する課題に鋭意取り組んでいます。
- Satoru Koda, Ikuya Morikawa.: OOD-robust boosting tree for intrusion detection systems (IJCNN 2023)
- Satoru Koda, Alon Zolfi, Edita Grolman, Asaf Shabtai, Ikuya Morikawa, Yuval Elovici.: Pros and Cons of Weight Pruning for Out-of-Distribution Detection: An Empirical Survey (IJCNN 2023)
富士通では Fujitsu Kozuchi 等を通じて、様々なAIソリューションを開発し提供していますが、 それと同時に、AIに潜むあらゆるリスク(セキュリティ、トラスト、プライバシ)の問題を克服する技術の開発も重要と捉えています。 今後も、産学連携も行いながら、AIを安全に使える社会の実現に向けて研究開発を進めていきます。
*1:M. Hein et al.: Why ReLU networks yield high-confidence predictions far away from the training data and how to mitigate the problem
*2:J. Redmon et al.: You Only Look Once: Unified, Real-Time Object Detection
*3:https://pjreddie.com/darknet/yolo/
*4:H. wang et al.: Can multi-label classification networks know what they don’t know?