Please enable JavaScript in your browser.

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

AI研究用データセット公開サイト Dataset Platter をオープンしました

f:id:fltech:20210628104401p:plain

こんにちは。人工知能研究所 自律学習PJの河東孝と酒井彬です。

このたび富士通研究所はAI研究促進を目的に、AI研究用データセット公開サイト Dataset Platter を立ち上げました。ここで公開しているデータセットは、富士通が有益と考える問題設定に即して独自に作成したものであり、5月8日より開催されていたThe International Conference on Learning Representations (ICLR) 2021で発表した論文にも利用しているものです。

どなたでもご自由に利用可能ですので、ぜひお役立てください!

以下にデータセットの特徴を簡単に説明します。

DAISO-100 (河東)

画像認識技術を使ったアプリケーション開発では、開発時に使用する学習データと適用先データの性質の違い、いわゆるドメインシフトにより想定よりも認識精度が劣化することがあります。今回新しく作成したDAISO-100は、現実の問題でみられる幾つかのタイプのドメインシフトを人工的に発生させたデータセットであり、ドメインシフトによる精度劣化を防ぐ技術の開発と評価を促進する目的で作成しました。

f:id:fltech:20210628104538p:plain

DAISO-100は、100クラスの雑貨の画像160,000枚で構成されています。学習用とテスト用にそれぞれ80,000枚の画像が用意されています。この100クラスの商品には、それぞれ類似した紛らわしい商品のペアが含まれています。このため、使用するクラスを変更することで問題の難易度を調整できます。またドメインシフトの例として各画像には照明条件、カメラの角度、商品装飾の条件などのバリエーションが存在し、それらがメタデータとして付与されています。

なお、名前からもわかる通り、本データセットは株式会社大創産業様の商品を使用しています。快く商品写真の利用許諾をくださった大創産業様に感謝申し上げます。

Bermuda Triangle (酒井)

Graph Neural Network (GNNs)はグラフデータを対象に開発された深層学習技術です。グラフのオープンなリアルデータとしては具体的には化学物質の構造式、ネットワーク通信のログ等が挙げられます。通常GNNsの研究ではこうしたデータセットを用いて研究されます。

ところがー!

こうしたデータセットは本来GNNsの検証用に作られたデータセットではありません。したがって、グラフに特有かつ解析するのが困難な特徴をGNNsが捉えることができなくても解けてしまう場合があるのです。たとえば、化学式であれば、ある特定の元素が含まれていれば必ず発生する現象があったとしたら、化学式のグラフ構造を解析しなくてもある化合物がその現象を起こすかどうかは容易に判別できてしまいます。

そこで、わたしたちはグラフの構造を本質的に解析しなければ解けないデータセットとして三角問題データセットとクリーク距離データセットを提案しました。このデータセットではまずランダムにデータを生成した後、ロジスティック回帰を適用しました。そうすることで、簡単に分類できてしまうサンプルを取り除き、グラフ問題に特有の特徴を捉えなければ解けないデータセットを作成しました。三角問題データセットではサンプルのグラフ内に三角形の構造があるかどうかを判別します。一方で、クリーク間距離データセットはクリーク(全結合になっている頂点の塊)間の距離がある一定の閾値いないかどうかを判別します。

f:id:fltech:20210628104714p:plain
三角問題データセット

f:id:fltech:20210628104757p:plain
クリーク間距離データセット

このデータセットを用いてGNNsを検証したところ、なんと、典型的なGNNsであるGraph Neural Network (GCN)は両方の問題で50%(つまり完全に解けていない。)の正解率しか出せず、比較的新しい、Graph Isomorphism Network (GIN)でも三角問題で74.1%、クリーク間距離問題で97.0%の正解率しか出すことができなかったのです。(もちろん、頂点等の付加的な情報を与えてあげると100%近い性能が出せます。)そこで、富士通研究所ではNeural Network Deep Tensor(NNDT)と呼ばれる、Transformerにグラフデータを入力するための新しいembeddingの手法・フレームワークを提案し、その手法では両方の問題で100%の正解率を達成できることを示しました。

すごい!

詳しくは以下の論文をご覧ください。

Bermuda Triangles: GNNs Fail to Detect Simple Topological Structures

まとめ

今回はICLR参加に合わせてサイト公開と2つのデータセット公開を行いました。今後、内部で使っている他の研究用データセットも随時公開し、AI研究の活性化を図っていきます。

もしこんな富士通研究所に興味を持たれた方がいらっしゃいましたら、自律学習PJの小橋がカジュアル面談を随時募集していますので是非コンタクトしてください!