Please enable JavaScript in your browser.

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

情報通信理論を起点とした生成的AI の研究成果をPCSJ/IMPS2021で講演します

f:id:fltech:20211110185456p:plain こんにちは。人工知能研究所の中川です。

富士通研究所では、「自律的に学習可能なAI技術」の研究の一つとして、生成的AIの研究を行っています。 これまで、我々は、画像符号化などで活用されている情報通信理論を起点として、VAEなどの生成的AIモデルの定量的な特徴の理論解析に成功しました。この理論を活用することで、従来の深層学習では困難だったデータの定量的な処理・分析が可能となります。これらの研究成果は、AI分野のトップカンファレンスの一つ ICML 2020/2021で採択されています。

今回、これらの研究成果を、映像符号化&処理分野で長い歴史のあるシンポジウム PCSJ / IMPS 2021で講演させていただく機会を頂きました。本講演では、今回の研究成果の背景となる情報通信理論と生成的AIを基礎から解説し、そして我々が導いた理論と有用性を説明します。

講演の概要は下記のとおりです。
本講演では、動画像符号化の基礎となる情報通信理論とVAE等の生成的AIモデルの密接な関連性を説明し、今後の研究の方向性について議論します。
深層画像圧縮はSSIMなどの任意の距離尺度で、従来の変換符号化を超える高い性能を実現することが可能です。 また、生成的AIモデルの一つであるVAEはサンプリング等などで幅広く用いられています。その一方で、深層画像圧縮やVAE等は、その定量的な理論解析が進んでいませんでした。
今回、私たちはレート歪理論と微分幾何学の枠組みを用いることで、深層画像圧縮及びVAEが同一の枠組みで説明できることを証明しました。 任意の分布をもつデータに対し、任意の距離尺度でレート歪最適化により獲得された潜在変数空間が、その距離尺度に対応した計量空間に対して等長の関係(正規直交性が全空間に滑らかにつながった状態)となり、かつ計量空間における潜在変数のエントロピーは最小となります。 すなわち、従来はガウス分布とL2距離で定式化されていたレート歪理論の、任意の分布・距離に対する拡張です。この結果により、情報通信理論と微分幾何の観点から、モデルが獲得した潜在変数と元データの定量的な関係が導きだせ、各潜在変数の重要度や元データの確率分布推定などの定量解析が可能となります。
そして、最後に、1980年代に情報通信の方向性として提唱された「知的通信・符号化」と本理論に基づく生成的AIの関係性の観点から、今後のAI研究の方向性を議論します。

ICMLでの発表論文
[1] "Rate-Distortion Guided Autoencoder for Isometric Embedding in Euclidean Latent Space"
加藤 圭造, 周 静, 佐々木 智丈, 中川 章(富士通研究所)
https://arxiv.org/abs/1910.04329

[2 ] "Quantitative Understanding of VAE as a No-linearly Scaled Isometric Embedding"
中川 章, 加藤 圭造(富士通)鈴木 大慈 准教授(東大、理研)
https://arxiv.org/abs/2007.15190