こんにちは、コンバージングテクノロジー研究所の久徳です。
今回は、「バックキャスティングで考える2035年のWell-beingな川崎市」をテーマに、
川崎市役所、デンマーク・デザイン・センター、富士通と、川崎市民の皆様と共創してアイデアを考えた「ワンダリングアーカイブス」という未来空想装置について、そのプロトタイプの概要と内部で使用されている画像生成AI技術に関するご紹介をさせていただきます。
はじめに
我々はコンバージングテクノロジー研究所の中でも、障害当事者など様々なステークホルダーとともに、アイデアとテクノロジーを掛け合わせることで新たな価値やイノベーションを創出することを目指すチームです。プロジェクトを通じて、人々の「DE&Iの意識・行動変容」によるWell-beingなまちづくりに貢献し共生社会実現を目指しています。
「Ontenna」や「エキマトペ」(*1)などのこれまでの活動を評価いただき、川崎市と富士通は、DE&Iに関する連携事業の覚書を締結し、2023年8月に共催で「Well-beingな未来の川崎市」をテーマにした市民との共創デザインワークショップを行いました。
ご紹介:バックキャスティングで考える2035年のWell-beingな川崎市
このワークショップの中で生まれたアイデアをもとに、デンマーク・デザイン・センターが考えたプロトタイプ案とテクノロジーを掛け合わせて、市民の皆様に体験いただけるように開発したものが今回ご紹介する「ワンダリングアーカイブス」です。
ワンダリングアーカイブスとは
ワンダリングアーカイブスは、コマを回すことによってランダムな未来の川崎市を映し出す映像投影装置です。
この装置では、川崎のまちの色々な場所が10年後にどのような変化を遂げているのかを、現在のまちの画像(公共施設、公園、自然等の写真等)と川崎市の未来の都市計画をもとにAIが推測し、その推測結果を「未来のまちの画像」と「未来のまちで暮らす人の物語」という表現で体験者に提供します。
AIが右側の画像(BEFORE)をもとに左側の画像と中央の物語を生成する
この体験が普段何気なく過ごしているまちの未来について考えるきっかけになること、またこの展示を見ている市民同士の新しいコミュニケーションがうまれることを期待して、プロトタイプの開発を行いました。
イベント出展
作成したプロトタイプを市民の皆様に体験していただく機会として、下記の2つの期間で出展を行いました。 Colors, Future! Summit 2024では約2,000回転、川崎市役所の本庁舎展望フロアへの展示では約5,000回転と、両期間ともたくさんの人に体験いただくことができました。同時に実施したアンケート(*2)の「この展示が市の未来を考えるきっかけになるか」という設問では、回答者の75%以上からポジティブなフィードバックをいただくこともできました。展示期間中の印象的なシーンとして、偶然同じ場所に居合わせた高齢者と若者がこの展示内容をきっかけに会話しているような場面も目にすることができ、この展示をしてよかったなと思えた瞬間でした。
Colors, Future! Summit 2024
- 展示場所:ラゾーナ川崎 ルーファ広場
- 展示期間:2024.11.2 - 2024.11.3
プロトタイプ公開展示
- 展示場所:川崎市役所 本庁舎展望フロア(25F)
- 展示期間:2025.1.11 - 2025.1.16
技術紹介
今回は、ワンダリングアーカイブスの中で採用されている技術の中から、「AIが考えた未来のまちの姿を画像で表現する」プロセスについて共有させていただこうと思います。
皆さんは「AIが考えた未来のまちの姿を画像で表現する」といった時にどのような方法を考えますか?
一番シンプルな方法としては、「ChatGPT」をはじめとする対話型の生成AIで現状分析から画像生成までの全てを実行する方法が考えられます。昨今、対話型AIの進歩は目まぐるしく、このようなやり方でも高いクオリティの画像を生成することは可能だと思います。
しかし、対話型の生成AIのみを用いて画像生成をするやり方には、以下のような課題があります。
- 画像生成時に使用したモデルが不明確であるため、著作権などの権利関係をクリアにすることが困難
- AIが考えた未来のまちに含まれる要素を細部まで画像に反映させるためのチューニングが困難
特に今回のケースでは、公のサービスとして画像を提示することから、著作権上問題のありそうな情報は提示できないため、対話型AIのみを用いて画像を生成する方法は選択できませんでした。
そこでこれらの課題に対処するための方法として、画像をどう変化させるかを考える処理については対話型の生成AIで実行するものの、対話型の生成AIに渡すための画像情報の取得や、対話型の生成AIが考える変化の内容を画像に反映させる処理については、ローカル環境で動作する別の画像生成AIで処理するという2種類のAIを併用する方法を採用いたしました。 具体的には、対話型の生成AIと併用する画像生成AIに「StableDiffusion」という画像生成AIを採用することで、著作権等の権利関係のクリアなモデルを明確に指定することができ、また細部における画像生成のチューニングを行うこともできることことから、上記の課題に対応することができました。
この記事では、以下の3STEPにおいて、各STEPで行った処理と使用した技術について、詳しく説明していきたいと思います。
- STEP1. 今のまちの画像を理解する
- STEP2. 未来のまちへの変化を考える
- STEP3. 未来のまちの画像を生成する
STEP1. 今のまちの画像を理解する
今のまちの画像が、10年後どのような変化を遂げるのかを考えるためには、どこの場所の画像なのか・画像の中に何がうつっているのかといった情報を知り、画像にうつっている場所がどのような変化を遂げていくのかを推測することが重要です。そこで、画像の中の情報を取得するために、今回はOSSとしても公開されている「StableDiffusion」という画像生成AIの「InterrogateCLIP」という機能を使用することにしました。
この機能を使うことで、画像から関連性の高い要素をプロンプトという形式で抽出することができます。このプロンプトは、カンマ区切りの文章形式で表示されるため、人間が読んでも画像の構図や状況などを直観的に把握しやすい形式になっています。
STEP2. 未来のまちへの変化を考える
STEP1で取得したプロンプトを参考に画像の変化を考える手法として、対話型の生成AIを用いる手法を採用しました。対話型の生成AIにはいろいろなものがありますが、今回は市民の皆様も耳にしたことのあるメジャーなAIがどう考えるのかを体感してもらいたいという想いから「ChatGPT」を使用することにしました。
「ChatGPT」は莫大な知識量を持っていますが、その知識量ゆえに川崎市にフォーカスした未来の姿というよりも汎用的な都市の未来の姿を想定してしまうという問題があります。そこで事前情報として、川崎市がこれからどのような方針で未来のまちづくりを行っていくのかというのをAIに理解させる必要があります。そこで「第三期 SDGs 未来都市計画(2024~2026)」などの公開情報を基に、AIにインプットするためのデータを作成し、未来のまちづくりの専門家として回答するように基本設定を行いました。ここでは登録の方法については省略させていただきますが、興味のある方は「ChatGPT Custom instructions」で調べることで、より詳細な情報を知ることができます。
そしてSTEP1で作成した画像情報と先ほどの基本設定を行ったAIを用いて、以下のようなアウトプットを出力させました。
- 未来の画像の背景を変化させるためのプロンプト
- 未来の画像のメインオブジェクトを変化させるためのプロンプト
- 画像内の未来のまちで生活する人のペルソナ
- 画像内の未来のまちで生活する人のショートストーリー
- 生成予定の画像とショートストーリーで構成される作品のタイトル
STEP3. 未来のまちの画像を生成する
今回の画像生成のポイントとして、生成された画像を川崎市民の皆様が見たときに、その画像が自分達が暮らしているまちの未来の姿だと認識できることが最も重要だと考えました。そのためには、生成される画像に今のまちの面影が残っていることが必要だと考え、そのような画像を生成する手段として、STEP1でも使用した「StableDiffusion」という画像生成AIの「image-to-image」という機能とSTEP2で作成したプロンプトを使用して画像を生成する手法を採用しました。
「image-to-image」による画像生成では、プロンプトを用いた画像生成時に入力画像を何%程度参考にするかを設定することができるため、背景用・メインオブジェクト用の2種類のプロンプトを使用することで、それぞれに元の画像の参考度を設定することができます。そこで背景については、参考度を70%~80%程度に設定することで元の風景からの変化を少なくし、今のまちの面影を残せるようにしました。またメインオブジェクトについては、参考度を20%~40%程度に設定することで、背景に対する違和感を抑えた新規のオブジェクトが生成できるようにしました。
今回実施した画像作成手順は以下のようになります。
- 手順1. 元画像から背景領域を手動で指定
- 画像内にメインオブジェクトがない場合は、画像の全ての領域を指定
- 画像内にメインオブジェクトがある場合は、メインオブジェクトを除いた残り全ての領域を指定
- 手順2. 指定した背景領域に対して、75%の参考度で画像生成を実施
- 手順3. 生成画像からメインオブジェクト領域を手動で指定
- 画像内にメインオブジェクトがない場合は、メインオブジェクトを生成したい領域を指定
- 画像内にメインオブジェクトがある場合は、メインオブジェクトの表示領域を指定
- 手順4. 指定したメインオブジェクト領域に対して、30%の参考度で画像生成を実施
- 想定通りのメインオブジェクトが生成されない場合は、生成したい画像に近い形状のオブジェクトをメインオブジェクト領域に配置
- 手順5.(必要な場合のみ実施) 全領域に対して、80%から90%の参考度で画像生成を実施
- 画像の内容は維持しつつも、細部の作り直しや画風の調整をしたい場合のみ実施
- 表示内容を維持するため、画質や画風に関連するプロンプトのみを設定
(おまけ)リアルタイムでの画像生成に対応させる場合
今回のプロトタイプでは、AIが不適切な画像を生成してしまうリスクを考慮し、リアルタイムでの画像生成は行わなかったため、上記のような画像作成手順を採用しましたが、各STEPで使用した「ChatGPT」および「StableDiffusion」(*3)にはAPIが提供されているため、システムに組み込んでリアルタイムで画像生成を行うことも可能です。
ただし、今回の画像作成手順をリアルタイムでの画像生成に対応させる場合には、STEP3の画像作成手順の中の、背景領域を手動で指定する手順(手順1)や画像の細部の調整をする手順(手順5)は、別の手段を用いて自動化することが必要になります。
背景領域を手動で指定する手順(手順1)の自動化は、「StableDiffusion」の「rembg」という拡張機能を採用することで対応することができると思いますが、画像の細部の調整をする手順(手順5)の自動化には作成した画像の評価を行う必要があるので、例えばSTEP1で使用した「InterrogateCLIP」を使って作成した画像をプロンプトに変換し、そのプロンプトを評価することで意図した画像が作成されているかを判断するといった工夫を行う必要があると思います。
おわりに
この内容を技術ブログで共有しようと思った理由は、「富士通がこういう取り組みも行っていることを知ってもらいたい!」ということももちろんありますが、個人的な想いとしては、画像生成AIというものの新しい可能性を考えるきっかけになればいいなというのが大きいです。
画像というものは、言葉だけで説明しようとすると伝わりきらないような微妙なニュアンスを表現することもでき、一目見ただけで多くの情報を共有することもできる優秀なコミュニケーションツールだと思います。今回作成したプロトタイプにおいても、画像をAIと人とのコミュニケーションツールと捉えて、「AIが考えた未来に対して、別のAIがその絵を書いて、人に何かを伝える」という世界観を大事にしながら、開発を行ってきました。近い将来に、画像生成AIが人と人とのリアルタイムコミュニケーションに応用することができるようになり、誰もが自分の経験や自分の考えていることをその場で画像を使って伝えることのできる世界が来るのを楽しみにしています。