Please enable JavaScript in your browser.

コマを回すと未来のまちの姿が見える!?市民との共創から生まれた未来空想装置「ワンダリングアーカイブス」 - fltech - 富士通研究所の技術ブログ

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

コマを回すと未来のまちの姿が見える!?市民との共創から生まれた未来空想装置「ワンダリングアーカイブス」

コマを回すと未来のまちの姿が見える!?市民との共創から生まれた未来空想装置「ワンダリングアーカイブス」

こんにちは、コンバージングテクノロジー研究所の久徳です。
今回は、「バックキャスティングで考える2035年のWell-beingな川崎市」をテーマに、 川崎市役所、デンマーク・デザイン・センター、富士通と、川崎市民の皆様と共創してアイデアを考えた「ワンダリングアーカイブス」という未来空想装置について、そのプロトタイプの概要と内部で使用されている画像生成AI技術に関するご紹介をさせていただきます。

はじめに

我々はコンバージングテクノロジー研究所の中でも、障害当事者など様々なステークホルダーとともに、アイデアとテクノロジーを掛け合わせることで新たな価値やイノベーションを創出することを目指すチームです。プロジェクトを通じて、人々の「DE&Iの意識・行動変容」によるWell-beingなまちづくりに貢献し共生社会実現を目指しています。

Ontenna」や「エキマトペ」(*1)などのこれまでの活動を評価いただき、川崎市と富士通は、DE&Iに関する連携事業の覚書を締結し、2023年8月に共催で「Well-beingな未来の川崎市」をテーマにした市民との共創デザインワークショップを行いました。

ご紹介:バックキャスティングで考える2035年のWell-beingな川崎市


2023年8月に実施したワークショップの紹介動画(外部リンク)

このワークショップの中で生まれたアイデアをもとに、デンマーク・デザイン・センターが考えたプロトタイプ案とテクノロジーを掛け合わせて、市民の皆様に体験いただけるように開発したものが今回ご紹介する「ワンダリングアーカイブス」です。

ワンダリングアーカイブスとは

今回作成したワンダリングアーカイブスの筐体の画像。白色の筐体から手前に手の平サイズの土台が伸びており、その上にオレンジ色のコマがのっている。
今回製作したワンダリングアーカイブス

ワンダリングアーカイブスは、コマを回すことによってランダムな未来の川崎市を映し出す映像投影装置です。
この装置では、川崎のまちの色々な場所が10年後にどのような変化を遂げているのかを、現在のまちの画像(公共施設、公園、自然等の写真等)と川崎市の未来の都市計画をもとにAIが推測し、その推測結果を「未来のまちの画像」と「未来のまちで暮らす人の物語」という表現で体験者に提供します。

ワンダリングアーカイブスの動作イメージを表した画像。オレンジ色のコマを回すことで、白い台の上にのったプロペラ型のディスプレイに「未来のまちの画像」と「未来のまちで暮らす人の物語」が投影される。
コマを回すことでディスプレイに未来のまちの画像が浮かび上がる

AIが作成した「未来のまちの画像」と「未来のまちで暮らす人の物語」のサンプル。「桜が咲いている公園(春日台公園)の画像」という今のまちの画像と、「桜が咲いている公園に、人が2人並んで歩ける広さの歩道が整備され、車いすに乗った女性とその友人が二人で桜を眺めている様子の画像」というAIが作成した未来のまちの画像が並んで表示されている。また未来のまちで暮らす人の物語として、「車椅子にのったハルカは広い道をゆっくりと進む。桜の花びらが風に舞い、淡い春の香りが届く。広くなった道が心地よく、春の訪れを感じる」という文章も掲載されている。
ディスプレイに表示される「未来のまちの画像」と「未来のまちで暮らす人の物語」
AIが右側の画像(BEFORE)をもとに左側の画像と中央の物語を生成する

この体験が普段何気なく過ごしているまちの未来について考えるきっかけになること、またこの展示を見ている市民同士の新しいコミュニケーションがうまれることを期待して、プロトタイプの開発を行いました。

イベント出展

作成したプロトタイプを市民の皆様に体験していただく機会として、下記の2つの期間で出展を行いました。 Colors, Future! Summit 2024では約2,000回転、川崎市役所の本庁舎展望フロアへの展示では約5,000回転と、両期間ともたくさんの人に体験いただくことができました。同時に実施したアンケート(*2)の「この展示が市の未来を考えるきっかけになるか」という設問では、回答者の75%以上からポジティブなフィードバックをいただくこともできました。展示期間中の印象的なシーンとして、偶然同じ場所に居合わせた高齢者と若者がこの展示内容をきっかけに会話しているような場面も目にすることができ、この展示をしてよかったなと思えた瞬間でした。

Colors, Future! Summit 2024
  • 展示場所:ラゾーナ川崎 ルーファ広場
  • 展示期間:2024.11.2 - 2024.11.3

Colors, Future! Summit 2024に出展した際のラゾーナ川崎のルーファ広場の展示ブースの画像。緑の芝生の上に赤色の屋根のテントが置かれている。そのテントの下にワンダリングアーカイブスの筐体に加えて、本取り組みの説明パネルや富士通のロゴパネルも配置されている。

プロトタイプ公開展示
  • 展示場所:川崎市役所 本庁舎展望フロア(25F)
  • 展示期間:2025.1.11 - 2025.1.16

川崎市役所の本庁舎展望フロアに展示した際のブースの画像。黒い壁紙と木目調の床で出来た展望フロアの隅に展示フロアが設けられている。ワンダリングアーカイブスの筐体に加えて、本取り組みの説明パネルやアンケート回答用のタブレットも配置されている。

技術紹介

今回は、ワンダリングアーカイブスの中で採用されている技術の中から、「AIが考えた未来のまちの姿を画像で表現する」プロセスについて共有させていただこうと思います。

皆さんは「AIが考えた未来のまちの姿を画像で表現する」といった時にどのような方法を考えますか?
一番シンプルな方法としては、「ChatGPT」をはじめとする対話型の生成AIで現状分析から画像生成までの全てを実行する方法が考えられます。昨今、対話型AIの進歩は目まぐるしく、このようなやり方でも高いクオリティの画像を生成することは可能だと思います。
しかし、対話型の生成AIのみを用いて画像生成をするやり方には、以下のような課題があります。

  • 画像生成時に使用したモデルが不明確であるため、著作権などの権利関係をクリアにすることが困難
  • AIが考えた未来のまちに含まれる要素を細部まで画像に反映させるためのチューニングが困難

特に今回のケースでは、公のサービスとして画像を提示することから、著作権上問題のありそうな情報は提示できないため、対話型AIのみを用いて画像を生成する方法は選択できませんでした。

そこでこれらの課題に対処するための方法として、画像をどう変化させるかを考える処理については対話型の生成AIで実行するものの、対話型の生成AIに渡すための画像情報の取得や、対話型の生成AIが考える変化の内容を画像に反映させる処理については、ローカル環境で動作する別の画像生成AIで処理するという2種類のAIを併用する方法を採用いたしました。 具体的には、対話型の生成AIと併用する画像生成AIに「StableDiffusion」という画像生成AIを採用することで、著作権等の権利関係のクリアなモデルを明確に指定することができ、また細部における画像生成のチューニングを行うこともできることことから、上記の課題に対応することができました。

この記事では、以下の3STEPにおいて、各STEPで行った処理と使用した技術について、詳しく説明していきたいと思います。

  • STEP1. 今のまちの画像を理解する
  • STEP2. 未来のまちへの変化を考える
  • STEP3. 未来のまちの画像を生成する

STEP1. 今のまちの画像を理解する

今のまちの画像が、10年後どのような変化を遂げるのかを考えるためには、どこの場所の画像なのか・画像の中に何がうつっているのかといった情報を知り、画像にうつっている場所がどのような変化を遂げていくのかを推測することが重要です。そこで、画像の中の情報を取得するために、今回はOSSとしても公開されている「StableDiffusion」という画像生成AIの「InterrogateCLIP」という機能を使用することにしました。

この機能を使うことで、画像から関連性の高い要素をプロンプトという形式で抽出することができます。このプロンプトは、カンマ区切りの文章形式で表示されるため、人間が読んでも画像の構図や状況などを直観的に把握しやすい形式になっています。


今のまちの画像をプロンプトに変換した例。画像内では緑の木々に囲まれた山道の画像を入力とし、それが「a path in the woods with a fence and trees around it and leaves on the ground and on the ground, Eizo Kato, murata range, a photo, mingei」というプロンプトに変換されたことが示されている。

STEP2. 未来のまちへの変化を考える

STEP1で取得したプロンプトを参考に画像の変化を考える手法として、対話型の生成AIを用いる手法を採用しました。対話型の生成AIにはいろいろなものがありますが、今回は市民の皆様も耳にしたことのあるメジャーなAIがどう考えるのかを体感してもらいたいという想いから「ChatGPT」を使用することにしました。

「ChatGPT」は莫大な知識量を持っていますが、その知識量ゆえに川崎市にフォーカスした未来の姿というよりも汎用的な都市の未来の姿を想定してしまうという問題があります。そこで事前情報として、川崎市がこれからどのような方針で未来のまちづくりを行っていくのかというのをAIに理解させる必要があります。そこで「第三期 SDGs 未来都市計画(2024~2026)」などの公開情報を基に、AIにインプットするためのデータを作成し、未来のまちづくりの専門家として回答するように基本設定を行いました。ここでは登録の方法については省略させていただきますが、興味のある方は「ChatGPT Custom instructions」で調べることで、より詳細な情報を知ることができます。

そしてSTEP1で作成した画像情報と先ほどの基本設定を行ったAIを用いて、以下のようなアウトプットを出力させました。

  • 未来の画像の背景を変化させるためのプロンプト
  • 未来の画像のメインオブジェクトを変化させるためのプロンプト
  • 画像内の未来のまちで生活する人のペルソナ
  • 画像内の未来のまちで生活する人のショートストーリー
  • 生成予定の画像とショートストーリーで構成される作品のタイトル


ChatGPTに実施した基本設定と指示の内容と、それによって得られた出力を記載。まず「あなたは都市の未来の姿を想像し、それを言葉にして伝える専門家です。あなたには川崎市の未来の姿を具現化する手助けをしてほしいです。まずは川崎市について「神奈川県 第3期 SDGs 未来都市計画(2024~2026)」を理解し、未来の都市に必要な変化を考えてください」という基本設定を実施。その後、「StableDiffusionを用いて今の都市の画像を未来の画像に変化させるためのプロンプトの作成」と「生成したプロンプトと生成時に考えた背景を踏まえた、その未来都市で生活する人のペルソナとストーリーと作品タイトルの作成」という2つの指示を行い、背景用プロンプト・オブジェクト用プロンプト・ペルソナ・ストーリー・作品タイトルの5つのアウトプットを出力させている。

STEP3. 未来のまちの画像を生成する

今回の画像生成のポイントとして、生成された画像を川崎市民の皆様が見たときに、その画像が自分達が暮らしているまちの未来の姿だと認識できることが最も重要だと考えました。そのためには、生成される画像に今のまちの面影が残っていることが必要だと考え、そのような画像を生成する手段として、STEP1でも使用した「StableDiffusion」という画像生成AIの「image-to-image」という機能とSTEP2で作成したプロンプトを使用して画像を生成する手法を採用しました。

「image-to-image」による画像生成では、プロンプトを用いた画像生成時に入力画像を何%程度参考にするかを設定することができるため、背景用・メインオブジェクト用の2種類のプロンプトを使用することで、それぞれに元の画像の参考度を設定することができます。そこで背景については、参考度を70%~80%程度に設定することで元の風景からの変化を少なくし、今のまちの面影を残せるようにしました。またメインオブジェクトについては、参考度を20%~40%程度に設定することで、背景に対する違和感を抑えた新規のオブジェクトが生成できるようにしました。

今回実施した画像作成手順は以下のようになります。

  • 手順1. 元画像から背景領域を手動で指定
    • 画像内にメインオブジェクトがない場合は、画像の全ての領域を指定
    • 画像内にメインオブジェクトがある場合は、メインオブジェクトを除いた残り全ての領域を指定
  • 手順2. 指定した背景領域に対して、75%の参考度で画像生成を実施
  • 手順3. 生成画像からメインオブジェクト領域を手動で指定
    • 画像内にメインオブジェクトがない場合は、メインオブジェクトを生成したい領域を指定
    • 画像内にメインオブジェクトがある場合は、メインオブジェクトの表示領域を指定
  • 手順4. 指定したメインオブジェクト領域に対して、30%の参考度で画像生成を実施
    • 想定通りのメインオブジェクトが生成されない場合は、生成したい画像に近い形状のオブジェクトをメインオブジェクト領域に配置
  • 手順5.(必要な場合のみ実施) 全領域に対して、80%から90%の参考度で画像生成を実施
    • 画像の内容は維持しつつも、細部の作り直しや画風の調整をしたい場合のみ実施
    • 表示内容を維持するため、画質や画風に関連するプロンプトのみを設定


背景用プロンプトとメインオブジェクト用プロンプトを用いて画像を作成する時の例。緑の木々に囲まれた山道の画像を入力とする。手動で指定した背景領域に対し、背景用プロンプトを用いることで、画像内の道が整備され、看板版が追加されるといった変化が現れる。さらに手動で指定したメインオブジェクト領域に対し、メインオブジェクト用プロンプトを用いることで車椅子に乗った人が追加される。

(おまけ)リアルタイムでの画像生成に対応させる場合

今回のプロトタイプでは、AIが不適切な画像を生成してしまうリスクを考慮し、リアルタイムでの画像生成は行わなかったため、上記のような画像作成手順を採用しましたが、各STEPで使用した「ChatGPT」および「StableDiffusion」(*3)にはAPIが提供されているため、システムに組み込んでリアルタイムで画像生成を行うことも可能です。

ただし、今回の画像作成手順をリアルタイムでの画像生成に対応させる場合には、STEP3の画像作成手順の中の、背景領域を手動で指定する手順(手順1)や画像の細部の調整をする手順(手順5)は、別の手段を用いて自動化することが必要になります。

背景領域を手動で指定する手順(手順1)の自動化は、「StableDiffusion」の「rembg」という拡張機能を採用することで対応することができると思いますが、画像の細部の調整をする手順(手順5)の自動化には作成した画像の評価を行う必要があるので、例えばSTEP1で使用した「InterrogateCLIP」を使って作成した画像をプロンプトに変換し、そのプロンプトを評価することで意図した画像が作成されているかを判断するといった工夫を行う必要があると思います。

おわりに

この内容を技術ブログで共有しようと思った理由は、「富士通がこういう取り組みも行っていることを知ってもらいたい!」ということももちろんありますが、個人的な想いとしては、画像生成AIというものの新しい可能性を考えるきっかけになればいいなというのが大きいです。

画像というものは、言葉だけで説明しようとすると伝わりきらないような微妙なニュアンスを表現することもでき、一目見ただけで多くの情報を共有することもできる優秀なコミュニケーションツールだと思います。今回作成したプロトタイプにおいても、画像をAIと人とのコミュニケーションツールと捉えて、「AIが考えた未来に対して、別のAIがその絵を書いて、人に何かを伝える」という世界観を大事にしながら、開発を行ってきました。近い将来に、画像生成AIが人と人とのリアルタイムコミュニケーションに応用することができるようになり、誰もが自分の経験や自分の考えていることをその場で画像を使って伝えることのできる世界が来るのを楽しみにしています。

*1:別記事にて、エキマトペで使用している技術について掲載しております。ぜひこちらもご覧ください。

*2:アンケートは、川崎市役所の本庁舎展望フロアへの展示時のみ実施し、プロトタイプの横に設置したタブレットで希望者のみ回答する形式を採用しました。

*3:StableDiffusionはローカル環境にビルドした場合でも、ビルド時にローカル環境用のAPIも同時に立てることができるのでアプリケーションへの組み込みが可能です。