Please enable JavaScript in your browser.

DATA2025で日欧データスペースの比較分析について発表しました - fltech - 富士通研究所の技術ブログ

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

DATA2025で日欧データスペースの比較分析について発表しました

はじめに

こんにちは。富士通研究所 データ&セキュリティ研究所の石原俊です。DATA 2025(正式名称:International Conference on Data Science, Technology, and Applications)に参加し発表をしてきました。今回はDATA 2025における所属研究チームの発表を中心に報告をお届けします。

DATA 2025

DATAはデータベース、ビッグデータ、データマイニング、データ管理、データセキュリティ、および高度なデータアプリケーションに関わる情報システムとテクノロジーについて多くの研究者が発表・議論する国際会議です。DATAは2012年から毎年開催されており、14回目の今回は2025年6月10日から12日にかけてスペインのデウスト大学ビルバオキャンパスで開催されました。

デウスト大学ビルバオキャンパス

会議の内訳・構成としては、発表数は93件ほど、2~3パラレルセッションで合計18セッション、それに加えて3件の招待講演と、表彰式、社交イベントがありました。

セッションはAIなどの最新のトレンドを反映し、自然言語処理や機械学習に関連したものが7セッションで最多のセッション数となっていました。自然言語処理のセッションでは、大規模言語モデルを文献スクリーニングや看護師のストレスチェックなど様々な実問題に適用し、評価分析を行った研究が発表され、活発な議論が行われていました。また、欧州におけるデータスペースの急速な発展に関連した新しいセッションとして、データガバナンスやデータ主権のセッションも設けられていました。データスペース[1]とは、多くの異なる組織同士が自身のデータに対する権利を守りながらデータ交換可能な仮想的な"場"、および、"場"を構築するための基盤技術です。データスペースの実現に向けて、セッションでは、データの品質や信頼性の可視化、データ権利表現の意味的互換性確保、権利保護を確実に行う手法など、多くの課題と取り組みが議論されました。

所属研究チームからの論文の発表

今回は自分が主著者となっている論文1件の発表を行いました。また、私の所属する研究チームのメンバーが共著者になっている別の論文の発表が1件ありました。どちらもデータ主権のセッションで行われ、データスペース内のエンティティの信頼性に関するものです。データスペースは多くの異なる組織が参加者としてデータ交換に関わるため、"場"に対する信頼が不可欠です。既に国内外のイニシアティブ・標準化団体でも様々な取り組みが行われていますが、今後データスペースのユースケースを拡げていくうえでは多くの課題があり、これらの課題を議論することは重要と考えられます。

自分の論文の発表

  • タイトル:Towards Interoperable Data Spaces: Comparative Analysis of Data Space Implementations Between Japan and Europe(和訳:相互運用可能なデータスペースに向けた日欧のデータスペース実装の比較分析)
  • 著者:石原 俊(富士通) 、松塚 貴英(富士通)

発表内容

近年、欧州で急速にデータスペースが発展してきていますが、日本でも欧州と異なる政策・概念・イニシアティブに牽引される形で発展してきています。発展の源流の違いにより、日欧のデータスペース技術には多くの技術的な差異が生じている一方、脱炭素社会の実現など地球規模の社会課題の解決には日欧データスペースの相互運用性は不可欠です。データスペースの相互運用性には様々な側面がありますが、とりわけ信頼性の観点はデータ交換を成立させるうえで重要です。本論文では、日欧それぞれの代表的なデータスペース実装を信頼性の観点で比較分析し、ギャップと課題を特定し、解決策を論じました。

分析手法

分析は以下の流れで行いました。

  1. 分析対象とする代表的なデータスペース実装の選定:既存研究における成熟度評価[2]や分析可能なドキュメント数を考慮し日本はDATA-EX、欧州はCatena-Xをそれぞれ選定しました
  2. 評価基準の作成:出自の異なる日欧のデータスペースを公平かつ網羅的に評価するため、評価基準を以下の流れで作成しました
    1. 共通データ交換プロセスの定義:日欧の主要なホワイトペーパー[3][4]からそれぞれのデータ交換プロセスを抽出し、両者の重なりを考慮し、日欧それぞれの観点を取り入れた共通のデータ交換プロセスを定義しました
    2. 1のプロセスで生成されるオブジェクトの特定:信頼性の保証が必要な対象を明確化するため、1で定義した共通データ交換プロセスの各フェーズで生成されるオブジェクトを特定しました
    3. 2のオブジェクトに対する評価観点の決定:2で特定したオブジェクトに対する信頼性の保証有無を網羅的に評価するため、2つの評価観点(p1,p2)を決定しました
  3. 分析に用いる情報源の選定:1で選定した各実装について、誰でも入手することができ、実装の伴った技術文書を選定しました
  4. 実際の分析:1で選定した各実装について、3で選定した情報源の技術文書を分析し、2で作成した評価基準により評価を行いました

この結果、以下のような評価基準を作成しました。

p1) How to ensure trust in the object generation p2) How to verify trust in operation      
Participant ... ...
Device ... ...
Dataset ... ...
Data catalog ... ...
Contract ... ...
Sending & Receiving log ... ...

縦軸が共通データ交換プロセスで生成されるオブジェクト、横軸が信頼性の保証有無を評価するための観点です。

分析結果と考察

分析結果として、オブジェクトごとの信頼性保証の程度には差が見られました。例えば、Participantについては法人登記の確認など厳密な信頼性の検証が行われていましたが、Datasetについては語彙・形式の統制のみでデータ品質の検証などは行われていませんでした。この理由について、私はオブジェクト間の信頼の依存関係によるものではないかと考察しました。信頼の依存関係とは、例えばDatasetは作成者であるParticipantが信頼できればある程度は信頼を期待できる、といった関係性です。信頼の依存関係を整理すると、信頼の依存先となるオブジェクトほど厳密に信頼性の保証が為されていることが見えてきました。整理結果を踏まえ、私はParticipantを最も優先して課題を議論するべきオブジェクトと位置付けました。また、それ以外のオブジェクトの中では、信頼性の保証基準がデータスペース固有の基準になってしまっていることから、Datasetを次に課題を議論するべきオブジェクトと位置付けました。

課題に関する議論

まず、Participantの信頼性に関する課題として、信頼性の保証が日欧それぞれの基準で行われているが故に、日欧間のデータ交換時に相手の信頼が難しくなる点を挙げました。この課題の解決に向けて、法・政府ガイドラインに先駆けて相互承認された参加者認証フレームワークを整備していくことを提案しました。参加者認証フレームワークが日欧の身元確認手段の違い等を吸収し、同じインターフェースで同程度の信頼性を保証する役割を担うことで、国の異なる組織であっても一定の信頼を期待できるようになります。
また、Datasetの信頼性に関する課題として、語彙・形式の統制が日欧それぞれのリポジトリを基準に行われているが故に、日欧間でデータセットの意味的互換性が無い点を挙げました。この課題の解決に向けて、日欧それぞれのデータスペースローカルなセマンティクスリポジトリ同士を繋ぐ上位リポジトリの必要性を提案しました。

質疑と感想

会場の質疑応答では、ITベンダーによる発表であったためか、「富士通としてデータスペースの国際相互接続について具体的に他社との協議を行っていたりするのか?」というご質問を頂きました。実際のところ、本論文は、DSA(正式名称:Data Society Alliance)の技術基準検討委員会1IOFDS(正式名称:International Open Forum on Data Society)2などで議論してきた内容をベースにしているので、富士通がこれらの場で議論に参画していることをご紹介しました。ただ、これらの場は大きな考え方や方針を議論することが主目的になっているため、具体的な実現手段を議論できる学術会議とうまく使い分けながら両輪で議論を進めていくことが重要と感じました。

所属研究チームのメンバーが共著者となっている論文の発表

  • タイトル:Enhancing Trust in Inter-Organisational Data Sharing: Levels of Assurance for Data Trustworthiness
  • 著者:Florian Zimmer(Fraunhofer ISST) 、Janosch Haber(Fujitsu Research of Europe)、金子真由子(富士通)
  • 概要:本稿では、デザインサイエンス研究アプローチに基づいて、データの信頼性の保証レベル(データLoA)と呼ばれる新しい成果物を提案することで、組織間のデータ共有のドメイン要件を満たします。データLoAは、組織間のデータ共有におけるデータの信頼性を保証するための包括的で標準化されたフレームワークを提供します。

データ主権セッション全体を通した所感

上記2件を含めて全体で5件の発表があり、うち4件がデータスペースに関連するものでした。昨年は1件であったことを踏まえると、データスペース分野の研究の盛り上がりを感じました。一方、具体的なシステム提案まで踏み込んだ論文は少なく、標準化動向の影響が大きい分野であるが故の具体論への踏み込みにくさも感じました。このあたりは、まだまだ研究の余地がある分野という見方も出来ると思います。

おわりに

今回は所属研究チームの発表を中心に報告しました。データスペースの研究は確実に増えており、今後は学術会議で議論した提案を標準化の場に持ち込むなどの動きも活発になってくることが予想されます。データ基盤の研究者として、DATAに限らずデータ分野の国際会議をウォッチし、今後も参加・発表を続けていきたいと考えています。

参考文献


  1. DATA-EXの技術仕様を議論する国内標準化の場、参加者は日本のITベンダーが中心
  2. 全世界の主要データスペースイニシアティブによるアライメントの場、DSA・IDSA・Gaia-X・Catena-X・Manufacturing-Xなどが参加