Please enable JavaScript in your browser.

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

Fujitsu Auto Data Wranglingの特長のご紹介

こんにちは、人工知能研究所のLei Liuです。今日はFujitsu Kozuchi に搭載されているFujitsu Auto Data Wranglingについてご紹介します。

このブログは、Fujitsu Kozuchi のAIコアエンジンを紹介する連載ブログのひとつです。ブログの最後で、これまでの内容をまとめておさらいできます!

Fujitsu Auto Data Wranglingは、表形式のデータを、生成AIや機械学習アルゴリズム、さまざまな自動化技術を活用することで、AIが学習できる形式に自動で変換することができる技術です。データサイエンティストは、AIを使う前のデータ準備に80%の時間を費やしています。Fujitsu Auto Data Wranglingはその手間を削減するためのものです。この技術は、富士通が研究開発した先端AI技術を迅速に試すことができるプラットフォームFujitsu Kozuchiに、「AIコアエンジン」として搭載されています。

AIは予測や分類など、さまざまなことを行うことができます。例えば、製造分野では、製品の「不良現象」、「型名」、「修理記録」などから、不良品に対する処置内容を予測することができます。このようにAIで予測や分類を行うためには、まずAIにデータを学習させることが必要です。しかし多くの場合、AIは表データをそのまま学習することができません。値の形式がバラバラであったり、「備考欄」のような自由記述の項目があったりして、AIへ入力するデータとして整理整頓されていないためです。このままデータを学習しても、AIの精度が不十分な可能性があり、さらにデータが必要となることも考えられます。

そのため、今まではAIが学習できる形に変換する準備作業に多くの時間がかかっていました。これらの準備作業として、AIに表データを学習させる前に、値の形式を統一するデータ整形や、AIの精度を上げるためにデータの形式や構造の変更などを行うデータ強化が必要でした。

Fujitsu Auto Data Wranglingの価値と利用イメージ

Fujitsu Auto Data Wranglingの価値は、前処理、すなわちAIの学習のためのデータ準備工数を削減できること、さらに、新たなデータを自動で追加しデータを強化することで、AIの精度を大幅に向上させることができることです。

はじめに、データ準備の工数削減について、例を使って説明します。 表データが、テキスト、日付、数値、カテゴリー、URLなど、さまざまな種類の項目を持つ場合、Fujitsu Auto Data Wranglingは、それらの項目が、日付なのか、数値なのか、カテゴリーなのかといった、項目の型を推定します(型推定)。そして、その項目をAIが読み込みできる形式に自動で変換します(データ整形)。

以下のアプリサイトに関するデータでは、「価格」の列は、単位($)と数値が混在しています。Fujitsu Auto Data Wranglingは、共通する単位の部分は無くし、数字部分だけを入力データとします。「リリース」の列は、年、月、日に分解し、それぞれ別の列にデータを分けます。「ジャンル」の列のようにカンマで区切られた項目が並ぶリスト形式では、Gamesの列、Lifeの列など、それぞれの項目を別の列に分解します。

このような前処理を人が行う場合は、多くの時間が必要です。Fujitsu Auto Data Wranglingは自動で行うことができるため、90%以上の工数を削減することができるようになります。

さらに、Fujitsu Auto Data Wranglingは、新たな項目を自動で追加し、データを強化することができます。 下記の製品修理データの「不良現象」のような自由記述の欄には、多種多様なテキストが含まれます。通常、機械学習では、このような項目(非構造化データ)をうまく処理することができません。Fujitsu Auto Data Wranglingは、このような項目から重要なキーワードを自動で抽出し、新たなデータとして追加しデータを強化することが可能です。データを強化することで、AIの精度を大幅に向上させることができます。

製品修理データの例では、自由記述欄である「不良現象」欄から電源、画像などのキーワードを抽出し、列を分けて表データに追加します。この強化した表データを、Fujitsu Kozuchiで公開されているコアエンジンFujitsu AutoML*1へ適用し、故障に対する処置内容をAIで予測したところ、そのままのデータを学習した場合と比較して15%以上精度が向上しました。

*1 Fujitsu AutoML :表データからAIモデルを自動生成する富士通独自のAutoML技術

Fujitsu Auto Data Wranglingは、データ準備ツールとしてデータを整形・強化します。Fujitsu AutoMLや、不良要因分析コンポーネント*2など、Fujitsu Kozuchiで公開されているコアエンジン・コンポーネントと組み合わせて利用することで、データ準備工数を削減し、AIの精度を向上させることができます。整形・強化した表データは、既存のさまざまな機械学習ツールへ適用することも可能です。

*2 不良要因分析コンポーネント: 発生頻度が少ない不良品のデータから、製造過程においてどのような条件で不良品が発生するか分析し、不良要因を改善することで品質向上を実現します。

Fujitsu Auto Data Wranglingの技術の特長

Fujitsu Auto Data Wranglingは、LLM(大規模言語モデル)を活用し、既存のツールとは一線を画すデータ整形・データ強化の機能を提供します。Fujitsu Auto Data Wranglingの技術には、以下のような特長があります。

自動データ整形

Fujitsu Auto Data Wrangling は、幅広い候補の中から表の各列の型を検証することで、正確に「型推定」を行うことが可能です。推定結果に基づき、最適な型を自動的に選択します。そして、データ中の形式の一貫性欠如や、エラー値などの不適切な記入内容を抽出して「データ整形」を実施し、AIモデルの入力に適したデータへ変換します。

自動データ強化

各例に対する型推定の結果に基づき、さまざまな自動データ強化機能を適用することにより、データを強化し予測精度を向上します。Fujitsu Auto Data Wranglingは、文章、単位、ID、範囲、リスト、日時、URL、文字列内の数字などの列のデータを強化する、さまざまな機能を提供します。

自動化とスケーラビリティの実現

他の前処理ツールでは、多くの場合、利用者が手動で処理の順番など設定する必要があります。Fujitsu Auto Data Wranglingは、それらを自動化することで、前処理のプロセス全体を通して人が行う作業を最小限に抑えます。利用者は数回のクリックだけで、前処理の一連のプロセスを実施することができます。さらに、Fujitsu Auto Data Wranglingは、特定のプロセスに対して、複数の軽量なオープンソースLLMを使い分けることで、スケーラビリティを実現します。たとえば5万行のデータであっても10分程度で処理することが可能です。

使いやすさ、説明可能性、パフォーマンス向上のための高度な機能

最新のFujitsu Auto Data Wrangling(v2)では、商用LLM(GPT-4)や、その他自動化技術を活用した高度な機能が導入されています。機械学習のタスク種類と、対象の列を自動的に予測する予測エンジニアリング機能、フォーマットされたID列(例えば、コンテナID、ISBNなど)に特化したデータ強化機能、データセットに加えられた変更の内容とその理由を利用者が理解するのをサポートする説明機能などです。さらに、アプリケーションの一層の活用のため、コード生成機能によりデータサイエンティストがコードをカスタマイズすることが可能です。また、複数の表データに対して、結合キー(統合の基準とする箇所)を自動的に抽出して、ひとつの表データに結合するテーブルマージ機能も開発しています。これらの高度な機能のプロトタイプは、ビジネスユーザー向けにFujitsu Kozuchiで利用可能です。

Fujitsu Kozuchiで適用検証を始めませんか

もし、あなたがデータサイエンティストやデータアナリスト、あるいは機械学習エンジニアで、さまざまなアプリケーションのための表形式データの前処理に多くの時間を費やしている場合、Fujitsu Auto Data Wranglingは、その時間を大幅に削減することが可能です。Fujitsu Auto Data Wranglingを使えば、表形式データのアップロードと数回のクリックで、整形・強化されたデータセットを得ることができます。データ整形やデータ強化のオプションを簡単にカスタマイズでき、さらに、下流のタスクで使用するためのソースコードをダウンロードすることも可能です。

Fujitsu Auto Data Wranglingは、Fujitsu Research Portalにて無償でお試しいただくことができます。

ご不明な点については、以下よりお問合せください。

お問い合わせはこちら

Fujitsu Auto Data Wranglingの他にもFujitsu KozuchiのAIコアエンジンをTechBlogで紹介しています。