[アップデート]Amazon DataZoneで生成系AIベースのビジネスデータカタログ強化のための機能が発表されました(プレビュー) #AWSreinvent

生成系AIにより、ビジネスデータカタログのアセットの説明を自動で生成できるようになりました!
2023.11.29

データアナリティクス事業本部 機械学習チームの鈴木です。

re:Invent2023のキーノートのうち、日本では昨晩行われたAdam Selipsky Keynoteで、Amazon DataZone向けに生成系AIベースのビジネスデータカタログ強化のための機能がプレビューで発表されました。

AI recommendations for descriptions in Amazon DataZone(Preview)

機能についてと、簡単に使ってみた感想をご紹介できればと思います。

What's Newでのアナウンスは以下になります。

機能について

Amazon DataZoneのビジネスデータカタログに登録するアセットについて、アセットの概要とスキーマのカラムの説明を生成系AIが生成してくれるというものになります。

※ 補足: データコンシューマーがデータを容易に発見するための追加機能もあるようです。(2023/12/4追記)

米国東部(バージニア北部)および米国東部(オレゴン)の2リージョンでプロビジョニングされたAmazon DataZoneドメインにて、プレビュー提供で利用可能です。

以下、実際に試した内容をご紹介できればと思います。

検証の前準備

バージニア北部でDataZoneのドメインを作り、確認しました。

以下の前準備を行なっておき、Glueデータカタログ上のGlueデータベースをDataZoneのビジネスデータカタログに公開できるよう準備をしました。

1. データとGlueのリソースの準備

Glueテーブルは以下のように、S3バケットに配置したUCI Machine Learning RepositoryのIris Data Setを検索できるテーブルを作成しておきました。

作成したGlueデータベース・テーブル

このデータセットは、下記リンクにて公開されています。

  • https://archive.ics.uci.edu/ml/datasets/iris

2. DataZoneのリソースの準備

DataZoneのドメイン・プロジェクト・環境を作成しました。

ドメイン作成時にQuick setupで必要なIAMロールも合わせて自動作成しました。

環境についてはデフォルトのDataLakeProfile環境プロファイルを使って作成しました。

初期設定のイメージは以下のAmazon Web Servicesブログが参考になります。

3. DataZoneからGlueテーブルへのアクセス許可

LakeFormationで、作成しておいたデータベースに対してLF-Tagを付与しました。このLF-Tagについて、DataZoneが作成していたGlue管理アクセスロールにアクセス許可を付与しました。

Database&LF-Tags

Data lake permissions

機能を試してみる

1. データソースの作成

DataZoneのプロジェクトの画面を開き、データタブのデータソースの作成を押して、Glueデータベースのアセットの技術メタデータをDataZoneインベントリにインポートしました。

②詳細を追加を開くと、自動的なビジネス名の生成というコンポーネントができており、自動的なビジネス名の生成をチェックすることでAIによるメタデータの自動生成が有効化されました。

後は道なりに設定を進めてデータソースを作成した後、データソースをオンデマンド実行して、作成したテーブルに該当するアセットが作成されたことを確認しました。

オンデマンド実行の結果

2. メタデータの自動生成

作成した上記の画面でアセット名がリンクになっているのでクリックして開くと、以下のようにメタデータの自動生成を表す緑のアイコンが表示されているのを確認できました。

メタデータの自動生成表示

早速生成を試してみようということで、概要を生成をクリックすると、以下のようにしばらくの間、処理中の表示になりました。

メタデータの生成中

最終的に、以下のように概要が生成されました!すごい!

生成された概要

拒否編集承認の選択肢があり、編集を押すと以下のように編集が可能でした。

概要の編集

ちなみに、生成された文字列は以下のようなものでした。 見て頂いて分かる通り、結構ガッツリ説明を作ってくれました。これは大きなポイントだと思っていて、後ほど記載します。

The iris table contains measurements of iris flowers. There are 5 columns: sepal_width, petal_width, sepal_length, class, and petal_length. Sepal_width and petal_width capture the width in centimeters of the sepal (outer part of flower) and petal respectively. Sepal_length measures the length in centimeters of the sepal. Class indicates the iris species - Iris setosa, Iris virginica, or Iris versicolor. Finally, petal_length provides the length in centimeters of the petal. By storing quantitative measurements of flower parts along with the species classification, this table enables analyzing differences between iris types. The paired width and length measurements are particularly interesting as they capture the shape and size characteristics of the flowers. The sepal and petal dimensions could reveal insights about each species' morphology and appearance. Overall, the iris table contains flower measurement data that can be used to quantitatively analyze and classify iris species based on sepal and petal morphology. Use Case The iris table contains quantitative measurements of iris flower parts that can enable classification and analysis of different iris species.

The key end users and use cases for this data include:

  • Botanists and taxonomists studying iris morphology - The measurements allow quantitatively analyzing differences between iris species' sepal and petal dimensions. This aids taxonomic classification and understanding species variation.

  • Data scientists and machine learning engineers - The labeled measurements can train models to automatically classify iris species based on sepal/petal size and shape. The data is useful for evaluating classification algorithms.

  • Horticulturists - Analyzing sepal/petal dimensions could help understand optimal growing conditions for different iris types. The data aids selective breeding and hybridization programs.

  • Ecologists - Variations in flower morphology may relate to pollinator coevolution and specialized pollination syndromes. The data helps examine these ecological relationships.

  • Biology and morphology students/teachers - The measurements provide quantitative examples of how flower structures vary between plant species. The data enables a hands-on introduction to morphological analysis.

Overall, the precise iris measurements enable quantitative analysis of floral morphology. The table would be most useful for domains involving botany, taxonomy, horticulture, ecology, and biological data analysis. The labeled measurements can improve understanding of iris biodiversity and aid development of data-driven classification tools.

また、スキーマに関するメタデータも以下のように作成されました。こちらもいい感じです。

スキーマの説明

画面上部のすべて承諾を押すことで提案されたメタデータをまとめて確定できました。

すべて承諾

確定したメタデータ

感想

DataZoneのビジネスデータカタログに記載される概要およびカラムの説明を生成系AIでワンクリックで自動作成してくれるという機能でした。

個人的にはすごく良い機能だと感じ、プレビュー版で活用方法を学びつつ、一般提供開始されたらぜひ使いたいなと思います。

なにを解決してくれるのか

ビジネスデータカタログに記載する内容は非常に大切な内容であるものの、充実させるためにはデータプロデューサーの手間がかかることが、一般的な課題としてありました。この内容をドラフトでも良いので機械的に生成し、入力者の負担を軽くできれば、非常に価値のあるデータカタログを効率的に作成できるようになると思います。

適切かつ充実したデータカタログの説明を見ることにより、異なるドメインのデータコンシューマーがデータについて理解し、適切なデータ統合を行い、価値のあるデータ活用を行うことができます。

生成の対象となったデータセットに依存する現象かもしれませんが、かなりの分量の概要を出力してくれました。これも良い振る舞いだと思っており、このように十分な量の説明を出してくれることで検索ワードでひっかけやすくなるので、検索性が高くなると思います。対照的にカラムの説明は文字数を絞って出してくれているのも良さそうです。

今回は有名なデータを対象に行ったので質・量ともにかなり良い感じのテキストが生成されましたが、企業・ドメイン固有のデータに対して試してみたときに、どれくらい的確に説明が生成されてくるかという点もポイントですね。

生成された概要を日本語で見てみる

ちなみに、アセットの概要として生成された英文は、翻訳すると以下のようになります。(生成された英文は手動で体裁を整えられるので、訳すついでに改行などで体裁を整えました。)

このテーブルはアイリスの花の測定値を含んでいます。

sepal_width、petal_width、sepal_length、classそしてpetal_lengthの5つのカラムがあります。sepal_width and petal_widthはそれぞれセンチメートル単位でがく(花の外側の部分)と花弁の幅の値です。classはIris setosa、Iris virginica、Iris versicolorのアイリスの種類を示しています。最後にpetal_lengthはセンチメートル単位の花弁の長さです。

このテーブルは、種類ごとの花の部分の量的な測定値を保存することで、アイリスの種類ごとの違いの分析をすることを可能とします。 がくと花弁の長さの対の測定値から、特に花ごとの形と大きさに興味をそそられます。がくと花弁の寸法から、アイリスの各種別の形態と外見を明らかにできるかもしれません。

まとめると、Irisテーブルは花の測定データを格納しており、がくと花弁の形態に基づいた量的な分析と種別の分類を可能にするものです。

ユースケース

Irisテーブルはアイリスの花の部分の量的な測定値を有しており、アイリスの種の違いの分類や分析を可能とします。

このデータのエンドユーザーとユースケースです:

  • アイリスの形態を研究する植物学者と分類学者 - 測定値はがくと花弁の寸法でのアイリスの種類による違いの量的な分析を可能にする。これは分類学的な分類と種の違いの理解に役立つ。
  • データサイエンティストと機械学習エンジニア - ラベル付けされたサンプルは、がくと花弁の大きさと形により、自動でアイリスの種類を分類するための機械学習モデルの訓練に使用できる。このデータは分類アルゴリズムの評価にも使える。
  • 園芸家 - 花の形態の多様性は花粉媒介者との共進化や受粉様式に合わせて特化した花の特徴に関係があるかもしれない。このデータは生態学上の関係性の検証の助けになる。
  • 生物学と形態学の学生と教師 - 測定値は花の構造が種によってどのように異なっているかという量的な例を示している。データは形態学的な分析のハンズオンの導入に適している。

まとめると、正確なアイリスの測定サンプルは花のの形態の量的な分析を可能とします。植物学、分類学、園芸学、生態学そして生物学を含むドメインのデータ分析に大いに役立つでしょう。ラベル付けされた測定値はアイリスの生物多様性の理解を深化させることと、データ駆動の分類ツールの開発に役立つ可能性があります。

日本語にすると、エンドユーザーごとのユースケースまで含めた非常に詳しい説明文が生成されていることが、とてもよく分かりますね。

現状は英語で生成されるようでしたが、生成された文章が日本語であったとしても多少の手直しや加筆はすると思うので、その際になにかしらの方法で翻訳をするという運用にしてもなお、十分に使いやすい機能だなと思います。

最後に

re:Invent2023のキーノートのうち、日本では昨晩行われたAdam Selipsky Keynoteで、Amazon DataZone向けに生成系AIベースのビジネスデータカタログ強化のための機能(プレビュー)のご紹介でした。

Amazon DataZoneが組織内の分散したデータ管理において、ますます強力なサービスになったことを感じるアップデートでした。

参考になりましたら幸いです。