モダンデータスタック カテゴリ紹介 #13 『Synthetic Data(合成データ)』 – Modern Data Stack Categories Overview Advent Calendar 2023
当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 13日目のエントリです。
- Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita
- Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO
データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。
このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。
当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Synthetic Data(合成データ)』の内容について紹介します。
目次
モダンデータスタック(Modern Data Stack/MDS)における『Synthetic Data(合成データ)』とは
アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。
合成データとは、元のデータと似てはいるが、その中に機密情報を含まないデータの事を指します。そして人工的に作られた情報であり、「元のデータに似せてアルゴリズムで作られたデータ」と定義できます。
企業はMLモデルをテストするために合成データツール・サービスを利用することで、現実世界にはない全く新しい高品質のデータ、現実世界のデータの統計的特性を模倣し、高品質の新しいデータポイントを生成する作業をスムーズに効果的効率的に行うことが出来ます。また、この手のツールやサービスは製品やサービスのテストにも使用できます。
その他合成データ(Synthetic Data)に関する解説などは下記の情報をご参照ください。
MDSにおける主な合成データ系サービス
ここではモダンデータスタックにおける『合成データ』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)
YData
YDataは、AIベースのプライバシーおよび合成データツールを提供する、GDPRをはじめとする法律やプライバシーに準拠したソリューションです。
オリジナルのデータ特性を学習し、ユーザー定義のサイズのデータセットを生成し、組織間でのデータ共有を可能にすることが出来ます。
その他YDataに関する基本的な情報は以下の通り。
Synthesized
Synthesizedは、データ主導型組織向けの初のオールインワン・データ・プロジェクト自動化プラットフォームです。データにセキュリティを提供するために使用できる合成データを生成するソリューションや、機械学習を活用し、セキュアなインフラを提供することで、安全なデータ共有ソリューションを提供します。
その他に関する基本的な情報は以下の通り。
- Getting Started :: Synthesized Docs
- Pricing: from data imputation to data driven testing - Synthesized
- Synthesized(@Synthesizedio)さん / X
- (14204) Synthesized - YouTube
Gretel.ai
Gretel.aiは、ソースコード管理のためのクラウドベースのオープンソースプラットフォームのプロバイダーです。Gretelを使うと、開発者はオープンソースのリファレンス例と、無制限の合成データの生成、個人を特定できる情報のラベル付け、データの匿名化とバイアスの除去のためのシンプルなAPIを使って、数分で始めることができます。
Gretelのサービスはシンプルなウェブベースのインターフェースで制御され、Gretelのマネージドクラウドサービスまたはお客様独自のプライベートクラウド環境で実行されます。
その他Gretel.aiに関する基本的な情報は以下の通り。
- Quickstart - Gretel.ai
- Pricing - Gretel.ai
- Gretel.ai(@gretel_ai)さん / X
- Gretel - synthetic data platform for developers - YouTube
まとめ
という訳で、『Modern Data Stack Categories Overview Advent Calendar 2023』13日目の記事、合成データに関する紹介エントリでした。
「MDSにおける主な合成データ系サービス」パートを書く際に、主だったサービスでチョイス出来そうなものがあるかなと調べてみましたがまだまだ熟成されていない分野なのかな、という印象でした(企業Xのフォロワー数やYouTubeチャンネルの登録者数等から)。各種作業を行う際にこの手のデータが利用になる機会があれば積極的にサービスの利用も検討してみたいと思います。
明日14日目は『Data Privacy and Governance(データプライバシーとガバナンス)』に関する内容となります。お楽しみに!