オープンソースのデータ・ディスカバリーおよびメタデータ・エンジン『Amundsen』の公式サイトから利用イメージと参考リソース情報を把握する

2020.10.30

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

先日投稿した下記のエントリでは、オープンソースのデータ・ディスカバリーおよびメタデータ・エンジン『Amundsen』に関する、GitHubリポジトリ情報から得られる概要情報、及びクイックスタートの実践内容を紹介しました。

当エントリでは、GitHubリポジトリとは別に展開されている『公式サイト』から、Amundsenがどう使えるのか、どのようにして使われるのかといった"利用イメージ"、そしてAmundsen公式サイトで言及・紹介されている各種リソース情報にどのようなものがあるのかを把握しておきたいと思います。

目次

 

製品公式ページ

このページでは、Amundsenがどのようなユーザー層向けに作られたものなのか、どういうユースケースに当てはまるのかが簡潔にまとめられています。

 

どんなユーザー層に向けたプロダクトなのか

アナリスト・データサイエンティスト

  • 分析とモデルのためにデータを発見し、信頼性を付加する
  • サイロを壊して生産性を高める
  • データのコンテキストを即座に取得し、他の人がどのようにデータを使用しているのかを確認する

データエンジニア・ソフトウェアエンジニア

  • コンテキストを自動的に共有し、作業の中断を減らす
  • データパイプラン内に於いて、適切なデータを使用していることを信頼
  • テーブル関連情報を一箇所に集約し、デバッグの高速化を実現

AmundsenはLyft製

AmundsenはLyft社で開発され、データエンジニア・データアナリスト・データサイエンティストの生産性を20%以上向上させたそうです。

 

どうやって使うのか?

信頼できるデータの発見

シンプルなテキスト検索で組織内のデータを検索。PageRank にインスパイアされた検索アルゴリズムは、名前、説明、タグ、およびテーブル/ダッシュボード上のクエリ/表示アクティビティに基づいて結果を推奨する。

自動化されたメタデータとキュレーションされたメタデータを参照

自動化されたキュレーションされたメタデータを使用してデータの信頼性を構築 - テーブルやカラムの説明、他の頻繁に使用するユーザー、テーブルの最終更新日、統計情報、許可されている場合はデータのプレビューなど。ETLジョブとデータを生成したコードをリンクすることで、トリアージを容易にする

同僚とコンテキストを共有する

表や列を説明文で更新し、どの表を使用するか、どの列に何が含まれているかについての不要な前後を削減。

他の人から学ぶ

同僚が頻繁に使用しているデータ、所有しているデータ、ブックマークしているデータを見ることが出来る。特定のテーブルに基づいて構築されたダッシュボードを見て、テーブルの最も一般的なクエリがどのように見えるかを知ることが出来る。

 

各種参照リソース

 

GitHub

前エントリでも言及したように、Amundsenの情報は下記GitHubリポジトリにまとまっています。

 

Slackチャンネル

AmundsenのSlackチャンネルは以下。

 

関連記事(ブログ記事、スライド資料)

Amundsenについて言及・解説されている主なブログやインタビュー記事はGitHubリポジトリ内の下記項に主だったものがまとまっています。

また、Amundsenについての発表物(スライド資料)や部分的に言及されている各種記事等も合わせてGitHubリポジトリ内にまとめられています。

 

YouTubeチャンネル

Amundsen社によるプロダクトのYouTubeチャンネルは以下。

ちなみにこれらの各種リソースはいずれも英語のみ、日本語情報はありません。まだ日本国内でも知られた存在では無いので、色々調べ甲斐がありそうです。

 

まとめ

という訳で、公式サイトから得られる情報を『取っ掛かり』として把握するために読み解いてみた内容の紹介でした。アーキテクチャ然り、関連リソース然り、日本語の情報は現状ほぼ皆無ですが学ぶ上では十分に活用出来るものがあるのかな、という印象です。引き続きAmundsenについて理解を深めていきたいと思います。