【速報】データ分析アプリケーションの開発、可視化、デバッグできる統合開発環境(IDE) 『Amazon EMR Studio』 (Preview)が発表されました #reinvent

2020.12.11

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

日本時間2020年12月10日深夜のAWS re:Invent 2020のAnalyticsのリーダーシップセッションにて、データ分析アプリケーションの開発、可視化、デバッグできる統合開発環境(IDE)『Amazon EMR Studio』のプレビュー開始が発表されました。

Amazon EMR Studio とは

データサイエンティストとデータエンジニアが、R、Python、Scala、PySparkでアプリケーションを簡単に開発、可視化、デバッグできる統合開発環境(IDE)です。 EMR Studioは、フルマネージドのJupyter Notebookと、デバッグを簡単にするSparkUIやYARN Timeline Serviceなどのツールを提供します。EMR Studioは、AWS SSOを使用しており、AWSコンソールにログインせずに企業の認証情報を使用して直接ログインできます。

Amazon EMR Studioの長所

  • EMR Sparkアプリケーションを開発や診断するための統合環境
    • セットアップやAWSコンソールのサインインが不要
  • フルマネージドのJupyterノートブック
    • Jupyterノートブックを使用して、R、Python、Scala、PySparkで分析したり、データサイエンスアプリケーションを開発できる
    • JupyterカーネルとEMRクラスターで実行されているアプリケーションで、Apache Sparkのパフォーマンスが最適化されたEMR Runtime for Apache Sparkを使用して、分散処理を利用でる
    • Amazon EC2インスタンスを使用する既存のクラスターとEKS仮想クラスター上のEMRのどちらにでも接続できる
  • コードリポジトリによる他ユーザーとの連携
    • EMR Studioノートブック環境から、AWS CodeCommit、GitHub、Bitbucketなどのコードリポジトリに接続してコードを連携できる
  • カスタムPythonライブラリとカーネルの実行
    • EMR StudioからカスタムPythonライブラリやJupyterカーネルをEMRクラスターに直接インストールできる
  • パイプラインを使用してワークフローを自動化
    • プロトタイピングから本番環境に簡単に移行できる
    • パラメータを使用してプログラムで呼び出せるEMR Studioノートブックを作成
    • APIを使用してパラメータ化されたノートブックを実行
    • Apache AirflowやAmazon MWAAなどのオーケストレーションツールを使用して、自動化されたワークフローでノートブックを実行もできる
  • 簡単なデバッグ
    • クラスターにログインしなくても、ジョブをデバッグしてログにアクセスできる
    • EMR Studioは、SparkUIやYARN Timelineなどのネイティブアプリケーションインターフェイスを提供する
    • ノートブックをEMRStudioで実行すると、アプリケーションログがS3に自動的にアップロード
    • EMRクラスターが終了した後でも、S3上のログにアクセスしてアプリケーションを診断できる
    • クラスターやアプリケーションの実行時間に基づいてフィルタリング、デバッグするジョブをすばやく見つけられる

パブリックプレビューで利用できます!

Amazon EMR Studioは、EMRリリースバージョン6.2以降で、米国東部(バージニア州北部)、米国西部(オレゴン州)、およびEU(アイルランド)リージョンにて、パブリックレビューで利用できます。

最後に

SageMaker StudioやGlue Studioなど、各サービスの統合環境が提供され、遂にEMRにも統合環境が提供されました。今後はアプリケーション開発がEMR Studioの統合環境上でETLや分析を画面切り替え無しで進められるので作業が捗りそうです。

合わせて読みたい