【レポート】AWS DeepComposer: Generative AI の はじめの一歩 #AIM223 #reinvent #DeepComposer

2019.12.10

こんにちは韓です。 先日行われた re:Invent 2019 で、話題の新サービス・デバイスとなった DeepComposer ですが、他のクラメソ社員同様に受講してまいりましたので、スライド多めのレポートをさせていただきます。

どんな様子だったか

定員は100名。参加した回は順番待ちもあり参加者は100名の満員御礼。

PC持ち込み前提のセッションで自身のPCで体験をする形式となでした。

テーブル席は5~6名でシェアする形で、電源タップとWifi設定が記された紙が中央に、各人のスペースに デバイスの DeepComposer (写真左上)と、ハンズオン用のアカウントが書かれた紙(同左下)と、DeepComposerロゴのあるイヤホンがおいてありました(同右上)。

DeepComposer デバイスはハンズオン用で、持ち帰りはできないとのこと。アカウント記載の紙をレジストレーションのSWAG(お土産)で実機と交換できる形式でした。

なおイヤホンは音楽が鳴るため各自に配られているのですが、なんとお持ち帰り自由でした!ケースにロゴだけだと思ってたのですが、中身にもしっかりロゴがついており、結構レアものでうれしいところ。

セッションが始まるまでちょっと時間があったので、紙に記載されたアカウントでログインした様子が以下。

レポート

AWS DeepComposer とは

開発者向けの世界で初めての学習可能な音楽キーボードのデバイス

仮想キーボードの説明のスライド。DeepComposer本体とはだいぶ違います。

アジェンダ

  1. AWSにおける機械学習について(10分)
  2. 機械学習の導入とAI生成について(20分)
  3. Lab 1: AWS DeepComposerモデルを使用しての作曲(35分)
  4. Lab 2: AWS DeepComposerを用いたモデルのトレーニング(55分)

AWS における我々のミッション

全ての開発者の手に機械学習を!

なぜAWSが機械学習を?

  • AIおよびMLサービスの最も幅広く深いセット
    • 今年だけで開始された200の新しい機能とサービス
    • 比類のない柔軟性
  • SageMakerでMLの採用を加速
    • データラベル付けのコストを70%削減
    • 10倍のパフォーマンス
    • 推論コストを75%削減
  • 最も包括的なクラウドプラットフォーム上に構築
    • AWSはGartnerのInfrastructure as a Service(Iaas)Magic Quadrantで9年連続でリーダー選出

AWSでは他のどこよりも多くの機械学習が

  • 千人以上の顧客
  • 2x顧客の参照
  • クラウド内のTensorFlowプロジェクトの85%

がAWSで起きている。

AWS の機械学習スタック

次の開発者ができること

  • 機械学習の教育デバイス
    • AWS DeepLens
    • 深層学習
    • AWS DeepRacer
    • 強化学習
    • AWS DeepComposer
    • 生成AI
  • トレーニングと認定
    • AWS による MLトレーニングと認定
    • MOOCとのパートナーシップ

機械学習のテクニックのタイプ

  • 教師あり学習   - すべてのトレーニング例には対応するラベルあり
  • 教師なし学習
    • トレーニングデータのラベルなし
    • 最も生成的なAIは教師なし学習です
  • 強化学習
    • 特定の環境における行動の結果を通じて学ぶ

生成AI

過去10年間でAIの最も有望な進歩の1つ

~ MIT Technology Review ~

生成AIの実用化

  • オートデスク -- エアバス
  • オートデスク -- NASA JPL
  • グライドウェル研究所

Generative Adversarial Network(GAN)

創造性と生成性の出会い

  1. AWS DeepComposerキーボードを接続してメロディを入力
  2. ジャズ、ロック、ポップ、クラシックから選択、またはAmazon SageMakerで独自ジャンルのモデルを作成
  3. トラックをコンソールからSoundCloudに発行し、 MIDIファイルをお気に入りのDAWにエクスポート

おさらいクイズ

ここまでの内容の理解度チェックとしてクイズ形式の質問タイムとなりました。

出題者側が kahoot.com でクイズルームを作り、回答者がクイズルームのPINとニックネームで kahoot.it参加します。 参加者がどんどんと増えている様子は以下の通りです。

質問と4つの選択肢が出され参加者は回答を行います。出題されると制限時間がどんどん消費されるので、早く回答するほど得点が高くなるようです。

残念ながら出題中はカウントダウンがあり写真は撮れませんでしたが、結果画面は以下の通りです。 私は回答に手間取り正解するも全体の73位という体たらく。

Lab 1: AWS DeepComposerモデルを使用しての作曲

自習型ラボの手順

  1. GItHubで導入マニュアルを見つける\ https://github.com/aws-samples/aws-deepcomposer-samples
  2. Lab 1 を選択
  3. 35分の自習時間

実施内容の詳細は こちらのレポート を参照ください

【閑話休題】

ちなみに私は、上の写真にもあるように最初にAWSコンソールにログインしてからキーボードを接続したため、鍵盤を押しても何も反応がなくて焦りました。 サポートエンジニアの方が沢山いて手を挙げ、つたない英語で"It doesn't work!" と言い助けを求めたところ、親切にトラブルシュートを頂きました。何のことはない、ページリロードでデバイス認識がなされ、キチンと入力ができるようになりました。

Lab 2: AWS DeepComposerを用いたモデルのトレーニング

実施内容の詳細は こちらのレポート を参照ください

講師による解説

Lab1の舞台裏

トレーニングのアーキテクチャー

トレーニングの課題

  1. クリーンなデータセットを取得するのが難しい
  2. GANはトレーニング中に収束するのに時間がかかる
  3. 音楽制作の主観的な指標を定義する際の複雑さ
  4. 音楽制作の定量的指標を定義する際の複雑さ

学習したことのまとめ

  • ジェネレーティブAIアルゴリズムとは
  • GANとは何か
  • GANアーキテクチャとトレーニングプロセス
  • 入力メロディーからコンポジションを生成 (Lab1)
  • AWS DeepComposer推論の仕組み
  • Amazon SageMakerノートブックにGANモデルを構築 (Lab2)
  • AWS DeepComposerがカスタムモデルを構築するためのモデルトレーニングを実行する方法

もっと学ぶには

さいごに

ガチのエンジニアで無い私ですがなんとなく機械学習の一旦を垣間見ることができるセッションでした。キーノートでもSageMaker関連のリリースが多かったこともあり、今後は機械学習に力を入れるんだな、というのがヒシヒシと伝わってきますね。

英語が苦手・技術が苦手な私でもなんとか実機をゲットできました。次回のre:Inventでは恐れずに参加してみてはいかがでしょうか?