【レポート】AWS の機械学習サービス入門 #AWSSummit
はじめに
オペレーションチームの下田です。
2018年 5月 30日(水) 〜 6月 1日(金)の期間に、グランドプリンスホテル新高輪で開催される日本最大級のクラウドコンピューティングカンファレンス AWS Summit Tokyo 2018 に参加しています。
「AWS の機械学習サービス入門」を聴講しましたので、レポートしたいと思います。 スピーカーは、 アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 川村 誠さんです。
セッションに関する紹介文を、公式サイトから引用します。
AWS re:Invent 2017 で拡張された機械学習/深層学習サービス群の今と、サービスレイヤーを中心としたアップデートについてご紹介します。
レポート
- Amazon における機械学習の取り組みについて
- 過去 20年間にわたる機械学習分野への継続投資
- ECサイトや、Alexa、amazon go などの中核で機械学習を利用している
- AWS が提供する機械学習サービスの全体像
- ML サービススタックの紹介
- インフラ(GPU,CPU,IoT,Edge)
- Engines(Caffe2,CNTK,Chainer,MXNet,PyTorch など)
- Platform(AML,Apache Spark など)
- Services(Rekognition Image,Rekognition Video,Polly,Transcribe,Comprehend,Translate,Lex など)
- 現時点での日本語対応サービスは、Polly のみ
- ML サービススタックの紹介
- API サービス
- Rekognition Image
- 深層学習に基づく画像認識サービス
- 物体とシーンの検出(画像にうつる、物体のラベルとスコアが表示される)
- 顔分析
- 顔の位置、感情、ポーズ、目が開いているか判断できる
- 顔の比較
- 2つの画像の顔が同一人物である可能性を推定可能
- 顔認識
- 大規模な顔コレクションから、特徴量と類似する特徴量をを持つ顔を見つけることができる
- 1画像につき 15人上限だったが今では 100人まで検出可能、精度も向上している
- 節度判定
- 成人向けコンテンツを検出し、コンテンツの信頼スコアを取得可能(例えば、ヌード画像や水着画像など)
- 有名人認識
- 画像から有名人の名前や信頼スコアを取得可能
- ラベル認識
- オブジェクト(画像)上にある文字を認識可能(上限は、50単語で ISO 基本ラテンアルファベットや、数字記号など)
- 深層学習に基づく画像認識サービス
- Rekognition Video
- 動画のシーンを検出しラベルが表示される
- ユースケース
- 動画データを検索しやすく(監視カメラのストリームをリアルタイム検索できる)
- Polly
- 人間の声のようなリアルな音声を合成可能としたテキスト読み上げサービス
- テキストを単語単位に分解し、文脈などからイントネーションを調整し発音させる
- 合成した音声の保存、配信と再利用が可能
- SSML と Lexicon を利用することで、音声のカスタマイズが可能
- スピーチマーク機能(開発者が映像体験と会話の同期リップシンクを実現するメタ情報)
- 25種類の言語で、52種類の音声がリリースされている
- Transcribe
- Polly の逆で、音声をテキストに変換する機能(英語とスペイン語に対応、随時対応言語は拡充される予定)
- 句読点の補完機能を有する
- 仕組み
- 音声を深層学習で処理してテキストを生成
- ユースケース:ミーティングの議事録生成や管理
- Comprehend
- 自然言語処理サービス(英語とスペイン語に対応)
- さまざまな分析が可能(エンティティやキーフレーズの抽出)
- 言語の認識(テキスト内で言語が混じっていても、主要な言語が取得できる)や、感情分析が可能
- トピックモデリング
- S3 に格納された一連のドキュメントをトピックごとに自動的に整理できる
- ユースケース:ナレッジマネジメントと検索
- ユースケース:カスタマーの声を分析
- ユースケース:コールセンターの音声データの可視化
- Translate
- 多言語翻訳サービス(英語からアラビア語、簡体字中国語、フランス語、ドイツ語、スペイン語、ポルトガル語の 6 つの言語への翻訳を行います。日本語、ロシア語、イタリア語、中国語 (繁体字)、トルコ語、チェコ語の 6 つの言語が近日追加される予定です。)
- API により翻訳結果が取得できる
- Lex
- 任意のアプリケーションに音声やテキストを使用した対話型インターフェイスを簡単に開発することができるスイートな環境を提供するサービス
- ボットの構成要素としてIntents,Utterances,Slots,Prompt,Fullfillment がある
- 詳細は、FAQ のボット構造を参照ください。【Amazon Lex】よくある質問(人工知能を活用した会話型インターフェイス) | AWS
- 8kHz の電話音声をサポート
- bot 定義を Alexa Skill Kit に export 可能
- ボットの構成要素としてIntents,Utterances,Slots,Prompt,Fullfillment がある
- 任意のアプリケーションに音声やテキストを使用した対話型インターフェイスを簡単に開発することができるスイートな環境を提供するサービス
- Rekognition Image
無料利用枠がありますので、ぜひお試しください。
最後に、AWS DeepLens 世界初の開発者向け深層学習対応ビデオカメラをご紹介
- Intel Atom Processor で Ubuntu が稼働
- AWS Greengrass preconfigured
- Intel cLDNN 最適化ライブラリ for MXNet 搭載
- 箱から開けて 10分以内に深層学習が始められる
- Let's start Deep Learning!
まとめ
- Amazon は機械学習に継続的に投資し、イノベーションを創出
- AWS では 4レイヤーからなる、さまざまな機械学習サービスを提供
- API サービスを使用することで、コンピュータビジョン、音声、言語分析、チャットボット機能といったインテリジェンスを簡単にアプリケーションに追加可能
気軽に機械学習を始めることができる環境が整ってきているんだなと感じました。また、機会を見つけて試してみたいと思いました。
現場からは以上です、ではでは