[アップデート]Amazon Comprehendが東京・ソウル・ムンバイリージョンで利用可能になりました![祝上陸]

自然言語処理のススメ
2020.02.13

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

NLPやっている皆さん〜!やっていない皆さんも! Amazon Comprehendが東京リージョンにやってきましたよ!

▲ 朝から綺麗なガッツポーズが決まりました。イエーイ!

こんにちは。大はしゃぎしているAWS事業本部のShirotaです。 この元気を維持しながら、本題を走り切りたいと思います。

Amazon Comprehend、東京リージョン上陸

本日(2020年2月13日)、Amazon Comprehendが東京・ソウル・ムンバイリージョンで利用可能になりました。

Amazon Comprehend is Now Available in the AWS Asia Pacific (Seoul), Asia Pacific (Tokyo), and Asia Pacific (Mumbai) regions

アップデートブログが現在日本語対応していないので、今回は原文のアップデートブログのリンクを貼りました。よかったらご覧下さい。

今回のアップデートにより、Amazon Comprehendが利用可能となったリージョンは以下のようになりました。

  • バージニア北部(us-east-1)
  • オハイオ(us-east-2)
  • オレゴン(us-west-2)
  • ムンバイ(ap-south-1) New!!
  • ソウル(ap-northeast-2) New!!
  • シンガポール(ap-southeast-1)
  • 東京(ap-northeast-1) New!!
  • カナダ(中央)(ca-central-1)
  • フランクフルト(eu-central-1)
  • アイルランド(eu-west-1)
  • ロンドン(eu-west-2)

こうして見ると、今回はアジアにあるリージョンがグッと強化されたんだなと感じますね。

Amazon Comprehendのおさらい

ところでAmazon Comprehendって何? という方も大分減って来たのではないかとは思うのですが、東京上陸の機に改めておさらいしておきましょう。

Amazon Comprehendは機械学習を利用した自然言語処理(NLP)ができるサービスです。 簡単にまとめると、機械学習を用いて文章を分析する事により、文章に用いられている単語の種類や重要度、言語の種類、文章に含まれる感情の分析などができるサービスです。 これらは特にユーザー側で設定する事なく、分析したい文章を放り込むとすぐにAmazon Comprehendで分析する事が可能です。勿論、カスタマイズをする事もできるのでコンテキストを学習させたりなどの幅を広げる事も可能です。

以前ブログを書いた際にいい感じにAmazon Comprehendについてまとめた文章が出てきたので、引用してみました。

私の文章が「暗い」かどうかはAmazon Comprehendにハッキリしてもらう ~Analysis jobsで20000字を感情分析してみた~ | Developers.IO

機械学習系 で、かつ人間の言語である自然言語を分析する 自然言語分析(NLP) に特化したAWSのマネージドサービスです。

東京リージョンにおける料金形態

Amazon Comprehendは基本的に、 処理したテキストの量 に基づき月額で課金されるシステムです。 100文字で1ユニット という単位換算を頭に入れておいてもらって、以下のユニット辺りに関する料金表(2020年2月13日現在)を見て頂ければ分かりやすくなります。

機能 〜10Mユニット 10M~50Mユニット 50Mユニット〜
キーフレーズ抽出 0.0001USD 0.00005USD 0.000025USD
感情分析 0.0001USD 0.00005USD 0.000025USD
エンティティ認識 0.0001USD 0.00005USD 0.000025USD
言語検出 0.0001USD 0.00005USD 0.000025USD
構文解析 0.00005USD 0.000025USD 0.0000125USD

構文解析がちょっとお安めなんですね。 ここでちょっと注意して頂きたい事は、 日本語はマルチバイト文字である事です。 文字数のカウンターは日本語1文字につき1つカウントされるのですが、そのまま上限の5000文字まで入力するとエラーが出ます。 その事からも、バイト=文字数でカウントしていると考えられるので、日本語の文章の解析時は注意が必要です。 また、リアルタイム解析では上記の解析全てが実行されるので、文字数が多くかつ解析したい分野が限られている場合にはS3に置いたテキストファイルを分析するジョブを作成する Analysis Jobs を利用した方が料金がお得になる可能性が高いです。 使用用途と相談しながら上手に利用してみて下さい。 また、その他機能の利用料金は以下のようになっています。

カスタムComprehend

  • 非同期分類: 0.0005USD/ユニット
  • 同期分類: 0.0005USD/秒
  • モデルトレーニング: 3USD/時
  • モデル管理: 0.50USD/月

となっています。 それぞれ、以下の条件に注意してご利用下さい。

  • 非同期分類: ジョブ実行には、最低でも3ユニット(300文字)必要
  • 同期分類: エンドポイントは最小課金時間が60秒からとなっており、 エンドポイントがアクティブな場合は課金が発生し続ける

しれっと大事な事が書いてあります。 利用後には環境の掃除が必要かどうかを確認する事をおすすめします。

トピックモデリング

  • 100MBまで: 1.00USD
  • 100MB以降: 追加で0.004USD/MB

折角なので日本語でできる事をまとめてみた

東京リージョンに来たし早速Amazon Comprehendを使おう!と思ったけれども、 日本語分析に対応していない機能 もまだまだあります。 今回、2020年2月13日時点で 日本語が分析できる機能 についてまとめてみました。

  • リアルタイム分析
  • エンティティ認識
  • キーフレーズ抽出
  • 言語検出
  • 感情分析
  • 分析ジョブ
  • エンティティ認識
  • キーフレーズ抽出
  • 言語検出
  • 感情分析
  • トピックモデリング

Languages Supported in Amazon Comprehend - Amazon Comprehend

現在は、これらの機能において日本語を分析する事ができます。 まだ、 構文解析やカスタム分類関係の機能では日本語が利用できません。 利用可能になる日が楽しみで仕方ないですね!

無料利用枠もあるので、この機会に分析を始めよう!

今回は「Amazon Comprehendがやってきたよ!」ブログでしたが、サクッと料金形態や現在日本語で出来る事についてもまとめてみました。

ここまででもAmazon Comprehendの魅力は ばっちり伝わった かと思いますが、最後にもうひと押しさせて下さい。

なんと、 無料利用枠があります。

5000文字分のテキスト (リアルタイム分析の上限値ですね)の解析や、トピックモデリングなら5ジョブ(各1MBまで)が無料利用可能です。

しかも、 Amazon Comprehendを利用した事が無い皆さんならばっちり無料利用枠に該当するのです!

Amazon Comprehend の無料利用枠は、AWS の新規および既存のお客様の両方を対象としており、Amazon Comprehend リクエストの第一日から 12 か月間ご利用いただけます。

料金 - Amazon Comprehend | AWS

これは嬉しいですよね! この機会に、よかったらAmazon Comprehendに触れてみて、自然言語解析を始めてみて下さい。 楽しい世界が広がるかもしれません。