[アップデート]Amazon Comprehendで日本語テキストの分析ができるようになりました

機械学習を利用した自然言語処理サービス「Amazon Comprehend」で日本語のテキスト分析ができるようになったので、早速マネジメントコンソールで試してみました。
2019.11.07

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

自然言語処理サービスのAmazon Comprehendで、日本語を含む以下の6言語のテキスト分析ができるようになりました!

  • 日本語
  • 中国語(繁体字)
  • 中国語(簡体字)
  • 韓国語
  • ヒンディー語
  • アラビア語

【AWS公式】Amazon Comprehend Adds Six New Languages

Amazon Comprehendとは

Amazon Comprehend(以下、Comprehend)とは、機械学習を利用した自然言語処理(NLP)サービスです。 指定したテキストを分析し、キーフレーズの検出や感情の判定などを行うことができます。

自然言語処理サービスの Amazon Comprehend についてまとめてみた #reinvent

今回、日本語を含む6言語が新たに追加されました。

以前からテキストの言語そのものの判定(Detect Dominant Language)は日本語も判定可能でしたが、テキストの詳細な分析もできるようになったので、これは嬉しいアップデートです!

(※2019/11/7時点でサポートされているのはエンティティ/キーフレーズ/感情の判定のみで、構文解析や分類をカスタマイズする機能はまだサポートされていません) 参考:Languages Supported in Amazon Comprehend

日本語のテキスト分析やってみる

それでは、早速試してみましょう。

マネジメントコンソールから、comprehendなどと入力して「Amazon Comprehend」を選択します。

※2019/11/7時点、Comprehendはアジアパシフィック (東京)では利用できませんので、必要に応じて米国東部 (バージニア北部)など利用可能なリージョンでお試しください。

左側のメニューを展開し、「Real-time anaylysis」を選択します。

「Real-time analysis」では、テキストを入力して分析を実行すると、即時に分析結果詳細を見ることができます。

初期状態では英語のサンプルテキストが入力されていますが、これを日本語のテキストにしてみます。 今回は、Amazon Comprehendサービスの紹介文を利用させていただきました。

テキストを入力し「Analyze」をクリックすると、テキストの分析結果が画面下部の「Insigts」に表示されます。 以下、それぞれ項目ごとに見ていきます。

Entities

「Entities」では、単語や文章の集合から属するエンティティタイプ(以下参照)及びその信頼度が判定されます。

Type Description
COMMERCIAL_ITEM A branded product(プロダクト名)
DATE A full date (for example, 11/25/2017), day (Tuesday), month (May), or time (8:30 a.m.)(日付)
EVENT An event, such as a festival, concert, election, etc.(イベントに関する単語)
LOCATION A specific location, such as a country, city, lake, building, etc.(地名や国、建物など)
ORGANIZATION Large organizations, such as a government, company, religion, sports team, etc.(会社名や組織)
OTHER Entities that don't fit into any of the other entity categories(リスト上のタイプに属さないもの)
PERSON Individuals, groups of people, nicknames, fictional characters(人名)
QUANTITY A quantified amount, such as currency, percentages, numbers, bytes, etc.(数量)
TITLE An official name given to any creation or creative work, such as movies, books, songs, etc.(創作物のタイトル)

「Comprehend」がプロダクト名と判定されており、他にも数量系の判定が多くされていますね。 (「な宝物」はおそらく誤判定な感じですね…)

Key phrases

「Key phrases」では、テキスト内の重要なフレーズを抽出することができます。 テキストから特別な事柄を説明する名詞(特徴的な名詞)を検出します。

「Amazon Comprehend」というプロダクト名や「機械学習」「自然言語処理」といったテキスト内で重要と思われるフレーズを抽出できているように思います。

Language

「Language」では、テキストの主要言語を判定することができます。 こちらは、今回のアップデート以前も日本語を判定することは可能でした。

言語の判定のみであれば、現状でもかなりの数の言語を判定することがでます。

Amazon Comprehend - Detect the Dominant Language

Sentiment

「Sentiment」では、テキストの感情を判定することができます。 以下の4種類の感情をスコアリングして返します。

  • Positive
  • Negative
  • Mixed
  • Neutral

感情的にはほぼ中立、ほのかにポジティブの様です :) 個人的には特に気になっている機能で、他にも色々なテキストで試してみたいところです。

Syntax

「Syntax」では、テキストの構文解析を行うことができますが、残念ながら現時点で日本語は未対応です。

おわりに

Comprehendで日本語のテキスト分析ができるようになりました。 お客様フィードバックの分析やチャットボットへの適用など、使い方次第ではかなり応用が効くサービスだと思うので、これからどんどん検証していきたいと思います!

参考