Amazon Comprehend を利用して、Twitter から読者の主要言語を解析 #reinvent

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

ども、藤本です。

AWS re:Invent 2017 にて自然言語処理(Natural Language Processing)サービスの Amazon Comprehend がリリースされました。Amazon Comprehend に関しては下記エントリにまとめてみました。

自然言語処理サービスの Amazon Comprehend についてまとめてみた #reinvent

使ってみて何かスゴいな、という印象は受けるのですが、じゃあ実際に何ができるのでしょうか?ユースケースを考えてみて実装してみました。

前回は感情の検出を利用して、Twitter からエゴサーチしてみました。

https://dev.classmethod.jp/cloud/aws/amazon-comprehend-egosearch-from-twitter/

概要

Amazon Coprehend はドキュメントから主要言語の解析を行うことができます。この主要言語の検出を利用して、Twitter のツイートからどういう言語でツイートされているのか見てみましょう。

dev.classmethod.jpで検索した直近1,000件のツイートを抽出し、それぞれ言語の検出を行い、言語毎のパーセンテージの算出を行います。読者の層が分かりますね。

簡単に図示すると↓のようなイメージ。

まぁ、前回の実装のほぼ使いまわしですw

読者の主要言語を解析してみた

環境

  • 端末:Macbook
  • 言語:Python
  • Python:3.6.1
  • Boto3:1.4.8
  • Botocore:1.8.6
  • Twitter SDK:python-twitter

ソースコード

ブログ最下部にもソースコードを張り付けています。

実行

$ ./language.py
ja : 99.1%
zh-TW : 0.2%
zh : 0.0%
en : 0.6%
id : 0.1%

弊社ブログなのでほぼ日本語ですね。続いて、英語、中国語、インドネシア語? 信頼度となるスコアを集計しているので各言語の低信頼度となるスコアを拾ったのかもしれません。

まとめ

いかがでしたでしょうか? ビジネスに結びつけるのは難しいかもしれませんが、アイデア次第では色々とできそうな気がします。

ソースコード