AKIBA.AWS ONLINE #09で「Amazon Comprehendから始める感情分析」について話しました #AKIBAAWS
猛暑を通り越して酷暑と言うにふさわしい夏が度々訪れるせいで、すっかり夜行性になりつつあります。
▲ 駅前には小玉スイカが実っていました、夏ですね
こんにちは。DA事業本部のShirotaです。時折駅前にあるスイカを眺めて暑さ以外の夏を何とか感じています。
本日は、2022年8月4日(木)に開催された AKIBA.AWS ONLINE #09 – AWSを活用した機械学習 編- にてお話しさせて頂いた「Amazon Comprehendから始める感情分析」についての資料と、資料内に書き切れなかった内容についてをまとめたいと思います。
本イベントの詳細は以下エントリをご覧ください。
また、イベント当日のアーカイブはこちらです。お時間がある際に是非ご覧ください。
登壇資料
当日話したこと・話しきれなかったこと
話の構成
当日は以下の構成で話をしました。
- Amazon Comprehendとは?
- そもそも感情分析とは
- ネガポジ分析の手法
- ネガポジ分析の手法それぞれの長所・短所
Amazon Comprehend でできることの一つとして感情分析があるため、前半は Amazon Comprehend の概要説明・後半は感情分析及びその中の一つであるネガポジ分析についての話をしました。
各機能の対応言語について
各機能ごとに対応言語の状況はまちまちです。詳細は、AWS公式ドキュメントに記載があります。
例えば、今回お話しした感情分析の機能については全言語(ドイツ語、英語、スペイン語、イタリア語、
ポルトガル語、フランス語、日本語、韓国語、ヒンディー語、アラビア語、中国語 (簡体字)、中国語 (繁体字) )対応していますが、2022年3月に出たばかりのエンティティ特化の感情分析については英語のみ対応となっております。(2022年8月9日現在)
当日でのトークセッションでも話に上がりましたが、AWSのサービスやドキュメントについては日本語対応・翻訳を待つことが多々あると思います。
Amazon Comprehend のAWS公式ページには、こういった場合に Amazon Translate と組み合わせて Amazon Comprehend で対応している言語に翻訳することで現状非対応の言語の分析をしたい際には利用する手法が紹介されています。
実際にこのような対応をやったことがないので、今度機会がある際にでも試してみたいと思います。
エンティティ特化の感情分析について
これは2022年3月に追加された、新たな感情分析機能です。
今まであった感情分析機能より、より詳細な感情分析ができるようになっています。
例えば「ハンバーガーは美味しかったが、店員の対応が微妙だった」という文章があった場合、
- 前半の「ハンバーガーについて」はポジティブな感情
- 後半の「店員について」はネガティブな感情
といったようにポジティブとネガティブの感情が両方存在し、今までの感情分析機能では「混在(mixed)」の値が大きく出るといったところの分析までしかできませんでした。
このエンティティ特化の感情分析では各エンティティでのネガポジ分析を行うことができるので、
- 「ハンバーガー」についてはポジティブな感情
- 「店員」についてはネガティブな感情
といった詳細の感情分析ができる、 Amazon Comprehend の新機能となっています。
上述したように現状では英語のみの対応となっているので、また日本語対応された際にアップデートブログとして色々お知らせしていきたいと思います。
極性辞書について
極性辞書として有名なものとして、東北大学の乾・鈴木研究室で公開している「日本語評価極性辞書」があります。
また、Python上で動くネガポジ判定用のライブラリ「oseti」でもこの日本語評価極性辞書を利用しています。
pip install
でインストールすることができるのでとても便利です。
自然言語処理技術「BERT」(バート)
BERT(バート)は、2018年に Google が発表した自然言語処理技術です。その後Googleの検索エンジンにも採用されました。
今回お話ししたデメリットの中にあった「教師データを集めるのが大変」といったものを補える自己教師学習やBERTで採用されている事前学習という概念もあり、人間の作業をより軽減することができるようになってきています。
この辺りに関しては私もまだ勉強不足なので、今後学んだことを少しずつブログにまとめていけたらなと思っています。
Amazon Comprehend やってみたブログ
以前書いた、 Amazon Comprehend やってみたブログです。お時間があったら読んで頂けると幸いです。
後半のトークセッションで話したこと
機械学習が今までなかった色々な分野で活用されていくところを見てみたい、という話の中ですばる望遠鏡の観測データと異常検知AIを組み合わせることで珍しい特徴(大きさや形など)を持った銀河である特異銀河を抽出した事例についてお話ししました。
それこそ望遠鏡はかなり多くのデータを抱え、また一般公開しているデータも多くなっています。
画像分析周りの発展も著しいため、今後は天文データの活用がより多くなっていくのではないかとかつて天文畑にいた私としては大いに楽しみにしています。
アバターを(少し)更改しました
▲ こうして見ると結構違うな
アバターを更改しました。
というのも、元々のアバターを作成した VRoid Studio の正式版が気づいたら配信されていたのです。(2021年10月31日)
折角の登壇機会だし触ろうと思い登壇1時間前くらいまでアバターを作っていました。いつもギリギリです。
ベータ版のVRoid Studioより自由度が上がり、かつ操作性もとても直感的にやれるようになっていました。痒いところに手が届くカスタマイズが増えたように感じます。
オンライン勉強会が活発な今、アバター登壇の需要はかなり上がっていると思うのでこういった便利なツールが増えてくるととても嬉しい限りです。
Canvaはいいぞ
最近はもっぱら、プレゼン作りは Canva を使っています。
テンプレートや素材に可愛かったりおしゃれだったりするものが多く、資料を作っている時のモチベーションに直結します。
サムネイル画像を作る時にもよくお世話になっています。
2年振りのAKIBA.AWS登壇を終えて
調べてみると、2年おきにAKIBA.AWSに登壇していたことが明らかになりました。
2年も開くと、プレゼンの作成スタイルや登壇のスタイルも結構変わっているなと感じました。
また毎回資料作りや発表練習など、何につけても久しぶりすぎてリハビリから入る必要が発生してしまい登壇のコストが上がってしまう傾向にあることが分かりました。(当社比)
もう少しだけ登壇の頻度を上げ、リハビリにかかるコストを減らしていこうと自分の中で密かな目標を立てました。
と、宣言だけして今回のブログを締め括ろうと思います。
このブログで、感情分析や Amazon Comprehendに興味を持たれた方がいたら幸いです。