[新サービス]テキスト読み上げサービス「Amazon Polly」がリリースされました! #reinvent

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

AWS re:Invent 2016Keynote 1にて、テキスト読み上げサービス「Amazon Polly」がリリースされました!

Amazon_Polly_–_Lifelike_Text-to-Speech

Amazon Pollyとは

Amazon Pollyはテキスト読み上げサービスです。今回発表されたAmazon AIシリーズの1つで、Pollyには24の言語と47の音声が含まれており、テキストを自然な形で発声します。Amazon Pollyを活用することで音声対応のアプリケーションを簡単に構築することが出来そうです。アウトプットはそのまま再生したり、オーディオファイルとして保存することも出来ます。

42

やってみた

Text-to-Speech

Pollyの管理画面にアクセスし、[Get started]ボタンをクリックします。

Amazon_Polly 3

[Text-to-Speech]画面では、プレーンテキストまたはSSML(Speech Synthesis Markup Language)によってテキストを記述します。また言語とボイスの種類を選択し、[Listen to speech]ボタンをクリックすることで、音声がアウトプットされます。

Amazon_Polly 2

日本語はボイスの種類がまだ1つしかありません。今後の追加に期待です。

Amazon_Polly 4

例えばこんな感じにすると...

Amazon_Polly 5

アルファベットも含めて問題なく音声でアウトプットしてくれます。

Lexicon

[Lexicon]では、単語の発音をカスタマイズした発音辞書を作成しアップロードすることが出来ます。例えば以下のようなxmlファイルを作成して...

<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US">
  <lexeme>
    <grapheme>sasaki</grapheme>
    <alias>smokeymonkey</alias>
  </lexeme>
</lexicon>

[Lexicon]からxmlファイルをアップロードします。

Amazon_Polly 2

[Text-to-Speech]画面で、アップロードしたlexiconをapplyし、以下のような文章を作成すると...

Amazon_Polly 3

ちゃんとsasakiがsmokeymonkeyに変換されています。

さいごに

アプリケーションからAPIやSDKで叩くことで簡単にテキストを音声化することが出来ます。便利ですね。