[アップデート] Amazon Translate で Office Open XML ドキュメントの翻訳が可能になりました

翻訳したいドキュメントが大量にある環境にうれしいアップデートですね。デザインを損なうことなく、いい感じに翻訳してくれました。
2020.08.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

少々時間が経ってしまいましたが、先日のアップデートで Amazon Translate が Office Open XML ドキュメントの翻訳をサポートしました。

今回、.pptx を翻訳してみましたので、まずは結果を御覧ください!

なかなか良い感じやん。

何が嬉しいのか

これまで Amazon Translate の非同期バッチ処理は .txt または .html の翻訳が可能でしたが、今回のアップデートにより以下、3 ファイルが追加サポートされました。

  • .docx
  • .pptx
  • .xlsx

ドキュメント翻訳のバッチ処理化

最近の Office 製品や Office 365 だと、そもそも翻訳機能が付いているので、わざわざ Amazon Translate を使うことも無いかと思いますが、翻訳対象のドキュメントが膨大にある環境だと今回のアップデートはかなり嬉しいのではないでしょうか。

対応リージョン

Amazon Translate は東京リージョンでも使えるのですが、残念ながら非同期バッチ処理については東京リージョンでまだご利用できません。

  • 米国東部(バージニア北部)
  • 米国東部(オハイオ)
  • 米国西部(オレゴン)
  • アジアパシフィック(ソウル)
  • 欧州 (フランクフルト)
  • 欧州 (アイルランド)
  • 欧州 (ロンドン)

前提条件

Amazon Translate のバッチ翻訳ジョブを利用するにあたっての前提条件は以下のとおりです。

  • 入力ドキュメントは S3 バケット内にあること
  • 入出力ドキュメントの S3 バケットは API エンドポイントと同じリージョンであること
  • ドキュメントの一括入力サイズは 5GB 以下であること
  • 最大 100 万件のドキュメントを送信可能
  • 各入力ドキュメントは 20 MB 以下、100 万文字未満であること

料金

  • Amazon Translate の料金は 100 万文字あたり $15

やってみる

それでは早速やってみましょう。

執筆時点では東京リージョンで利用ができませんので、ソウル・リージョンで検証しています。

入力ドキュメントの配置

ソウル・リージョンの S3 バケット内に以下のように 2 つの .pptx ファイルを配置しました。

バッチジョブの作成および実行

Amazon Translate の管理コンソールをから [バッチ翻訳] を開き、[ジョブの作成] をクリックします。

任意のジョブ名を入力し、ソース言語およびターゲット言語を指定します(Amazon Translate ではソース言語を自動検出しません)。今回は日本語から英語の翻訳を試しましたが、Amazon Translate では 55 言語に対応しています。(執筆時点)

入力ドキュメントを保管している S3 バケットのフォルダを指定し、今回の翻訳対象となるファイル形式 PowerPoint presentation (.pptx) を指定。出力場所となる S3 バケットのフォルダもあわせて指定します。(いずれも、API エンドポイントと同一リージョンの S3 バケットを指定

企業や分野等による固有の語彙がある場合は、カスタム用語を指定することも可能です。(今回は利用しません)

最後に IAM ロールを指定します。今回は IAM ロールを作成する で自動的に作成されたものを使用します。先のメニューで選択した S3 バケットへのアクセス権を付与するので、入力および出力 S3 バケット を選択します。ロール名は任意の値を入力します(この場合、AmazonTranslateServiceRole-test というロール名で作成されます)。最後に [ジョブの作成] をクリックすると、バッチ翻訳が開始されます。

翻訳が完了すると、以下のとおりステータスが 完了しました となっています。

出力ファイルの場所 のリンクをクリックすると、翻訳されたドキュメントが保管されています。ターゲット言語 + 入力ドキュメント名 の形式になっていることが判ります。

ダウンロードし内容を確認したものが、冒頭の翻訳前後の比較画像のものになります!

異なるファイル形式を置いたらどうなる?

仮に入力フォルダに .pptx, .docx, xlsx をまとめて配置し、ジョブを作成したらどうなるのか気になったので試してみました。

ファイル形式は PowerPoint presentation (.pptx) を指定してジョブを作成してみたところ、ジョブは失敗するようですね。

ただし、ファイル形式に合致しているものは正常に翻訳されていました。

指定したファイル形式は翻訳されるものの、ジョブステータスが正しくハンドリングできないので、ファイル形式毎に入力フォルダを分けることが無難なようですね。

検証は以上です!

さいごに

単一ファイルであれば各種ツールの翻訳機能などを利用することで事足りるかと思いますが、翻訳ドキュメントが大量にある場合、バッチ処理で翻訳できることは非常にありがたいですね。

弊社では日本、ドイツ、カナダ、韓国、タイ、ベトナム、インドと多国籍化が進んでいますので、今回の機能アップデートの使いどころがありそうですね!

以上!大阪オフィスの丸毛(@marumo1981)でした!