ChatGPTで翻訳機能の正確性を検証してみた

2023.04.11

アノテーション コンタクトセンターチームの松浦です。ChatGPTで翻訳機能の正確性を検証してみました。

私たちのチームは、日頃お客様に代わって海外ベンダーへ英語で起票したり、弊社YouTube動画の日本語・英語字幕付けをしたり、依頼のあった文書等の翻訳をしています。

実際に自分たちが苦労して翻訳してきたものを、今話題のChatGPTに入力して翻訳性能を検証してみました。(※今回はChatGPT-3.5 <無料版>で検証しました。)

各機械翻訳と比較

今回はこちらのサイトを一部抜粋し、ChatGPT、各種有名機械翻訳(Google / DeepL)や当方で訳したものと比べてみました。

技術的なお問い合わせに関するガイドライン

ChatGPT翻訳:Technical support guidelines

Google翻訳:Technical Inquiry Guidelines

DeepL翻訳:Guidelines for Technical Inquiries

私たちで翻訳したもの:Guidelines for technical inquiries

「1つのリクエストにつき1つの質問をおすすめします。」

ChatGPT翻訳:We recommend one question per request.

Google翻訳:We recommend one question per request.

DeepL翻訳:We recommend one question per request.

私たちで翻訳したもの:We recommend one question per request.

 

→短い/単純な文章には大差が見られず、どれも精度が高そうに感じられます。

 

「件名や説明本文に「至急」「急ぎ」などのキーワードを書いても緊急度は上がりません。」

ChatGPT翻訳:Writing keywords such as "urgent" or "emergency" in the subject or description will not increase the urgency.

Google翻訳:Writing keywords such as "Urgent" and "Urgent" in the subject or description does not increase the degree of urgency.

DeepL翻訳:Keywords such as "urgent" or "urgent" in the subject line or description body will not increase the urgency level.

私たちで翻訳したもの:Even if you write keywords such as [ASAP], [Hurry] in the subject or explanation text, the severity will not increase

 

→このように、長文/複雑な文章にはばらつきがでてきて、校正が必要という印象を受けました。 また、テクニカルサポートにおける「緊急度」は"Urgent"や"Emergency"ではなく、"Severity"を使うそうで、そういった意味ではどの機械翻訳も正しくありませんでした。

他の機械翻訳にはない素晴らしさ

ChatGPTは通常の翻訳機能に加え、「口調の指定や文章レベルの指定も可能」です。

いくつか試しにやってみました。

1.アカデミックな文体にして

2.子供にもわかるような文章に

3.ビジネス向けの文章に

「テクニカルサポートにおける文」であるという前提が抜けているので、多少内容に違いは出てきますが、たしかに文調を変化させつつ、内容をしっかり英訳してくれています。

まとめ

公式文書おいては重要性が高く、誤りがあってはならないという前提があるため、

・その文書ごとにおける専門用語の正確性(Severityなど)が保たれているか

・翻訳対象の「その文書における正しい意味、内容」を正しく翻訳できているか(今回の場合だと、AWSがどういっているか、どの言葉を使っているか)

を確認する必要があります。そのためには、背景・内容を理解した関係者や校正者が公開前に確認する必要があると思いました。

 

ですが、やはりChatGPTの翻訳性能は素晴らしいです。元々の翻訳性能が高いことに加え、口調・文章レベルの指定ができるというのは、作業工数・時間を大きく削減してくれます。なので、上手く活用できればより精度の高い(=それぞれの場面に相応しい)翻訳が出来そうだと感じました。

 

※上記は無料版での検証です。無料版でも十分な性能を発揮していることが分かりましたが、有料版ではさらに高い性能が期待できます。