ChatGPT (GPT) が苦手な問題・試験って何なの?

2023.03.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部のueharaです。

この所ChatGPTが大きな話題となっており、弊社のブログからも既に多くの記事が出ています。

「○○のプログラム書いて」と言えば簡単なものであればササッと書いてくれますし、専門的な知識に関しても米国医療免許試験にほぼ合格できることが発表されるなど、各所で目覚ましい成果をあげています。

便利になったな〜と思う一方、例えば弊社含め採用に際し技術試験を課している会社などでは、「ChatGPTに聞けば解いてくれる可能性がある試験をどう評価しようか」と頭を悩ませているところかと思います。

※通常オンライン試験では長くても1時間程度で解ける問題を出しているところが多いイメージで、込み入った内容の試験を出すことは少ない印象があります。

そういうことを考えていると、逆にChatGPT (GPT)が苦手な問題・試験って何があるのか?と気になっていたところ、OpenAI社が出しているGPT-4 Technical Reportに種々の試験のベンチマークが記載されていたので、今回はその紹介をしたいと思います。

GPT-4とは

皆さんご存知かと思いますが、念のためGPT-4について端的に説明すると「GPT-3.5の後継である大規模なマルチモーダルモデル」です。

マルチモーダルとは文章や画像といった複数の形式のデータに対応しているということで、2023年3月時点でOpenAI社はChatGPT (GPT-4版)について画像入力の機能を開放しておりませんが、理論上は可能ということになります。

※現在無料版のChatGPTはGPT-3.5であり、有料プランに加入するとGPT-4版のChatGPTを利用することができます。

GPT-3.5とGPT-4の試験結果

では早速、GPT-4 Technical Reportに記載されていた試験結果を見てみたいと思います。

このレポートではGPT-3.5, GPT-4 (no vision), GPT-4のモデルで評価が実施されています。

簡単に表の見方について説明すると、例えば一番左上の 298/400 はこの試験のスコアになっており、括弧内の数値は受験者内のパーセンタイルになっています。

苦手なものとして、スコアが悪そうなものでぱっと目につくものだと、GPT-4のCodeforces Ratingの「392 (below 5th)」があります。

Codeforcesとは競技プログラミングコンテスト(いわゆる競プロ)を主催するウェブサイトで、結果が下位5%なのであまり点数が高くないことが分かります。

試験の最下部にあるLeetcodeもGAFAといったIT企業のコーディング面接で使われたorそれと類似する問題を解くことができる学習サイトですが、Codeforcesと同じようにあまり結果が芳しくないことが分かります。

少なくとも現段階では、意外にも競プロは苦手なようです。

表よりグラフの方が視覚的に分かりやすいので、そちらのデータも見てみます。

このグラフで分かる、GPT-4, GPT-3.5が共通して結果が良くなかったものは以下のようです。

  • Codeforces Rating
    • 上述した、いわゆる競プロ。
  • AP English Literature
    • 上級の英文学および作文の試験。
    • AP = Advanced Placementの略で、カレッジボードという機関が開発した上級レベルの科目を指す。
  • AMC 10
    • American Mathematics Competitions 10の略。算術、代数、確率など中等学校の数学的な問題解決のテスト。
  • AP English Language
    • 上述のAP English Literatureと似たような試験だが、より修辞法と口調に焦点を当てている試験。

その他気になるところとしては、GPT-3.5はUniform Bar Exam(統一司法試験)の結果がそこまで良くないのに対し、GPT-4では飛躍的に向上しているということでしょうか。

全体的に見てもGPT-4はGPT-3.5より性能が向上していることが分かりますが、特に司法試験では下位10%から上位10%に入る優秀さを見せています。

まとめと補足

GPT-4 Technical Reportで報告されている結果を見ると、まだ数学・上級文学・競プロあたりは苦手そうなことが分かりました。

数学や論理パズルにおいて、有名な問題であればChatGPTが正解を答えてくれることがありますが、問題の文章を意味が変わらない範囲で少し書き換えると、途端に間違えた答えを出すといったケースが発生したりもします。

丸暗記している、とまでは言いませんが、学習データの影響を強く受けている良い例だと思うので、与えた数学の問題が解けたからと言って「ChatGPTが数学を理解している!」と判断するのは注意が必要です。

とはいえ、こと数学に関してはChatGPTにWolfram(数値計算に非常に強いフレームワーク)が取り込まれるという話も出ているため、今後の進展には注目です。

参考文献

GPT-4 Technical Report