[上級編]LLMへ至る道~まだまだ進化する!GPT-4の話~[24日目]

2023.12.24

みなさんこんにちは!クルトンです。

前日のブログでは、ChatGPTの中で使われているモデルと近しいと公式が言っているInstructGPTについてご紹介してきました。

本日のブログは、去年、2022年に公開されたGPT-4についてです。

論文を確認するには、まずは公式サイトにGPT-4に関するページへアクセスします。

その後、公式サイトの"Read Paper"と書かれているリンクから論文『GPT-4 Technical Report 』が確認できるサイトへアクセスできます。

GPT3やInstructGPTに続き、100ページの大ボリュームな論文です……!色々な創意工夫が詰まっている証拠ですね。

公式サイトの方でも見た目で分かるように、GPT-3.5との違いをグラフで示しています。パッと見たときに理解できるのでオススメです。 (論文中にも合った画像ですがサイトで個人的に面白かったのが、日本語が書かれた商品を入力に使って性能を例示しているところです。)

GPT-4ってなんだ?

安全性への考慮のため、モデルの詳細、どのような環境で学習し、データセットはどのようなものを使っているのかなど、GPT-4を作るための方法は明記されていません。(一部の技術的なアドバイスができる他団体へ技術の詳細を提供する予定とは書かれています。)

ですが、GPTシリーズからさらに高性能にしたモデルで、RLHFを使っているという事は分かります。またスケール則からも分かるように、パラメータ数もより多くのものを使っている事が予想できます。

ここが凄いよGTP-4!

2つ挙げてみます。

  • 様々なテストで好成績
  • マルチモーダル対応!画像に対応しました

様々なテストで好成績

論文から引用してきた下の図をご覧ください。

road-to-llm-advent-calendar-2023-24-01

上記画像では"人間"が受けるテストでの結果を表しています。青色がGPT-3.5で、緑色がGPT-4です。多くのテストでGPT-3.5よりも好成績を収めているので、さらに高性能になっている様子が分かります。

また、AP Biologyというテストにおいては最高成績を取るなど、とてつもない性能を発揮しています。

様々なテストで合格レベルの点数を叩き出しているのがGPT-4になります。

次に"機械学習モデル"が受ける方のテストです。 (こちらも論文中の内容を引用しています。) road-to-llm-advent-calendar-2023-24-02

上から順番にテストの内容を書くと次のようなものになります。

  • MMLU
    • 57問からなる多肢問題
  • HellaSwag
    • 曖昧な文章の意味を答える問題
  • AI2 Reasoning Challenge (ARC)
    • 小学生用の理科の問題集
  • WinoGrande
    • 常識問題
  • HumanEval
    • Pythonのコーディングテスト
  • DROP
    • 読解と算数の問題
  • GSM-8K
    • 小学校の算数の問題

上記7テストのうち、6つで他モデルよりも良い成績を獲得しています。

数字が絡む問題はまだ弱い部分もありそうなものの、様々なテストで好成績を取ってくる凄いモデルですね!

マルチモーダル対応!画像に対応しました

次は公式サイトと論文に掲載されているものを引用してきました、次の画像を見てください。

road-to-llm-advent-calendar-2023-24-03

今までのモデルでは、自然言語を取り扱っているのみでした。しかし画像も入力として受け付けるようになっています……!さらに画像の中に書かれている文字についても読み取りをしています。 (上記引用してきた画像では、日本語を読み取って英語に翻訳しています。)

個人的に凄まじいと思ったのは以下のような問題を解く事が可能となっているところです。

road-to-llm-advent-calendar-2023-24-04 (論文から引用しています。)

上記画像においては、文章の中だけでなく、画像にある文章も読み取りつつ問題を解いています。 他にも論文中ではグラフから数字を読み取っている様子なども掲載されています。 (もしかすると、BIツールを使って表示したグラフをまずは何かのAIに読ませて分析するのが当たり前の未来が来るかも……。)

どのようにして画像を受け入れるようになったかについてですが、こちらもモデルの詳細部分に入るため、明記されていません。

ただしコンピュータの性質として、数値で物事を理解するというものがあります。したがって画像もなんらかの数値に変換し、学習させていると予想できます。どのように数値変換し、どのように入力を受け付けるようにしたか気になりますね。 (関連事項として、Transformerではテキストと画像をセットで学習させるという事も可能なので、そういうやり方なのかなぁと予想しています。)

終わりに

GPTシリーズも最後でGPT-4についてご紹介してきました。GPTシリーズであっても、Generative Pretrained Transformerという名前の通り、中身はTransformerを使っています。ここまでのお話を見てきた方なら分かるかと思うのですが、全てではないにしても、最近のモデルのベースはTransformerモデルです。

色々と工夫はされているものの、まずはTransformerモデルを理解するとLLMの中身について理解する上で助かる事も多いのではないでしょうか。

明日は最終ブログとして、ここまでのブログをどのように使えばいいのかや、何が書かれていて何が書かれていないのかについてまとめる予定です。

本日はここまで。よければ明日もご覧ください!