【GPT-4が発表!】コンテキスト長が2倍・8倍に 事実の整合性や安全性も向上【Waitlist登録を急げ!】

2023.03.15

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんちには。

データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。

GPT-4が発表されました。以下の公式の発表情報からGPT-4の概要を見ていきます。

公式情報

GPT-4に関する概要は以下に書かれています。

より詳細な研究内容については以下に詳しく記述されています。

また開発者向けのデモも配信されています。

以降は、これらを元に情報を整理していきます。

概要

GPT-4はその噂通り、大規模なマルチモーダルモデルとして発表されました。

具体的には、画像とテキストの入力を受け付け、テキスト出力を出すモデルとなっています。

(ただし、画像入力はまだ研究段階のプレビューであり、一般には公開されていないようです。)

さまざまなベンチマークで人間レベルの性能を発揮し、例えば、司法試験の模擬試験では、受験者の上位10%程度のスコアで合格を達成しています。(一方、GPT-3.5では下位10%程度のスコア)

GPT-4には最大トークン長も8,192と32,768の2バージョンがあり、GPT-3.5の4,096から2倍、8倍と進化しています。(詳細はModels - OpenAI APIも参照)

なお、学習データの期間は今までと変わらず2021年9月までのデータとなっています。

またGPT-4は安全性や事実整合性の面でも向上している点も特徴です。

  • 不許可コンテンツのリクエストに対応する確率が82%低下
  • 事実に基づいた回答を出す確率が40%向上

GPT-4のテキスト入力機能は、ChatGPT Plusで使用可能(上限あり)で、APIはGPT-4 API waitlistに登録することで、順次使用することが可能になります。

その他、AIモデルの性能を評価するためのフレームワーク「OpenAI Evals」をオープンソース化しており、こちらのContributorはAPIへの早期アクセスを提供すると表明しています。

詳細

ChatGPT Plus

ChatGPT Plusの加入者は、GPT-4アクセスに利用上限が設定されたうえで、使用可能になるようです。 正確な利用上限は、実際の需要やシステム性能に応じて調整しますが、容量に大きな制約があることが予想されています。

ただし、今後数ヶ月の間にスケールアップして最適化する予定とのことです。

また、GPT-4のQueryを無料で提供することで、GPT-4を利用されていない方にも試してもらうことも考えられているようです。

API

GPT-4 APIを使うには、以下のWaitlistから登録が必要です。

本日から一部の開発者の招待を開始し、徐々にスケールアップしていく予定となっています。

APIドキュメントには既にモデルが出現しており、以下から確認が可能です。

ここに記載の通り、コンテキストのトークン長に応じて2種類あり、gpt-3.5-turboと同様、スナップショットと自動的に推奨する安定モデルに更新されるモデルがあります。

  • gpt-4 : 8kトークン長版(自動更新)
  • gpt-4-0314 : 8kトークン長版(0314のスナップショット、これは6月14日までサポートされます)
  • gpt-4-32k : 32kトークン長版(自動更新)
  • gpt-4-32k-0314 : 32kトークン長版(0314のスナップショット、これは6月14日までサポートされます)

GPT-3.5では4kトークンとなっており、2倍もしくは8倍のコンテキスト長が使用可能となっています。

かなり長いコンテキスト長が入力・出力可能となっており、活用範囲の幅や要約性能などの改善が期待できそうです。

料金も算出方法から異なっており、入力トークン(プロンプト)と出力トークン(Completion)で差があります。

  • 入力トークン(プロンプト) : $0.03 / 1kトークン
  • 出力トークン(Completion) : $0.06 / 1kトークン

gpt-3.5-turboは入出力トークン同一価格で、1kトークンあたり$0.002でした。

デフォルトのレート制限は、1分間に40kトークン、1分間に200リクエストとなっています。

料金の詳細は以下も参照ください。

GPT-3.5とGPT-4の比較

表面上、GPT-3.5とGPT-4の区別は微妙ですが、GPT-4はより信頼性が高く、創造的で、より複雑な指示を扱うことが可能となっています。

様々なベンチマークでの比較が行われており、以下は元々人間用に設計された試験のシミュレーションを含む結果ですが、テキスト処理単体モデル(GPT-4 no vision)でもGPT-3.5を大きく凌駕しています。

GPT-4は画像処理が可能なだけでなく、基礎的な性能も向上していることが伺えます。

機械学習モデル用に設計された従来のベンチマークでも、既存の大規模言語モデルや、ベンチマークに特化した調整を施したモデルなど、ほとんどの最先端(SOTA)モデルを大幅に凌駕しています。

また、多言語性能も優れています。

既存のMLベンチマークの多くは英語で書かれているため、多言語の能力を知るためMMLUベンチマーク自体をAzure Translateを使って翻訳して、評価されています。

その結果、日本語を含む26言語中24言語において、GPT-3.5の英語での性能を上回っていることが分かります。

画像入力について

GPT-4は、テキストと画像のプロンプトを受け付けることができるようになっており、テキストと画像が混在する入力に対して、テキスト出力を生成することが可能となっていますが、 画像入力はまだ研究段階のプレビューであり、GAではないためご注意ください。

画像入力の評価は、標準的な学術的な視覚ベンチマークで評価することでプレビュー中で、今後、さらなる解析や評価数値の公開、テストタイムテクニックの効果の徹底的な検証を行う予定となっています。

以下は現状のベンチマーク性能です。

Steerability(操作可能性)

GPT-4は、Steerability(操作可能性)も追求されており、開発者(ChatGPTユーザーもまもなく)は、「システム」メッセージにそれらの方向性を記述することによって、AIのスタイルとタスクを規定することができるようになります。

システムメッセージによって、APIユーザーはユーザーの体験をある範囲内で大幅にカスタマイズすることができるようになるようです。

事実整合性について

GPT-4は、性能は向上しているものの、以前のGPTモデルと同様の限界を持っています。 これまでと同様まだ完全な信頼性がなく、事実を「幻覚(hallucination)」したり、推論誤りがあります。

依然として、出力を使用する場合、特に利害関係の強い文脈では、特定のユースケースのニーズに合わせて 正確なプロトコル(人間によるレビュー、追加の文脈による根拠づけ、利害関係の強い用途の完全な回避など)を用いて、細心の注意を払う必要がありそうです。

ただし、これらの問題はあるもののGPT-4では、GPT-3.5よりも大幅に事実の整合性が改善されています。 以下は、OpenAIの社内の敵対的事実評価ですが、最新のGPT-3.5よりも40%高いスコアを獲得しています。

また、TruthfulQAのような外部ベンチマークでは、敵対的に選択された不正確な発言から事実を分離するモデルの能力をテストすることで、より改善が見えています。

安全性

GPT-4では、トレーニングの初期から、より安全で整合性のあるものにするために、トレーニング前データの選択とフィルタリング、評価と専門家の関与、モデルの安全性向上、監視と実施などの取り組みが繰り返し行われています。

専門家からのアドバイスにより、例えば、危険な化学物質の合成方法に関する要求を拒否するGPT-4の能力を向上させるための、追加データを収集したりされているようです。

またGPT-4では、RLHFのトレーニング中に、安全に関する報酬信号を追加し、そのようなコンテンツの要求を拒否するように モデルをトレーニングすることで、有害な出力を低減することが可能になっています。

結果としてGPT-3.5と比較し、GPT-4の安全性の多くを大幅に向上させることができています。

  • GPT-3.5と比較して、許可されていないコンテンツのリクエストに応答する傾向が82%減少
  • GPT-4では、医療相談や自傷行為などに対して、当社のポリシーに従って応答する頻度が29%増加

トレーニングプロセス

GPT-4のベースモデルは、これまでのGPTモデルと同様、文書中の次の単語を予測するもので、一般に公開されているデータ(インターネット上のデータなど)と、当社がライセンス供与したデータを用いて学習されています。

データは、数学の問題の正解と不正解、弱い推論と強い推論、自己矛盾と一貫性のある発言、多種多様な思想や考えを表すものなど、多用であるため、そのままではユーザーの意図とはかけ離れたさまざまな反応をする可能性があります。

そこで、ユーザーの意図に沿うように、人間のフィードバックを用いた強化学習(RLHF)を用いてモデルの挙動を微調整しています。

ここらへんはほぼGPT-3.5と同様のようです。

スケーリングが予測可能に

またAzureと共同で、ワークロードのために一からスーパーコンピュータを設計しており、GPT-3.5では「テストラン」でした。その後、いくつかのバグを発見・修正し、理論的な基礎を改善することができた結果、GPT-4では安定的にトレーニングができ、パフォーマンスを事前に正確に予測できる初めての大規模モデルとなっています。

GPT-4のような非常に大規模なトレーニングでは、モデル固有の大規模なチューニングを行うことは不可能であるため、スケーリングが予測可能であることは、非常に重要です。

具体的には、同じ手法で学習させたモデルの計算量を1万倍減らして外挿することで、GPT-4の最終的な損失を事前に正確に予測することに成功しています。

この貢献により、学習時に最適化する指標(損失)を正確に予測できるようになったので、より解釈しやすい指標を予測する手法を開発し始めています。

OpenAI Evals

GPT-4のようなモデルを評価するためのベンチマークを作成・実行し、サンプルごとにそのパフォーマンスを検査するための ソフトウェアフレームワーク、OpenAI Evalsをオープンソース化しました。

OpenAI Evalsは、すべてのコードがオープンソースであるため、カスタム評価ロジックを実装するための新しいクラスの作成が可能です。しかし経験上、多くのベンチマークはいくつかの「テンプレート」のうちの1つに従うので、最も役に立ったテンプレートもこのオープンソースに含めています。

新しい評価を構築する際は、これらのテンプレートのいずれかをインスタンス化し、データを提供することで可能になります。

こちらのGitHubは以下となります。

実はBingは検索に特化したGPT-4だった

Misrosoft Bingブログでアナウンスされています。

新しいBingを既にお使いの方は、GPT-4を既に体験できているようです。

活用事例

その他、GPT-4のコラボレーションしている事例がいくつかピックアップされています。

内容の詳細は各ページをご覧ください。

まとめ

いかがでしたでしょうか。公式情報をとりあえず一通りさらっていきました。

またAPIなどが使えるようになったら、ご紹介をしていきたいと思います。

本記事がGPT-4を活用されたい方の参考になれば幸いです。