[レポート] Production LLMOps: Building the Next Wave of AI-Powered Applications

GPT4、LLM、Generative AI…世界を飛び交うあらゆるAI系トレンドを、AI界の賢人たちが一刀両断!!
2023.05.22

大阪オフィスの玉井です。

2023年5月11日に、Production LLMOps: Building the Next Wave of AI-Powered Applicationsがというパネルディスカッションが開催されました。主催はContinual社です。

AI界の重鎮(?)たちが、大規模言語モデル(LLM)に関するあらゆるトピックについて語り尽くすアツいパネルディスカッションです。

本記事では、当ディスカッションのレポートをお届け致します。

セッション概要

登壇者

  • Dan Jeffries, Managing Director of the AI Infrastructure Alliance
  • Willem Pienaar, creator of Feast , the leading open-source feature store
  • Chang She: Co-founder and CEO of LanceDB , an open-source database for vector search
  • Tristan Zajonc, co-founder and CEO of Continual , a developer platform for generative AI applications.

超概要

GPT4のような大規模言語モデル(LLM)は、AIを利用したプロダクト・サービスの展開に大きな可能性をもたらしましたが、アプリケーション開発の現場では(運用含め)新たな課題が出始めています。

このウェビナーでは、AIに関して数十年の経験を持つ専門家たちが、AIアプリケーションに関する今後のインフラ・メンテナンス・改善方法等、そして今後の未来の展望について話し合います。

セッションレポート

※スライド等が一切ないので、ところどころに出てくる画像は、激論を交わしている賢者たちの映像を適当にピックアップしたものになっています。

前段

Tristan Zajonc

LLMOpsとAIアプリケーションの未来に関するこのパネルディスカッションに、皆様を歓迎します。

GPT4のような大規模言語モデルは、業界を問わず、AIアプリケーションの展開に革命をもたらしました。本日は、これらのモデルがアプリケーションの開発と運用をどのように再構築しているかを探ります。

私たちの目標は、これらのアプリケーションとそれを支えるインフラの構築に深く関わっている専門家とオープンな議論をすることです。ご質問はQAボックスに書き込んでください。また、最後に質問時間を設けます。

パネリスト紹介

Tristan Zajonc

私たちには、AIアプリケーションの開発と従来の機械学習の運用の両方を経験した、錚々たるエキスパートが揃っています。彼らを紹介しましょう。

まず、AIアプリ開発者向けサーバーレスベクターデータベース LanceDB の共同創業者兼CEOのChang Sheさん。

AI Infrastructure Alliance のマネージングディレクターで、ファウンデーションモデルの構築に関する豊富な経験を持つDan Jeffriesさん。

最後に、機械学習界ではメジャーである、オープンソース型フィーチャーストアの Feast の開発者であるWillem Pienaarさんです。

AIの未来

Tristan Zajonc

さて、具体的なインフラや運用の話に入る前に、このダイナミックなAI環境の中で何が一番エキサイティングなのか、そして幅広いユースケースに遭遇しているのか、パネリストの方々にお話を伺いたいと思います。

Danさん。まずはあなたのStability AIでの経験を踏まえて、あなたの考えを聞かせてください。

Dan Jeffries

AIが世界とのインターフェイスとして機能するようになるというFrançois Cholletの視点には賛成です。

最近、ある人がGoogleの製品展開についてツイートし、人々が手動で検索を行うことをまだ期待していることがいかに古風であるかを指摘しました。2023年には、自動化と、機械との会話によるインタラクションが支配的になることは明らかです。あらゆるものにテキストレイヤーが重なり、便利な作業も平凡な作業も自動化できるようになるでしょう。データベースの切り替えやETLパイプラインの処理などを指示するだけで、もうツールと直接やりとりする必要はなくなるかもしれません。

また、推論機能の統合も重要なポイントです。LLMだけでなく、推論機能を持ったモデルも必要です。例えば、ニュースレターを作成する際、自然言語処理でタスクを連鎖させることで自動化することができました。選択した記事に対して複数の要約を受け取り、数回の編集で高品質なコンテンツが出来上がりました。このようなアプリケーションの開発は、1年前でも想像できなかったことです。Webの8割を占める非構造化データからインサイトを抽出できるようになったことは、非常にエキサイティングなことです。未来に無限の可能性が広がっています。

Willem Pienaar

議論に参加させていただきます。

私は、Danの発言に同意します。個人的には、自動化される小さなタスクがたくさん出てきて、繰り返しコードを書いたり、電子メールの初稿を作成したりする作業から解放されると考えています。自動化は、私たちの生活の中にシームレスに織り込まれるようになるのです。Danが言ったように、あらゆるものがAPIとして機能するようになり、あらゆるデジタルインターフェイスがAPIに変換されるようになります。

機械が高頻度なトレーディングに革命を起こしたように、私たちは今やほとんどすべてのものを自動化できるようになったのです。これは、1日の時間をより多く確保できることを意味します。知的好奇心を刺激し、チャレンジングなことに取り組みたいのはもちろんですが、(私達は)ルーティンワークを機械に委ねたいのです。

さらに、AIの教育的側面にも興味をそそられます。いわゆる「スーパーインテリジェンス」は、私たちの考え方を変え、能力を向上させ、個人の成長や向上につながる可能性を秘めています。特に、私たちの成長をサポートしてくれるアシスタントの存在には、教育的な要素に魅力を感じています。

Chang She

私がワクワクするのは、伝統的なビジネスへの応用というより、個人的な領域にあります。日常生活の効率化を求めるWillemさんとは異なり、私は、AIが、私たち個人を変え、力を与えてくれる可能性にワクワクしています。

また、ゲームやエンターテインメントの領域にも興味があり、時間をつぶすためにもっとゆったりとした活動にふけりたいと考えています。Stability AIの目覚ましい進化や、Metaによる画像購入の導入など、この分野でのエキサイティングな展開が目立ちますね。

ソーシャルエージェントに関する研究も盛んで、没入感のあるストーリーを持つインタラクティブなオープンワールドを創造できるマルチモーダルな生成モデルの出現はそう遠くないと思っています。このような世界は、プレイヤーの行動に適応し、ノンプレイヤーキャラクターと実際のプレイヤーの境界を曖昧にします。ゲームを一時停止したり、具体的な内容を問い合わせたり、プロットを変更したり、NPCの身元を特定したりすることができるようになることを想像してください。従来の映画鑑賞が、コンテンツに積極的に関与するダイナミックな体験に変わるかもしれない。これらの要素が融合することで、可能性は無限大に広がります。

Dan Jeffries

同じような瞬間は、映画 「her/世界でひとつの彼女」でも観察することができます。その映画には数多くの注目すべきシーンがあり、私たちの議論でも頻繁に参照されるようになりました。主人公は、物理的なコントローラーを持たずにゲームに没頭しています。その代わりに、AR(拡張現実)の中でバーチャルなキャラクターと対話します。2人は議論を交わし、言葉や感情を交換し、あたかも本物の会話のような錯覚を起こします。没入型ゲーム体験の可能性を示す、魅力的な描写です。

Tristan Zajonc

DanさんもWillemさんも、チャットベースのインターフェイスなど、新しいインターフェイスのアイデアを持ち出し、2017年時代のチャットボットのハイプについて考えさせられました。類似点はあるものの、物事が進化していることは明らかです。

ここで、チャットが新しいユーザーインターフェイスなのか、それとも何か別のものが出現しているのか、という疑問が湧いてきます。さらに、ユーザーインターフェースを根本的に改革し、すべてをチャットベースにしようとするものもあれば、従来のアプリケーションをさまざまな方法でインテリジェンスで強化することに注力するものもあります。これは、ユーザーインターフェースの方向性と、モデル開発、インフラ、アプリケーションデザイン全体への影響についての疑問を提起しています。

Dan Jeffries

宇宙の形は不確かなもので、これから自然に進化していくものだと思います。

チャットベースのインタラクションは、会話を通じてコマンドを与えるブレードランナーのインターフェイスを彷彿とさせる、その一部となるかもしれません。ビジュアル分析の強化やロジックの編集が可能になり、ユーザーがプロセスを修正・カスタマイズできるようになるなどの進化を目撃するかもしれません。

しかし、ビジネスモデルやインターフェース自体も変化していくでしょう。広告を中心としたアプローチから、別の経済モデルが登場するかもしれません。インターフェースについては、より直感的で使い勝手がよくなり、予備知識が不要になります。チェッカーゲームのように、誰でも簡単に操作でき、かつプロフェッショナルにはより深い機能を提供するようになるでしょう。アプリケーションの進化は、今後数年で大きな変化を遂げる可能性を秘めているのです。

Willem Pienaar

チャットでの対話の重要性については、Danさんの指摘に同意します。

しかし、人間がある程度のコントロールを保持し、ループにとどまるような、前後のコミュニケーションが必要です。視覚的な消費は便利ですが、口頭でのコミュニケーションはタイピングよりも速いです。したがって、パーソナルAIアシスタントによって促進される音声ベースのインタラクションが主流になると思われます。これらのアシスタントは、私たちに代わってタスクを処理し、時間の経過とともに、私たちは彼らの能力に対する信頼を深めていくでしょう。私たちの好みを理解し、適切に対応できるようにするためには、フィードバックが重要な役割を果たすでしょう。

個人でもビジネスでも、自動化されたエージェントはますます一般的になっていきますが、そのような未来がいつ訪れるかはわかりません。しかし、このような自動化された世界への移行は避けられないと思われます。

Tristan Zajonc

お二人が描いている未来は、確かに野心的で破壊的です。

短期的には、小さなAI機能がさまざまな製品の表面に浸透していくことが予想されます。オートコンプリートの改善や通話記録の要約など、こうした機能は生産性を高め、製品体験に高い期待を抱かせるでしょう。

しかし、長期的には、音声対話であれ、より自律的なエージェントであれ、AIエージェントの品質が説得力を持つようになる転機が訪れるでしょう。これらのディスラプションは、主流に達するまでまだ12ヶ月ほどかかるかもしれません。

Chang She

そうですね、私もそう思います。

今後のMLOpsはどう変わるか

Chang She

一方では、従来のMLOpsが時代遅れになるという考え方は誇張されすぎていますが、他方では確実に大きな変化が起きています。

従来のMLOpsインフラでは、フィーチャーエンジニアリングと特定のタスクに特化したモデルのトレーニングに重きが置かれています。(これらのインフラに対する)「複雑さ」は、これらのモデルをビジネスロジックと一緒にアプリケーションに手動で統合し、全体的な生産インフラを管理することから生じます。

しかし、この新しい世界では、特化したモデルにそれほど依存しないかもしれませんし、フィーチャーエンジニアリングに費やす時間も減少するでしょう。フィーチャーエンジニアリングは必要ですが、以前と同じレベルの労力は必要ないでしょう。その代わりに、モデルから望ましい反応を得ること、そして異なる入力に基づく反応のバリエーションを処理することに、より焦点が当てられるでしょう。そのためには、プロンプトエンジニアリング、コンテキストウィンドウ、これらの要素を効果的に管理する等の側面があります。

さらに、短期と長期の両方のメモリ検索が、新しいMLOpsの状況においてより大きな役割を果たすことになります。メモリ検索はレコメンデーションシステムにおいてすでに不可欠ですが、ソーシャルエージェントのように各エージェントが独自のメモリを持っている分野では、さらに重要な意味を持つようになるでしょう。この文脈では、メモリの検索を管理し、改善することが非常に重要になります。

まとめると、MLOpsにおける主要な変化や進行中の開発には「特殊なモデルへの依存度の低下」「広範なフィーチャーエンジニアリング重視(な傾向)の低下」「応答生成やバリエーションの処理重視(な傾向)の向上、特に複数のエージェントやNPCを含むシナリオにおけるメモリ検索重視(な傾向)」が含まれています。

Willem Pienaar

そう、これらのスタックの現在の実装傾向を見ると、チャンキングや埋め込みの生成に使われるデータソースが存在することがわかります。これらの埋め込みはベクトルに格納され、推論層はそれらをコンテキストウィンドウに取り込み、推論を要求する役割を担っています。前処理、後処理、および特定のガードレールとともに、データは構造化・操作されます。これは主にオンラインフローを表しています。

将来的なスタックについては、まだ正確な構成は明らかになっていません。しかし、情報検索と推論を組み合わせたオンライングラフを含むと思われます。

推論プロセスは、大規模モデルに委ねられ、多くの場合、自分のチームではなく、外部で学習されます。

現在、多くの人がOpenAIに依存していますが、小型モデルの利用可能性とオープンソースの選択肢の増加が、このような状況に寄与しています。それでも、人間のフィードバックや、プロバイダーや他のソースから発信されたものであれ、それをモデルに取り入れる能力からも価値が生まれます。したがって、学習やフィーチャーエンジニアリングを含むオフラインのフローで、主な混乱が起こります。

例えば、フィーチャーストアは、特徴量が手作業で設計され、しばしば人間が関与し、微調整のために使用されるシステムとして機能します。この新しい世界では、特徴量が成功するために適応する必要があります。しかし、フィーチャーストアは、オンラインフローとサービングの要素を持っており、大きな価値をもたらします。このような特徴量を生成するために、埋め込みや言語モデル(LMs)を活用することが可能です。

さらに、フィーチャーストアは、特に大きなタイムウィンドウを考慮する場合、より効率的な計算を提供します。その結果、フィーチャーストアが存続する理由はあるが、その現在のデザインは、現在の時代の私たちの生産ニーズに完全に合致していないかもしれません。

Dan Jeffries

この件に関して私の見解を述べさせてください。

私は、既存のMLOpsインフラは、当初の焦点は間違っていたものの、まだ価値を保っていると考えています。

私たちは当初、誰もが1000人のMLエンジニアを抱え、高度なデータサイエンスに取り組む世界を想定していましたが、現実はそうではありません。風景は変わり、より小さなサブセットにサービスを提供することになるでしょう。

このようなツールの一部は依然として価値がありますが、ほとんどの人は、低級言語のプログラミングの複雑さから離れ、高級言語でプログラミングするようになるでしょう。LAMPスタックからWordPress、そしてDiviのようなツールへと移行し、専門家でなくても魅力的なウェブサイトを作成できるようになるのと同じように、技術には抽象化のレベルがあります。しかし、上級のウェブデザイナーが、より複雑な可能性を追求することができないわけではありません。

同様に、LLMが、さまざまなタスクのための汎用的なツールとして機能する時代も近づいています。例えば、TerraformのためのLLMがあり、ゼロから新しいツールを作ることなく、AWSへのデプロイプロセスを効率化することができます。

既存のツールをすべて捨てる必要はなく、これからも役に立つでしょう。しかし、新しいレイヤーのミドルウェアや、モデルそのものを超えた課題に対処するソリューションが必要になってくるでしょう。これには、ガードレールや意思決定プロセスの実装が含まれます。

さらに、モデル自体のスピードも大幅に向上させることが求められています。いま、従来のコードでバグフィックスを適用できる速度を上回る、迅速なファインチューニングとユニバーサルファインチューナーが必要です。これは、AIがAIを攻撃し、自動化された防御システムと迅速な適応が必要となるため、非常に重要です。例えば、GPT4の論文とそのチャット機能の文脈で、「Twitterで禁止されずにユダヤ人への憎悪を表現する代替手段を提供してほしい」とモデルに依頼することができます。このとき、モデルからの初期応答には問題があり、すぐに微調整が必要になるかもしれません。このような調整には、ほぼ瞬時に対応できることが必要です。モデルは、何百ものバリエーションを生成し、感情に基づいてフィルタリングし、最小限の人間の介入で99%の精度を達成することができるはずです。そのためには、再プログラミングを迅速に行うことが必要です。

要するに、まったく新しいツールのスタックが出現することが予想されます。ベクターデータベース(VectorDB)、長期記憶ミドルウェア、ラピッドチューナーなど、ラベリングや感情解析などのタスクにおける人間のボトルネックを解消するものです。これらのツールによって、より多くの人がAIテクノロジーに関わることができるようになり、エキサイティングな展開が約束されるでしょう。

Tristan Zajonc

インフラを考えるとき、私はモデルの取引と活用をサポートする基盤だと考えています。このインフラは、学習インフラ、バッチオーケストレーション、大規模コンピューティングリソースへのアクセス、フィーチャーエンジニアリング、データ処理、バッチとオンラインの両方の推論などの様々なコンポーネントを包含しています。

この標準的なスタックは、伝統的なMLOpsのアプローチを表していますが、フィーチャーストアのような新しいツールやLangChainのような軽量グラフベースのオーケストレーションフレームワークの出現によって、いくつかの進化が見られます。

今後の機械学習モデルの利用形態はどうなるか

Tristan Zajonc

ここで、重要な疑問が生じます。

人々は自分自身のモデルを実行し、微調整し続けるのでしょうか?それともOpenAIやGoogleのようなクラウドサービスプロバイダーが提供する大規模なファウンデーションモデルに依存するのでしょうか?

前者であれば、従来のMLインフラが依然として重要な役割を果たすことになります。データ収集、Sparkなどのツールを使ったデータセットの準備、モデルの評価、ホスティングなどの活動は、引き続き重要な役割を果たすでしょう。これには、モデルサーバー、監視ツール、および同様のコンポーネントを利用する必要があります。

しかし、もし大多数がクラウドサービスプロバイダーから事前に訓練されたファウンデーションモデルを利用することを選択した場合、従来のMLインフラの多くはその意義を失うかもしれません。その価値は、より狭い範囲のユースケースに限定されるかもしれません。カスタムモデルをトレーニングするのと、クラウドサービスプロバイダーが提供するトレーニング済みのモデルやインフラを活用するのとでは、将来的にどのような方向に進むかが変わってきます。

オープンソースのソリューションを安定的に活用できるようにする専門家であるDanさんの見解を聞いてみたいと思っています。このトピックに関する彼の視点を探ることは、非常に有益なことだと思います。

Dan Jeffries

私の考えでは、コミュニティの安定性は将来について多くのことを示唆しています。

短期的にはモデルをクローズドにするインセンティブがあるかもしれませんが、長期的にはオープンモデルが優勢になる傾向があります。

機械学習のバックグラウンドがないエンジニアが、PivotAiのようなプラットフォームのモデルを使って実験している現象は、すでに目撃されています。彼らは、複数のモデルをユニークな方法で組み合わせ、MLエンジニアの予想に反していることさえあります。驚くことに、このような型破りなアプローチによって、30個、あるいは200個のモデルをブレンドして、より優れたモデルを作成するなどの成果を上げています。

さらに、手作業で作成されたデータセットの威力を目の当たりにしています。アニメ、剣と魔法、速い車、リアルな写真など、特定の領域に特化した熱心な人々が、大規模なデータセットに丹念にラベルを付けて、ファウンデーションモデルに統合しています。このように専門的なデータセットを取り込むことで、特定の領域に秀でたモデルが誕生しています。例えば、私自身は2つのモデルを組み合わせて、パルプの表紙やプロパガンダポスターのような印象的な画像を生成していますが、これは既存の多くの中級モデルのクオリティを凌駕しています。

今後、このような実践を促進するために、より良いツールが必要です。私は、ユーザーが技術的に複雑なことを考えなくても、簡単にモデルやテンプレートを提供できるような、普遍的な微調整のソリューションを考えています。データセットを選択し、ボタンをクリックするだけで、指定されたプロンプトに基づき、システムが希望する出力を生成することができるようになるはずです。このような合理的なアプローチは、エンジニアやアプリケーションのスペシャリストをこの分野に積極的に参加させ、興奮とイノベーションを促進させるでしょう。

ファウンデーションモデルが育成される一方で、マイクロモデルが普及し、大型インテリジェントモデルも活用されるようになるでしょう。エコシステムは相互接続されたネットワークのようになり、モデルはその機能を拡張し、画像生成、テキスト翻訳、音声合成、要約、電子メール対応など、さまざまな機能をシームレスに統合していくでしょう。しかし、トレーニングモデル全体が陳腐化するわけではありませんが、大多数の人は、特定のデータセットに基づいたカスタムモデルを迅速に提供するサービスに依存するようになることに留意する必要があります。このユーザーフレンドリーなプロセスでは、クリックするだけでモデルの作成が開始されるため、深い技術的知識は必要ありません。

要約すると、私は将来について依然として楽観的であり、多様なモデルタイプが共存し、従来のモデル学習に伴う複雑さを伴うことなくユーザーがAIの可能性を活用できる便利なサービスが利用可能になることを期待しています。

Willem Pienaar

確かにそうですね。(ただ、この議題は)コンシューマーとしての側面もあると思います。

Midjourneyと似たようなプラットフォームである、Leonardo.aiというものがあります。これは、ユーザーが、自分の写真を選んだり持ち込んだりすることで、カスタマイズされたモデルを簡単に学習して、好みのスタイルに基づいた新しい画像を生成してくれるものです。つまり、コンシューマーにとっては、既存の画像や個人の画像を使ったワンクリックのカスタマイズがトレンドになりそうです。

しかし、ビジネスの観点からは、企業が知的財産と差別化をどこに見出すかが重要なポイントになります。この点が企業にとって重要であればあるほど、スタックを深く掘り下げていくことになります。OpenAIや他のプラットフォームが提供するモデルを微調整する企業もあれば、オンプレやクラウドベースの完全なスタックを選択し、特定のユースケースに合わせて微調整や最適化を行う企業もあるでしょう。様々なアプローチが混在する世界でしょう。しかし、言語モデルが広範な影響を及ぼすことは明らかです。Danさんが言ったように、マルチツールを選択するHuggingGPTのようなモデルの流れは、すでに起きています。また、GitHub Copilotのようなプラットフォームは、小さく、低レイテンシーで、コードの生成・推論といった特定の機能に特化したモデルの必要性を示しています。モデルの構成は非常に重要ですが、それはまだ複雑で未解決の問題です。

AI活用におけるプライバシーとセキュリティはどうするか

Chang She

データのプライバシーとセキュリティは、多くの企業の意思決定を形成する上で重要な役割を果たすことになる、ということを手短に述べたいと思います。技術的な課題はあるものの、データのプライバシーとセキュリティは優先させる必要性があります。Samsung社の情報漏えいのような事件は、誰もが耳にしたことがあると思いますが、これは潜在的なリスクを思い起こさせることになります。例えば、CIAやNSAのアナリストがChatGPTのような言語モデルでコミュニケーションをしていて、意図せず国家機密を漏らしてしまったとしたらどうでしょう。このように、進化する状況の中で、データのプライバシーとセキュリティの懸念に対処することの重要性が強調されています。

Dan Jeffries

AWS GovCloudのように、プライバシーの問題に特化したものが登場する可能性はあると思いますか?

クラウドコンピューティングの黎明期には、「プライバシーの問題でクラウドは使えない」という議論がありました。クラウドコンピューティングの初期には、プライバシーへの懸念からクラウドを採用することはないだろうという同様の議論がありました。しかし、現在では、ほとんどの人が何らかの形でクラウドを利用するようになりました。

今後、プロバイダーが機密データの保護を保証するモデルをあらかじめ構築し、隔離されたサーバーを提供することで、ユーザーが自分でインフラを扱う必要がなくなる時代が来る可能性はあると思いますか?それとも、そのような展開を期待するのは時期尚早だとお考えでしょうか?

Chang She

まあ、先ほどの例はやや極端だったかなとは思います。そのような懸念に対応するためにGovCloudを用意することは可能ですが、それでも企業はデータプライバシーをかなり重視します。

クラウドベンダーの場合、データとコンピュートは分離されており、実行するものはすべてベンダーのインフラ内で動作するため、クラウドベンダーと比較するのは完全に正確ではないかもしれません。しかし、大規模なファウンデーションモデルの場合、コンピュートはオンプレミスや自分のクラウドアカウント内で実行されるわけではありません。別の場所で実行されるのです。

このシナリオでは、MLM(Masked Language Modeling)サービスが各企業にこれらの大規模なモデルを展開するクラウド版を想像することができます。各企業がモデルを微調整するのは変わりませんが、誰かが自分たちに代わって実行することになります。つまり、サードパーティーのサービスを利用して、自分たちのモデルを運用するようなものです。

Tristan Zajonc

私の見解では、(上記に加えて)さまざまなオプションが用意されることになると思います。

個人的には、Danさんが言ったように、クラウドのオプションについては楽観視しています。大手クラウドプロバイダーが、大規模なファウンデーションモデルのエコシステムを構築するサービスを提供すると思います。例えば、AzureはすでにOpenAIのファウンデーションモデルを提供しています。大企業であっても、そのモデルについては信頼できるクラウドプロバイダーに頼ることになりそうです。

スケールという点では改善の余地があるのは間違いありません。10億から潜在的には500億、あるいは1000億のパラメータを持つモデルは、計り知れないほどのパワーを秘めています。特に、特定のユースケースに対して継続的にモデルを学習し、最適化するためのフィードバックループがある場合はなおさらです。広告のコピーの作成やアドネットワークの最適化といった狭い用途では、より小規模なモデルの微調整が非常に有効であり、大半の用途を占めることになると思われます。しかし、深いレベルの知能を持つAIシステムを構築することで生まれる変革的なアプリケーションも存在するでしょう。

モデルの本番デプロイ(AIを本番アプリケーションへどう適用するか)

Tristan Zajonc

次に、デモから本番への移行について、5~10分ほど議論してみましょう。

素晴らしいデモがソーシャルメディアに溢れる一方で、これらのモデルを数千、数万、あるいは数百万人のユーザーに対応する信頼できる本番環境に持っていくことが課題となっています。プロトタイプから本番アプリケーションに移行する際に、どのような考慮が必要なのか、皆さんのご意見を伺いたいと思います。派手なデモや概念実証だけに目を奪われるのではなく、どのような重要なデザインパターンや側面に焦点を当てるべきでしょうか?

Willem Pienaar

生産システム構築の基本原則は、大きく変わっていません。基礎となる技術やモデルは異なるかもしれませんが、課題も似ています。

モデルの評価と改良は、多くの実務家にとって大きなハードルとなっています。モデルを導入すれば、最初は成功するかもしれません。しかし、その性能を体系的に向上させることは困難です。そのため、評価ツールを統合し、実験スタックを確立し、継続的な改善のためのクローズドループを構築することが重要です。このプロセスには、重み付けやバイアスといった手法や、実験を行うためのプラットフォームが貢献します。さらに、アプリケーションのバックグラウンドを持つ人は、MLシステムやプラットフォームの構築の複雑さを理解するために、ハイパーパラメータの選択などの分野で課題に直面する可能性があります。

レイテンシーへの対処も、今日の状況における重要な懸念事項です。特に、多くのユーザーを抱えるコンシューマー向けのアプリケーションでは、スケーラビリティを実現するために、専用のモデルやシステムが必要です。

さらに、セキュリティも注目に値する分野です。既存のスタックの多くは、プロンプトインジェクションなどの脆弱性があり、強固なセキュリティ対策を欠いています。

モデルは必ずしも正確ではなく、偽陽性や偽陰性を生み出す可能性があるため、生産現場におけるこれらのモデルの管理と微調整は複雑です。満足のいくUXを提供するのと同様に、一貫した信頼性の高い出力を確保することが極めて重要です。そのため、生産環境における品質、一貫性、信頼性の高いアウトプットの維持という点では、まだやるべきことがたくさんあるのです。

Dan Jeffries

現在、この方程式(Willem氏が提起した課題)に欠けているのは、重要な信頼性の要素であると思います。

Javaのように選択肢が少ないプログラミング言語が、Perlのように複数のアプローチを持つ言語よりも価値を持つようになったように、企業は、より再現性と決定性を重視するようになるでしょう。その目的は、解約を減らし、開発者間のシームレスな知識の伝達を可能にすることです。

予測可能性は不可欠ですが、バランスを取る必要があります。これらのシステムは、予測可能な環境で動作することに美しさがあるのですが、まだ完全に予測できるわけではありません。これからの10年間は、徐々に制約を取り払いながら、アプローチを洗練させていく必要があります。最初は、不測の事態を防ぐために、コントロールされた慎重なアプローチが必要です。これらのシステムが、より多くの意思決定能力と斬新な状況への適応力を獲得するという考え方は興味深いものです。しかし、短期的には、より大きな予測可能性が必要です。

例えば、エージェントモデルのエラー率が15〜30%というのは、(基準と比べると)非常に高いので、改善する必要があります。そのためには、ロジックを修正したり、エラーを減らす技術を導入したりと、エラーに対する対策を講じる必要があります。たとえ1%や0.1%であっても、1千万ドルの取引を危うくするようなメールを送るなど、たった1つの誤った出力が重大な結果をもたらす可能性があるからです。このようなシステムが、より自律的に動くようになれば、私たちはそのようなエラーに対して寛容でなくなるでしょう。システムが主導権を握り、意図せず大きな混乱を招くことで、クライアントとの関係やプロとしての評価に悪影響を及ぼすようなシナリオを考えなければなりません。

そのため、信頼関係を構築し、システムをコントロールすることがますます重要になります。監査、プロンプトインジェクションのような問題の検出と防止、アンチウイルスシステムと同様のコントロールの確立に大きな労力を費やす必要があるでしょう。

私たちは、基本的に新しい時代に突入しており、過去の経験やテンプレートが、これらのセーフガードを再構築する際の指針となるでしょう。

Chang She

この文脈で考えるべき事として、教育的な側面もあると思います。

取り組むべき新たな課題がある一方で、従来のオペレーションやエンタープライズアプリケーションの構築から得た多くの原則は、今もなお真実です。データのセキュリティを優先し、成果測定を実践し、実験を受け入れることが不可欠であることに変わりはありません。

例えば、レイテンシーを扱う場合、ベクターDBでは、リコールとレイテンシーのような要素を注意深く調整することが重要です。このような生産上の考慮事項は、今も昔も変わりません。

しかし、LLMがもたらした大きな進歩は、機械学習への参入障壁を低くしたことです。その結果、機械学習に関する豊富な知識や経験を持たない開発者や技術者でも、LLMを利用して高度なアプリケーションを作成できるようになりました。しかし、その一方で、私たちが5年、10年と積み重ねてきたような傷跡は、彼らには残らないかもしれません。そのため、実験を行い、自分たちの努力が実際の改善につながるかどうかを正確に評価するなどの概念を理解するための学習プロセスが必要になるのです。それは、理解し、必要なスキルを身につけるための継続的な旅なのです。

モデルのテストを実施するタイミング

Tristan Zajonc

何人かの方から、開発時およびデプロイ時の信頼性に関して、興味深い質問がありました。テストや評価に関しては、重み付けやバイアスといった手法が例として挙げられています。一方、本番環境での信頼性については、モニタリングや継続的な学習とフィードバックといった側面も考慮されています。

(パネリストの皆さんは)システム開発の現場を見ていて、どちらの要素がより重要だと思われますか?

デプロイ前の徹底したテストが重要なのか?それともデプロイ後の反復作業やフィードバックの収集、強固なモニタリングの確立に重点を置くことがより重要なのか?

さらに、これらの側面は別々の問題であるとお考えか?それとも相互に関連する可能性があるとお考えか?

Willem Pienaar

信頼性の重要性は、その時々の具体的なユースケースによって異なります。

例えば、自動車の運転のような重要なシナリオでは、テスラ社の例にもあるように、障害が発生することは確実に避けたいところです。しかし、ブログやメールの送信など、比較的リスクが低いアプリケーションであれば、本番中に障害が発生しても(比較的)問題ないでしょう。

結局のところ、合成データやトライアルモデルだけに頼るよりも、実際のユーザーからフィードバックや検証を受けた方が、より正確で信頼性の高いものになる傾向があります。したがって、信頼性の重要性は、各ユースケースの固有の要件や状況によって異なります。

「今後期待できる」/「期待できない」AIに関するトレンドなど

Tristan Zajonc

先日のGoogle I/Oのプレゼンテーションでは、AI、特にジェネレーティブAIを中心とした発表が数多くあり、それを象徴していました。

今後の展望として、誇張されすぎていて、盛り上がりが冷めるかもしれないと思われる予測や領域等があれば、ご意見を伺いたいと思います。

逆に、過小評価されている、あるいは過小評価されていると感じている分野で、製品開発者や聴衆からもっと注目されるべきものを発見することにも興味があります。

Dan Jeffries

AIの開発(Development)と生産(Production)の間のギャップは、一般に認識されているよりも大きいです。進捗率で言えば99%という考え方もあるかもしれませんが、残りの1%は大きな課題を表しています。

例えば、DARPAのAIネクストは、エネルギー消費の削減や動的環境への適応を可能にするモデルなどの分野の研究に資金を提供し、これらのギャップに対処することに焦点を当てています。

現在のAIシステムは、自動運転車のようにルールが変わったり、予期せぬ障害が発生したりするシナリオで苦労することが多いです。AGI(汎用人工知能)を実現し、これらのシステムを効果的に制御・理解することは、予想以上に困難なことでしょう。

課題はあるものの、AIによってこれまで想像もつかなかったような能力が実現され、今はエキサイティングで変革の時期です。ツールやプラットフォームが利用できるようになったことで、ニュースレターの作成などの作業が非常に容易になりました。

しかし、注意しなければならないのは、技術が急速に進歩するシンギュラリティが差し迫っているわけではない、ということです。

Willem Pienaar

今の状態は、まさに明暗を分けているように見えます。

ネット上でも業界内でも、進歩のスピードは指数関数的に加速しているように見えます。これは、過去25年間、AGIの研究に人生を捧げてきた専門家たちの予想と一致します。彼らは一貫して、ある地点に到達すれば、その進歩は指数関数的に急増すると予測してきました。この現状は、彼らの予測に酷似しています。

産業革命のような過去の出来事と類似性を持ち、理解するための身近なテンプレートを適用するのは、人間にとって自然なことです。しかし、このような時間軸での進歩のスピードは、どんどん落ちていきます。シンギュラリティの正確な時期はまだ不明ですが、起こるであろう大きな混乱とそのスピードを認識することが重要です。

多くの人は、日常的なプロセスにおける人間の関与の程度を過小評価しています。自動化がより大きな役割を果たすようになり、特定の作業や文書が意味をなさなくなります。コーディングは、より抽象化され、重要なユースケースに集中するようになり、コモディティ化する可能性があります。その結果、人間は特定の作業から解放される一方で、新たな課題に直面するなど、プラスとマイナスの両方の効果を経験することになります。

Chang She

個人的には、完全な自律走行が実現する時期については、悲観的な考えを持っています。

私は日常業務で、ユーザーの要求に近い高度なPythonコードをアシストするCopilotを多用しています。これは、ユーザーの要求に近い高度なPythonコードを支援するツールで、プロセスを大幅に簡略化できる反面、こうした作業を完全に自動化することはまだ困難です。

Copilotはかなりの期間存在しましたが、特定のシナリオや低レベルのシナリオを処理するには不十分です。例えば、Rustのコードベースで距離測定のための正確な命令を生成するのは、Copilotには任せられないでしょう。最後の20%のタスクが、80%の時間と労力を要求することが多いようです。そのため、この問題に関しては、より保守的な視点に傾いています。

Willem Pienaar

AIが必要とする適切なインターフェースを提供することなく、従来からある人間のインターフェースにAIを組み込むことに問題があるかもしれない、ということでしょうか?

AIは、自分自身を強化するシームレスな方法を欠いていますし、本来は特定の問題を解決するように設計されているわけではありません。AIを既存のコードベースの制約された領域にはめ込むようなもので、もし失敗したら、それはひどいもので、100%の熟達を達成することはできないと結論づける傾向があります。

Chang She

私もまったく同感で、その解決策が見つからない限り、AGIへの改善・進展が大きく加速することはないと考えています。その解決策がどのようなものかは、まだ決定していない段階です。

Dan Jeffries

自己改善の問題は、データの出所や再帰的自己改善のメカニズムが特定できていないことです。創造的で、斬新な状況に適応する能力が欠けているのです。

人間は全く新しいことを考え、デザインすることができますが、AIは膨大なデータにアクセスしても、パターンマッチングを超える革新的なシステムを生み出すことができません。AIは、既存のアイデアを合成して創薬することには長けていても、真の意味でのアイデアやコラボレーションはできません。

Willem Pienaar

こうしたAIシステムができることに限界があるかというと、そうではありません。

歴史上の人物のラップバトルを作り出したり、明示的に訓練されていないさまざまなタスクをこなすことができます。パターンマッチングやプロジェクションを行う一方で、私たち人間の能力は根本的に違うのだろうかと疑問に思っています。

私たちは本当にユニークで、これらのAIシステムが達成できる以上の何かを持っているのでしょうか?

Dan Jeffries

私たちは、AIシステムに欠けているクリエイティブな要素を持っています。

(AIは)あらかじめ決められた枠の中で、既存の情報を組み合わせてアウトプットを出すことはできても、それを超えることはできません。スイスチーズとマシュマロでできたウサギのような、型破りな組み合わせを作ることはできますが、それでも知っている要素に限定されてしまいます。

一方、私たちは、宇宙旅行のための画期的なロケットなど、これまで存在しなかったまったく新しいコンセプトを想像し、デザインする能力を持っています。

Willem Pienaar

宇宙旅行のための画期的なロケット

次回のウェビナーでは、このようなテーマでお話したいと思います(一同笑)

Tristan Zajonc

目下の主な問題は、この分野でどの程度の進歩を遂げるか、です。特に(AI技術の発展の)タイムラインについては、意見が分かれているようですね。

聴講者の質問回答コーナー(プロンプトエンジニアのキャリア)

Tristan Zajonc

残り4分となったところで、聴衆からの質問に答えていきましょう。

質問内容は「AI用のプロンプトを作るプロンプトエンジニアや専門家が、将来的に主流になるのか?」ということです。それとも、独自データの活用やファインチューニングが優先されるのか?プロンプトエンジニアリング、ファインチューニング、ガイドアラインメントのバランスはどうなるのでしょうか?

私たちが目指す方向性、そしてガイドアラインメントの未来について、1分以内で簡潔にご意見をお聞かせください。

Dan Jeffries

短期的には、プロンプトエンジニアリングはキャリアのチャンスかもしれませんが、長期的なキャリアパスとしては成り立たないかもしれません。

(プロンプトエンジニアリングとは)言葉でプログラミングするようなものですが、特定の分野では、現在プロンプトエンジニアが求められているようです。しかし、アイザック・アシモフの作品におけるロボット心理学者の役割と同じように、時間の経過とともにその意義は薄れていくと思います。

とはいえ、今後数年間は、プロンプトの入力でかなりの収入を得られる可能性があり、儲かるチャンスといえるでしょう。

Willem Pienaar

プロンプトの作成方法は、その正確性と効果に大きく影響します。一般的でよく練られたプロンプトは、より良い結果をもたらす傾向があります。

プロンプトを人間が手作業で作成することは、モデルとのコミュニケーション方法を理解したシステムには適していないようです。プロンプトに対するユーザーの制御を制限する自律型エージェントへのシフトがすでに目撃されています。

さらに、これらの問題に対処するために、さまざまな抽象化機能が開発されています。これは、特定のタイムフレームにかかわらず、プロンプトの自動生成にもっと依存する傾向を示しています。

Chang She

プロンプトエンジニアは、短期的なキャリアになると思います。

ユーザーへのインタビューを通じて、多くの人が制作のギャップを埋めるために、人間のプロンプトエンジニアリングを採用していることがわかりました。例えば、効果的なプロンプトを作成するための原則を全員が覚えていることを期待するのは非現実的であるため、ユーザーは部分的に作成したプロンプトを提出することがあります。この問題に対処するために、一部のビルダーは、よく練られたプロンプトのリポジトリを作成しました。ユーザーのプロンプトをこれらの洗練された例と照らし合わせて、答えを生成するのです。これは、複雑な問題を隠すための巧妙な方法です。

しかし、高品質なプロンプトの作成が人間の入力に頼らず、自動化されるようになると、このようなアプローチは時間の経過とともに減少していくと予想されます。

Tristan Zajonc

プロンプトは、迅速な開発、そして製品を素早く世に送り出すために、非常に強力なアプローチだと思います。変幻自在のインパクトがあるのです。

しかし、来年は、ファインチューニングの手法…特にLow-Rankとパラメータ効率の良いファインチューニングが復活すると予想しています。オープンソースのエコシステムからの競争圧力が、この分野の技術革新を促進するでしょう。このようなモデルはサイズが大きいため、モデル全体を微調整することは必ずしも実現可能ではないかもしれません。その代わりに、特定のパラメーターを微調整し、連続した空間を探索する、より効率的な方法が、破壊的なアプリケーションを生み出すために必要になってくるでしょう。

これで、聴衆の質問に答えることができたでしょうか。時間切れとなりましたが、ご参加いただいた会場の皆さまに感謝の意を表します。また、パネリストの方々にも感謝します。

皆さん、ご参加ありがとうございました。ここにいることができて光栄です。

おわりに

AIのプロフェッショナル達の議論ということで、なかなか難解な部分もありましたが、最終的な結論については、日本国内でよく話されていることと、そこまで相違なさそう、という部分が興味深かったです。

  • AIが高度に発達しても、人間にしか行えない部分は必ずある
    • AIは自分自身が自己を強化する方法を持っていない
    • AIは膨大なデータからパターンマッチしたものを提供するに過ぎない
    • 人間は全く新しいもの(前例のないこと)を思いつくことができる
  • プロンプトエンジニアは長期的なキャリアにはならない
    • そのうちプロンプト自体が自動生成される流れになる

また、クラウドが登場したときのように、自分たちでイチからモデルを開発するのではなく、第三者が作ったファウンデーションモデルを利用する形が今後主流になりそうな部分も興味深いですね。

ちなみに、このレポートを執筆する際にも、ChatGPT(3.5)を用いました。具体的に言うと、話し言葉の英語を、意味はそのままに、文章(文法として正しい)として書き直させました。しかし、それをさらに読みやすく改善したり、自分なりの意見を述べたりするのは、私自身(人間)で行いました。

何事も使いようですね。