[セッションレポート] Gemini 1.5 Proの真価! 様々なユースケース紹介 #cm_odyssey

[セッションレポート] Gemini 1.5 Proの真価! 様々なユースケース紹介 #cm_odyssey

Classmethod Odyssey ONLINE(生成AI) で グーグル・クラウド・ジャパン合同会社 パートナーエンジニア 菊地 高史氏にご登壇いただいた「Gemini 1.5 Proの真価! 様々なユースケース紹介」のセッションレポート
Clock Icon2024.07.19

7/17(水) Classmethod Odyssey ONLINE(生成AI) にて グーグル・クラウド・ジャパン合同会社 パートナーエンジニア 菊地 高史氏に「Gemini 1.5 Proの真価! 様々なユースケース紹介」というタイトルで登壇いただきました。

概要

本セッションでは、進化した大規模言語モデルであるGemini 1.5 Proの機能と多様な活用方法をご紹介します。また、業務効率化や創造性の向上に繋がる最新機能をデモンストレーションを交えて紹介し、ビジネスやクリエイティブな現場での具体的なユースケースを紹介します。

登壇者:グーグル・クラウド・ジャパン合同会社 パートナーエンジニア 菊地 高史

まとめ

  • Gemini はマルチモーダル、膨大なコンテキストウインドウ、さらに高い精度の推論という特徴
  • Gemini は Google Cloud から利用することで、Google Cloud 各種サービスと容易に連携可能
  • Google Cloud には Gemini と連携する AIエージェントを容易に構築できるサービスや機能が多数

レポート

Google の生成AIへの取り組み

Google では2016年に AIファースト という方針を掲げ、実現のために3つの取り組みを進め、AIの開発をリードしてきました。

  1. 学習に利用する計算資源
  • 機械学習に特化した専用のTPUの開発(2015年)
  1. 学習を行わせる手法
  • 入力データの逐次処理が一般的であった学習手法に対し、Googleの研究機関であるDeepMind は大規模なデータを並列で学習するTransformer を発表(2017年)
  1. 生成AIモデル開発
  • 会話の文脈を理解できる BERT(2018年)
  • 自然言語の会話生成ができる LaMDA(2020年)
  • 大規模言語モデル PaLM や Gemini(2023年)

2024年には大規模言語モデル Gemini の最新モデルである Gemini 1.5 Pro をリリースしています。

Gemini 1.5 Pro のインパクト

Gemini 1.5 Pro がユーザにもたらすインパクトとして 2024年5月に開催された Google I/O(Google 開催の開発者会議)にて、1つのデモを紹介しました。

https://www.youtube.com/watch?v=nXVvvRhiGjI

こちらは DeepMind が発表した、Gemini を利用した Project Astra(現在プロトタイプ) と呼ばれるアプリケーションのデモ動画です。スマートフォンのカメラとユーザの音声を通じて、リアルタイムに Gemini とやり取りする様子が確認できます。

このように Gemini は、生成AI を本物の人間のアシスタントのように感じられる世界の実現をもたらそうとしています。

Google Cloud の AI ポートフォリオ

次に、Google Cloud で利用できる AI を活用した開発のためポートフォリオを紹介します。

  • Google Cloud インフラストラクチャ (GPU/TPU)
    • 生成AIモデルの学習、推論のための基盤
  • Vertex AI (Google Cloud の AI プラットフォーム)
    • Vertex AI Model Garden
      • Gemini などの Google 開発モデルや 3rd Party モデル(Anthropic社 Claude など)のカタログ機能
    • Vertex AI Model Builder
      • 生成AIモデルのカスタマイズやファインチューニングのための機能
      • チューニングしたモデル評価のためのツール
    • Vertex AI Agent Builder
      • AI エージェントを構築するための様々なプロダクト
  • Gemini for Google Cloud (コンソールや開発環境上で利用できる様々な機能)

Gemini は何が良いのか

Gemini の話に戻ります。Gemini はどのような特徴があり、どのようなユースケースで利用すると良いのでしょうか。

Gemini は 200万 のコンテキストウインドウを持つマルチモーダルモデルでありながら、MMLU や MathVist など様々なベンチマークで非常に高い評価を受けた高性能な推論が可能であることが特徴となっています。マルチモーダルとはテキスト、画像、音声、動画、コードなど様々な入力形式に対応したモデルのことです。

Gemini は 1.0 と 最新の 1.5 の2つのバージョンがありますが、様々なベンチマークで高評価を受けている 1.5 を利用することを推奨しています。

さらに 1.5 には 2つのモデルサイズがあり、複雑なタスクに対応する高性能な Pro と、より軽量で幅広いタスクに対応しコスト効率の高い Flash が一般公開されています。

大きな特徴であるコンテキストウインドウについても補足します。コンテキストウインドウとは音声や動画など多種多様なデータをどれだけ入力に与えることができるかの指標のことです。Gemini 1.5 Pro のコンテキストウィンドウは 200万トークンとなっており、他のLLMと比較してもトップレベルの数値です。これは、動画だと約120分、ドキュメントなら約2000ページものデータの入力が可能であることを意味します。
一般的にLLMは入力が長くなると文章内のコンテキストが抜け落ちてしまうことが知られていますが、Gemini 1.5 は入力が長くてもコンテキストを精緻に把握できるという特徴があります(Needle in a Haystack(NIAH)というベンチマークテストにおいて非常に良い精度を示す)。

Gemini の実力

ここでは Gemini のユースケースを幾つか紹介します。

  1. 数百ページにわたるドキュメントの解析
    446ページ/トークン数253,158 からなるデジタル庁発行のデジタル・ガバメント推進標準ガイドライン 実践ガイドブック を丸ごと入力し、「要約して」 「このドキュメントは誰の役に立ちますか」といった質問に対して回答を生成する例を紹介していました。

  2. 画像形式の表データの読み込み
    日本語の表(アンケート結果を集計した表)を画像形式(PNG)に変換したデータを入力し、「要約して」 「xxを選択した人の割合は?」といった質問に対して回答を生成する例を紹介していました。

  3. スーパーの特売チラシの解析
    様々なフォントや商品画像が散らばって表示されたスーパーの特売チラシを入力し、「スーパーのチラシから商品毎の名前、税抜き価格、税込み価格、備考をJSON形式で出力してください。」といった質問に対して回答を生成する例を紹介していました。

  4. ビデオに対するメタデータ付与自動化(Paramount+事例)
    動画の管理(ジャンル分けやハイライトの抽出など)に工数がかかっていたが、動画を Gemini に入力するだけで、動画のサマリやジャンル分け、ハイライトの抽出といった動画メタデータを得るといった自動化を実現できたとのことです。

上記の例から、様々な形式の膨大な量のデータ入力に対し、高い精度の画像解析や回答ができることが示されました。

Gemini の様々な機能

Gemini を活用するための様々な機能についても紹介していきます。

  • Controlled Generation
    AIモデルの出力フォーマットを定義できる機能。JSONやYAML形式に出力を固定し、他システムとの連携を効率的に行うことが可能。

  • Batch API
    1回のリクエストで複数のプロンプトを纏めて処理。多数のプロンプトを同時に送信する際にかかる時間/コストを削減。

  • Context Caching
    動画やファイルといった大きなコンテキストを持つ処理を実行する際の情報をキャッシュできる機能。大規模な動画に対して様々な処理を複数回実施する場合のコストを削減。

Gemini API の使い方

ここまで Gemini の特徴や機能について説明がありましたが、Gemini をアプリケーションに組み込むための Gemini API はどのように利用できるのでしょうか。

Gemini API は大きく2つの利用方法があります。

  1. Google AI Studio
    個人開発者向けツールです。Gemini API を直接を呼び出して利用可能です。

  2. Vertex AI
    エンタープライズでは Vertex AI の利用を推奨しています。BigQuery や Vertex AI 上の別プロダクトといった様々な Google Cloud プロダクトと連携できたり、Google Cloud サポート対象、入力データを学習に利用しないことを保証するといったメリットが享受できます。

AIエージェントとは

このあと Gemini を活用したAIエージェントを Google Cloud 上で開発する方法について説明しますが、その前にAIエージェントについて整理します。

ここでいうAIエージェントは LLM による推論だけでなく、データソースを参照してハルシネーションを回避したり、LLM が抽出し要約した結果に基づいて様々な処理(ファイル操作やシステム連携など)を、複雑なプロンプト入力無しで「よしなに」判断してくれる生成AIアプリケーションのことです。

従来の会話アプリケーションでは条件分岐指定といったルールをあらかじめ実装する必要がありましたが、AIエージェントではロジックの細かい条件指定が不要で、ユーザからの曖昧な問い合わせを LLM が理解し返答することができます。

AIエージェントのユースケースとしては、エラーコードから原因を検索するだけでなく解決策を実行したりエスカレーションしたりするトラブルシューティングや、怪しい金融取引の分析だけでなく自動でブロックするような不正利用検知といった利用方法があります。

非常に便利なAIエージェントですが LLM だけでは実装できず、前後の会話文脈を維持するためのマルチターン機能やユーザごとのやりとりを管理する機能、エージェントの役割を定義するためのプロンプト保持など様々な機能の実装が必要であり、意外と開発が大変です。

Google Cloud なら Gemini を利用した AIエージェントが作れる

Gemini を活用したAIエージェントを Google Cloud 上で容易に開発できるマネージドサービスとして Vertex AI Agent Builder があります。

Vertex AI Agent Builder はノーコードで自然言語を用いてAIエージェントを構築できるサービスです。コンソール上から、エージェントが達成すべき Goal、Goal を達成するための手順である Instructions を自然言語で定義し、AIエージェントが連携する Tool や LLM の指定をするだけでAIエージェントの構築が完了します。

さらに Vertex AI Agent Builder にはAIエージェントを作成するための機能だけでなく様々な Tool を作成する機能がありますが、ここでは Vertex AI Search を紹介します。

Vertex AI Search は社内のドキュメントを一元的に管理し検索可能にするサービスです。Google の検索技術を使って、pdfなどの非構造化データ、テーブル等の構造化データ、Webサイトのデータなどを対象として生成AIベースの検索エンジンを容易に構築することを可能とします。キーワード検索だけでなく、検索内容の意図を理解したセマンティック検索が可能であったり、生成AIを活用して複数回にわたってユーザとの対話を行う機能やコンテキストを認識して要約する機能なども持ち合わせています。

一般的に検索アプリケーションを構築するには、社内データを埋め込み表現に変換する処理、ユーザからの検索クエリを埋め込み表現に変換する処理、クエリから類似度をベクトル検索する処理、など多くのコンポーネントが必要となります。

Vertex AI Serch であれば一連のコンポーネントをユーザが意識することはありません。ユーザはデータソースを準備し、コンソールから数クリックのみで構築が完了できます。

Vertex AI Search では様々なデータソースを検索対象にすることができます。

  • 非構造化データ:Clous Storage
  • 構造化データ:BigQuery
  • ウェブサイト
  • Google Drive
  • 3rd Party製品
    など

Q&A

Q1.
RAG 等を使って検索サービスと組み合わせるパターンと、LLM単体で一つのデータソースを入力して処理するパターンの使い分けはどうすればよいでしょうか。

A1.
Vertex AI Search などを利用してグラウンディングのアーキテクチャを利用した方が、企業の非常に大規模データをもとに回答をできるため望ましい。大量のドキュメントの入力を必要としないためコストパフォーマンスも良い。

一方でLLM単体での利用で回答出力の精度が上がるケースもある。複雑なアーキテクチャを取らなくてよいというメリットもある。


Q2.
手始めに生成AIを触る場合、Vertex AI Agent Builder から利用するのがいいでしょうか?

A2.
まずは Gemini をはじめとした LLM を単体で利用いただくのがよい。
外部APIとの連携や回答の課題がある場合に、Vertex AI Agent Builder 等を活用して生成AIエージェントを構築するとよい。


Q3.
Wendy's様の応用的な事例もVertex AI Agent Builder を利用して構築した事例ですか?

A3.
Vertex AI Agent Builder にも組み込まれている Dialogflow というサービスを利用。Vertex AI Agent Builder でも実現可能。

筆者所感

各社から様々な LLM が矢継ぎ早にリリースされ、どの LLM をどのようなユースケースで利用すればよいか混乱するケースも多いと思います。Gemini が他社 LLM と比較してどのような特徴があるか、Gemini を活用した方が良いユースケースは何かが非常に良く理解できました。

特に「マルチモーダル」 「膨大なコンテキストウインドウ」というキーワードが要件であるケースで Gemini が特に力を発揮することを認識しました。
また、Google Cloud の各種サービスとの連携や Vertex AI Agent Builder や Vertex AI Search を活用した AIエージェントの構築といった面でも Gemini を活用できることもわかりました。

生成AI活用のため LLM の選定やAIエージェント開発をご検討されている方で、前述のような要件にピンと来た方は Gemini と Google Cloud の利用を検討してみるのは良いかもしれません。

この記事をシェアする

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.