プレビュー提供のVertex AI Gemini APIをコンソールから試して、画像に写っているテキストの内容を質問してみた

マルチモーダル大規模言語モデルのGemini APIがVertex AIのコンソールからプレビュー提供で利用できるようになったので、画像に写った自然言語の情報を回答をして欲しいユースケースで利用イメージを膨らませてみました。
2023.12.14

データアナリティクス事業本部 機械学習チームの鈴木です。

マルチモーダル大規模言語モデルで、画像に写ったテキストの情報を質問することに関心があったのですが、Vertex AI Gemini APIがプレビューで提供開始になったと知ったのでコンソールから試してみました。

はじめに

以下でアナウンスされている通り、VertexAIでGemini APIが利用可能になりました。

Geminiは、2023年12月6日にGoogleから発表されたマルチモーダル大規模言語モデルです。LaMDA/PaLM2の後継と位置づけられており、テキスト、画像、音声などのデータを同時に認識して処理が可能とされています。

以下のガイドではプレビュー提供のVertex AI Gemini APIについて、対応している各種手段でのリクエスト方法が解説されていますが、その中でも一番とっつきやすいコンソールでの方法をまずは試してみました。

先立ってNodeで試してみたサンプルもDevelopersIOで公開されており、ガイドと合わせて読みつつ参考にしました。

コンソールでの操作例のご紹介

Promptの作成画面を開く

VertexAIのコンソールにアクセスすると、Generative AI StudioにMultimodalの欄が増えていたのでクリックしました。

コンソールよりアクセス

GET STARTEDタブのPrompt designのところでOPENを押しました。

GET STARTED

以下の画面にプロンプトを入力して、Gemini APIを利用できました。

Untitled prompt

INSERT MEDIAから画像をアップロードできました。Regionを選ぶと、asia-northeast1 (Tokyo)でも利用できることが分かります。

質問してみる

機械学習チームで提供している以下のレコメンドシステムプランから、表だったり図を交えた箇所をスクショで抜き出し、内容について質問してみました。

1. レコメンドを始めるのに必要なデータはなにか

最初は以下の画像とテキストでプロンプト作成し、Gemini APIに回答を生成してもらいました。

こんなデータがあれば始められます

これはクラスメソッド社の機械学習チームが提供する、機械学習を活用したレコメンドシステムプランを始めるのに必要なデータを記載した表になります。ユーザに関する情報としては何が必要ですか。

回答は以下のようになりました。

質問1の回答

ユーザに関する情報として、年齢や性別、居住地などのユーザー情報、コンテンツへの評価、滞在時間が必要となります。

この程度の表であれば難なく対応してくれるようでした。

2. ご利用の流れについて

次に以下の画像とテキストでプロンプト作成し、Gemini APIに回答を生成してもらいました。図を組み合わせていて、なんとなく感覚的なのでちょっと難しめです。

ご利用の流れ

これはクラスメソッド社の機械学習チームが提供する、機械学習を活用したレコメンドシステムプランのご利用の流れになります。STEP3の前にどのようなステップがありますか。STEP3より前の全てのステップについてできるだけ詳細に教えてください。

回答は以下のようになりました。

質問2の回答

STEP1:初期診断 お客様が所有するデータを診断士が確認します。

STEP2:導入効果検証 まずはPoC(実証実験)からスタートします。

こちらも特に問題なく回答してくれました。

最後に

簡単にですが、プレビュー提供のVertex AI Gemini APIをコンソールから試して、画像に写っているテキストの内容を質問してみました。

今回は簡単な例ではありますが、しっかりと期待したタスクをこなしてくれてすごいなと思いました。

実際に使ってみるとプロンプトの作り方などでいろいろと気づいた点があったのですが、プレビュー提供ということで、ご興味がある方はぜひ試してみて頂いて、気になった点はどんどんプレビュー提供期間中にフィードバックして頂くのが良いと思います。