Vertex AIのGenerative AI StudioでVision系を使ってみる

おはこんハロチャオ~!何者(なにもん)なんじゃ?じょんすみすです。

Vertex AIの生成AIにはLLMを使った自然言語の生成モデル以外にもVisionとSpeechという項目があります。

今回は、この中のVisionを見ていきます。

現在使える機能

メニューからGenerative AI StudioのVisionを選択すると、4つの項目が表示されます。

  • Generate
  • Edit
  • Caption
  • Visual Q&A

2023/09/15現在、GenerateとEditは限定公開となっています。 そのため、今回はすぐに試すことが可能なCaptionとVisual Q&Aを使ってみます。

Caption

Captionでは、画像に対する説明文を生成します。

「UPLOAD IMAGE」から画像ファイルをアップロードして、下部にある「GENERATE CAPTION」を押すことで画像に対する説明文が表示されます。

対応している言語は現在のところ

  • 英語
  • フランス語
  • ドイツ語
  • イタリア語
  • スペイン語

となっているようです。

いらすとやの「人工知能に仕事を任せる人のイラスト」で試してみましょう。

an illustration of a man sitting at a desk with his feet up and a brain behind him

このような結果が得られました。 画面に表示された脳が人工知能を模したものであるということまでは判断できないようですが、全体の構図を説明する内容になっています。

「Number of captions」を変更することで複数の候補を出力することができますので、他にどのような出力が得られるのかも試してみます。

いくつかのパターンが出ました。 いずれも構図を説明したような内容になっています。

次に、イラストではなく写真で試してみます。

a house with a red roof sits in the middle of a forest

こちらも、写真に写っているものの構図を説明する文章が生成されました。

Captionでは画像にどのようなものが写っているかを文章説明する内容を出力してくれるようです。 いい感じに説明したけど、どう表現するのがいいか...みたいなときに便利そうですね。

Visual Q&A

続いて、Visual Q&Aを見ていきます。 こちらは、画像とそれに対する質問を入れることで回答を得る仕組みです。 現在のところ対応している言語は英語のみとなっています。

引き続き先ほどの写真の内容で質問してみます。

Are there people or animals in the photo?

という質問に対する答えは

no

とのことです。

続いて、yes/noで答えられない質問をしてみます。

質問 :

Name three things in this photo.

回答 :

house

1つしか教えてくれませんでしたが、家が写っていることを教えてくれました。

写真からは分からないことを質問するとどうなるでしょう?

質問 :

Please tell me where this house is located.

回答 :

woods

たしかにその通りではありますね。

このように、Visual Q&Aは画像の内容について質問すると一言で返してくれるようです。

おわりに

今回は、Vertex AIのGenertive AI Studioの中のVision系の様子を見てみました。

今回様子を見た2つの機能だけでも、様々な用途で使えそうです。 まだ解禁されてない他の2つも含めて、使い方に夢が膨らむ機能となっていますね。