LlamaIndex でマルチモーダル対応が始まったので読み込んだ画像に OpenAI で質問してみた
こんにちは、アノテーション の中野です。
LlamaIndex に関するツイートを追いかけていたところ、以下の様な投稿を目にしました。
Do you ever get lost in a pile of old receipts?
LlamaIndex can now answer “when was the last time I went to McDonald’s and how much did I spend” over your receipt images!
We can easily verify that the answer is correct through looking at the multimodal data sources. pic.twitter.com/PP3aemNslE
— LlamaIndex ? (GPT Index) (@gpt_index) March 14, 2023
LlamaIndex がマルチモーダルに対応したとのことです。
このツイートは、某ハンバーガーショップのレシートの画像を LlamaIndex に食わせて、「直近某ハンバーガーショップに行ったのはいつ?合計いくら使った?」といった画像に対する質問に答えられるようにアップデートを加えたという内容です。
マルチモーダルという言葉自体、筆者に馴染みがなかったので、まずは Web 版 ChatGPT に答えてもらいました。
要するに、AI がインプットできる情報はテキストだけではなく、画像・音声・動画などの人間が認識できる形式で学習・処理してコミュニケーションできるようにする技術のことのようです。
レシートの情報を読み取って会話できるのはわかったので、筆者の場合は Twitter の TOP 画像を使った会話をやってみます。
- macOS Ventura 13.2.1 (Intel)
- Python 3.8.12
- pip 23.0.1
- llama-index 0.4.28
- Jupyter Notebook 6.5.3
- Jupyter Lab 3.6.1
$ pip install jupyter $ pip install jupyterlab
基本的には、公開されているコードと同じですが筆者の手元で動かしたコードを GitHub に保存しました。
画像は、以下の筆者の Twitter の TOP 画像を利用することにします。
また、OpenAIへの質問として Twitter のアカウント名、開始日、アイコンのカラーを答えてもらいます。
from llama_index import GPTSimpleVectorIndex, SimpleDirectoryReader from llama_index.indices.query.query_transform.base import ( ImageOutputQueryTransform, ) from llama_index.response.notebook_utils import ( display_response, display_image, ) imageReader = SimpleDirectoryReader( input_dir='data/', file_extractor=file_extractor, file_metadata=filename_fn, ) documents = imageReader.load_data() index = GPTSimpleVectorIndex(documents) question = "Tell me the account name written in the image and what year and month you started Twitter. What color is the icon? " answer = index.query(question, query_transform=ImageOutputQueryTransform(width=400)) display_response(answer)
なお、コードの ImageOutputQueryTransform
は Jupyter Notebook 上で画像を表示する指示を与えるためのメソッドです。
準備ができたら、以下コマンドで Jupyter Lab のローカルサーバーを起動させます。
$ jupyter lab
ブラウザにて、http://localhost:8888/lab が起動します。
2023-03-17 17:32:23.285110: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations: AVX2 FMA To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags. Could not find image processor class in the image processor config or the model config. Loading based on pattern matching with the model's feature extractor configuration. INFO:root:> [build_index_from_documents] Total LLM token usage: 0 tokens INFO:root:> [build_index_from_documents] Total embedding token usage: 219 tokens INFO:root:> [query] Total LLM token usage: 357 tokens INFO:root:> [query] Total embedding token usage: 25 tokens Final Response: The account name written in the image is @engin_yo and the year and month they started Twitter is 2020. The icon color is blue.
DeepLの翻訳結果: 画像に書かれているアカウント名は「@engin_yo」、Twitterを始めた年月は「2020」です。アイコンカラーは青です。
アカウント名、Twitter の開始日、アイコンのカラーが全て一致しています。
驚くことに、アイコンのカラーが Blue(青) であることも認識されていました。
Jupyter Notebook のローカルサーバーを起動させる際に、以下のようなエラーがでました。
ValidationError: 1 validation error for OpenAI __root__ Did not find openai_api_key, please add an environment variable `OPENAI_API_KEY` which contains it, or pass `openai_api_key` as a named parameter. (type=value_error)
OPENAI_API_KEY が設定されていないとのことで、コンソールを開いて環境変数にて設定することでエラーは解消されます。
Here's the multimodal demo nb: https://t.co/Ln6aTpz4SI
This is all just the beginning. With the impending release of multimodal LLMs, we expect rapid improvements in multimodal reasoning and synthesis.
We’ll be adding broader multimodality support soon, stay tuned ?
— LlamaIndex ? (GPT Index) (@gpt_index) March 14, 2023
こちらのツイートにも書いてあるとおり、このアップデートは始まりでしかなく、マルチモーダル LLM のリリースも近日中に発表されるみたいです。
LlamaIndex のマルチモーダル対応によりオリジナルのデータを使って画像や動画を学習することが可能になる未来も近いです。
