Anthropic Claude 3 の画像処理をBedrockで試してみた

Amazon Bedrockで利用可能になった Claude 3 Sonnet。その画像解析を試してみました。
2024.03.05

2024年3月4日、Anthropic Claude 3がリリース。 同日 Amazon Bedrockでも、Claude 3 Sonnet を利用する事が可能となりました。

今回、Claude 3 で新たにサポートされた 画像処理(Vision)を、チャットのプレイグラウンドを利用して試す機会がありましたので、紹介させていただきます。

モデルの有効化

オレゴンリージョンの Amazon Bedrock ダッシュボードを利用して、ベースモデル Claude 3 Sonnet の有効化を実施しました。

モデルアクセス

モデルアクセスの管理画面で「 Claude 3 Sonnet」をチェック、保存して有効化を行いました。

ベースモデル選択

画像の用意

スマートフォンで撮影した写真を Googleフォトの表示画面からSkitchを利用して画面キャプチャ。

EXIF情報や 画像のヒントになるファイル名を含まない、1MB弱のJPEGファイルを用意しました。

チャット

プレイグラウンドの「チャット」を利用して、イメージ処理を試みました。

モデルとして「Claude 3 Sonnet v1」を指定。

ローカルにダウンロードした 画像ファイルをアップロード、画像の解析を試みました。

チャット

缶ビール画像

can-bear

本体価格

POPに記載された350ml缶、500ml缶の価格が読み取れました。

価格を教えて

銘柄

  • POPに記載された銘柄情報に加えて、缶のみにデザインされている要素の回答を得る事ができました。

缶ビールの銘柄2

風景写真

夜景

昨年、ラスベガスで撮影した写真の判定を試みました。

飛行機上からの夜景

ラスベガスの夜景の航空写真である事。 ストリップ地区や、カジノホテル、観覧車などの説明も含まれました。

飛行機夜景

2023年10月にオープンした球体シアター、スフィアの写真の説明を求めました。

球体

設備の全景や、看板などは不明瞭、Claude 3 の 学習期間が2023年8月であった事もあり、スフィアを示す回答を得る事は出来ませんでしたが、 Googleのイベント広告である事などの説明が得られました。

スフィア回答

雷門

雷門の大提灯の写真判定を試みました。

フォト

日本語での問い合わせに対し英語で回答が戻りましたが、日本語での回答を指示する事で、浅草寺の雷門の写真である事や、仲見世の説明が得られました。

雷門の回答

レシート

レシートの文字起こしを試みました。

レシート

レシート文字起こし

「変)」→「要)」、「A」→「4」など、一部で誤変換はありましたが、 シワの入った状態の良くないレシートでも、項目、金額を読み取る事ができていました。

小田急登戸駅店 044-930-0702  
神奈川県川崎市多摩区登戸3437-2

店舗番号:47467
2024年2月28日(水)13時09分00秒2
牛皿・から揚げ定食 ¥908
要)ご飯増量(無料) ¥0内
伝票No.32 テーブルNo. 5  
小計 顧 ¥908
@450円引
@50x1 -50
(内10%対象 ¥858)
(内10%税額 ¥78)
(消費税 等 ¥78)
合計 ¥858
PayPay ¥858
合計点数 2点」

と記載されています。レシートには店舗情報、注文内容、金額の内訳が含まれています。

まとめ

今回リリースされた Claude 3と GPT-4の ベンチマークのスコア比較、上位モデルは GPT-4を凌駕、中位モデルも匹敵する性能とされています。

今回、 高い精度で画像処理できる可能性が伺えた Claude 3 Sonnet、 2024年3月5日時点、北米のオレゴン、バージニアリージョンのBedrockで簡単に試す事ができます。 ぜひその性能をお試しください。