[セッションレポート]Amazon Nova 入門 〜 Amazon Nova で広がるマルチモーダル生成 AI の可能性〜 (AWS-20)

[セッションレポート]Amazon Nova 入門 〜 Amazon Nova で広がるマルチモーダル生成 AI の可能性〜 (AWS-20)

こんにちは!Koty-Mousa 矢坂幸太郎です!

本日は、2025年6月25日に開催されたAWS Summit Japanでのセッション「Amazon Nova 入門 〜 Amazon Nova で広がるマルチモーダル生成 AI の可能性〜」の模様をお届けします。

アマゾン ウェブ サービス ジャパン合同会社
ストラテジックインダストリ技術本部 デジタルソリューション部 ソリューションアーキテクト
安藤 慎太郎さんによるセッションです。

生成AIのユースケース

ドキュメントの要約、ワークフローの最適化・自動化、コーディングやカスタマーサポートのアシスタント、
それから、パーソナライズされた顧客体験に生成AIが使われています。

これは、Amazonも例外ではなく、Amazon AdsやPrime Videoでのドラマシーズン総集編作成など、Amazonも生成AIを深く活用しています。

Amazon Nova とは?

そんな、生成AIの課題や理想をよく理解したAmazonの方々によってつくられたのが、Amazon Nova 生成AIモデル群です

Nova という1つのモデルがあるのではなく、用途に応じた複数の種類があります。

Amazon Nova 基盤モデル

Amazon Novaには7つのモデルがあります
(Bedrock経由で利用可能なモデル・2025年6月25日時点)
※Amazon Nova Act(ブラウザ操作が可能なモデル)は今回は除外します

マルチモーダル理解モデルはテキスト理解、クリエイティブコンテンツ生成モデルは動画や画像が生成可能です。

全般の特徴

  • 先進的な知性
  • 低レイテンシー
  • コストパフォーマンス
  • エージェントワークフロー・RAG
  • カスタマイズ
  • 責任あるAI

マルチモーダル理解モデル

ユースケースに応じたコストパフォーマンスのモデルがあり、
Micro → Lite→ Pro → Premier の順に賢さとコストのレベルが上がります。

全てのモデルで200以上の言語に対応しており、
出力はテキスト、入力は Micro はテキストのみ・Lite/Pro/Premier はテキスト・画像・動画に対応しています。

実行例

画像入力に対応したモデルで、財務表を入力し、「流動比率を計算してください」と伝えます。
その結果、モデルは流動比率を返してくれます。

財務表を理解するだけではなく、「流動比率」という日本語が何かを理解しています。

画像だけでなく、動画も入力することができます。
例えば、アメリカンフットボールの試合動画を読み込ませることで、各シーンで何が起きているのか、詳細にテキストで解説してくれます。

クリエイティブコンテンツ生成モデル

テキストや画像を入力して、画像を生成するAmazon Nova Canvas・動画を生成するAmazon Nova Reelがあります。

Amazon Nova Canvasは、スタジオ品質の画像を生成することができます。
主な機能として、画像を作るだけではなく、画像の編集も可能となっています。

また、責任あるAIの機能も組み込んでおり、人間には見ることができないウォーターマークを入れ、この画像がAmazon Novaで生成されたことがわかるようにできます。
また、生成AIの画像が著作権侵害のある画像をAmazon Novaが出力してしまった場合、AWSが保証するということが組み込まれています。
詳細はサービス条件をご確認ください。

Amazon Nova Canvasの特徴

  • テキストからの画像生成・スタジオ品質
  • 解像度 最大 2048x2048
  • インペインティング:画像内の特定の領域を編集できる。マスクプロンプト(例:湖)・テキストプロンプト(例:野原に変える)などの指示ができる
  • アウトペインティング:入力画像の境界を拡張し、背景などを生成(コーヒーメーカーの周りにパンやお皿を生成する)
  • インスタントカスタマイゼーション:1-5枚の参考画像を入力し、画像スタイルを保持した新規画像を生成
  • 条件付き画像生成:姿勢やカメラアングルなどを保持したまま画像を編集
  • カラーパレット:生成される画像のカラーパレットを制御(画像の色雰囲気を指定できる)
  • 背景除去:画像から背景を除去・特にプロンプトは必要ない
  • 責任あるAI:ウォーターマーク(後からAmazon Novaが生成したのか確認できる)や出力に対する保証

Amazon Nova Reel

動画生成モデルです。
6秒の動画を生成することができ、複数シーンで最大120秒の動画生成できます。テキストや画像から動画生成できます。
今後のロードマップとして、動画編集機能があります。

おすすめのプロンプトは公式ドキュメントにあります。

画像入力からの動画生成が可能で、小川の画像にプロンプト文を入れることで、実際に水が流れている動画を生成することができます。

音声対話モデル

Amazon Nova Sonic

従来は、複数のステップをお客様で組む必要がありましたが、音声入力でテキストや音声を出力することが簡単に作ることができます。

  • 流動的な会話:自然な会話の流れが可能
  • リアルタイムストリーミング[:音声のやり取りをリアルタイムで処理可能]
  • 外部機能をツールとして呼び出し:RAGを利用した知識の根拠づけも可能・APIなどとの連携
  • 責任あるAI:コンテンツモデレーションやウォーターマーク(後からAmazon Novaが生成したのか確認できる)

英語を学習する様子の動画を見ましたが、まるで人間と会話するように、そして人間が少し戸惑っても待ってくれるので、とても自然な会話体験でした。

活用事例

サポートエージェントアプリケーション

アーキテクチャ図を分析して要約してくれ、追加の指示も可能となっています。
また、インフラ構築のためのCDKやCloudFormationのコードを生成してくれるので、お客様での検証が簡単にできます。

今後はAIアドバイザーなどでAmazon Novaを使っていくという動きがあります。

Prime Video

ドラマシーズン総集編生成

長編ドラマだと、前シーズンのことを忘れてしまうことがありますね。
総集編があると助かりますが、編集作業には数週間はかかります。

Amazon Novaを使えば数時間の作業で総集編を作成できました。

元の10エピソード、約450分の動画からあらすじを生成、そのナレーションを生成、
最後に、あらすじ音声と動画を合わせないといけないのですが、キーワードに対応する部分の動画を合わせる仕組みを用意しました。

これによって、従来の手作業による編集プロセスを大幅に短縮し、効率的なコンテンツ制作を実現しています。

まとめ

また、「Any-to-Any」と呼ばれる、モダリティを問わずマルチモーダルなモデル、近日公開予定です。

Amazon Novaは、テキスト、画像、動画、音声といった様々な形式のデータを自由に組み合わせて処理できる革新的なAIプラットフォームです。

ぜひ、Amazon Novaをご利用ください!
AWS コンソールより Bedrock PlaygroundでGUIで実験することも可能です。

実際に触ってみることで、その可能性を体感していただけると思います。

筆者あとがき

私も業務で生成AIを活用してますが、
現地でこのセッションを見ていたのですが、私や弊チームには、まだまだ活用の余地があることを認識しました。

とりわけ、我々も普段お世話になっているAWSテクニカルサポートでも利用が進んでいるとのことで、弊社テクニカルサポートチームもどんどん利用を進めていきたいと考えました。

これから、さまざまな機能を検証していきます。

ご覧いただきありがとうございました!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.