[レポート] AIを活用したメディア・アーカイブの分類、発見、収益化 #MAE305 #AWSreInvent
はじめに
データ事業本部のおざわです。re:Invent 2024に現地参加しています。前回ご紹介した以下のセッションとは別に、もうひとつメディア関連のセッションに参加してきましたので共有したいと思います。
今回参加してきたのは「AI-enhanced media archives Classify, discover, and monetize」というタイトルのChalk Talkセッションです。
セッション概要
原文
Significant amounts of archived media files remain undiscovered, leading to unrealized monetization opportunities for media owners. Learn how to use AWS services and advanced generative AI models to automate the classification, discovery, and promotion of archived media content. See examples of how you can effortlessly classify and catalog your media archive and enable natural language interactions for content discovery, and then accelerate time to market by automatically generating teasers and promotional content from the rediscovered gems. Discuss options to unlock new revenue streams and breathe life into your archived media treasures with a no-code, AI-driven approach.
日本語訳(機械翻訳)
膨大な量のアーカイブされたメディアファイルが未発見のまま残っており、メディア所有者にとって未実現の収益化の機会につながっています。AWSサービスと高度な生成AIモデルを使用して、アーカイブされたメディアコンテンツの分類、発見、プロモーションを自動化する方法を学びます。メディアアーカイブを簡単に分類し、カタログ化し、コンテンツ発見のための自然言語インタラクションを可能にし、再発見された珠玉のコンテンツからティーザーやプロモーションコンテンツを自動的に生成することで市場投入までの時間を短縮する方法の例をご覧ください。新たな収益源を確保し、コード不要のAI主導型アプローチでアーカイブされた貴重なメディアに生命を吹き込むためのオプションについて説明します。
Speakers
- Vince Palazzo, Sr Solutions Architect, AWS
- Saurav Bhattacharya, Senior Solutions Architect, Amazon Web Services, Inc.
- Amit Kalawat, Principal Solutions Architect, AWS
セッション内容
例えば、過去に放送されたサッカーの試合から、ある選手のゴールシーンをまとめたハイライト動画を作りたいとします。現状は過去の試合動画を集めて人の目によって内容を確認し、編集することになるため、かなり労力がかかることが予想されます。
ここにAIを使って動画からコンテキストを抜き出すことで、自然言語による検索を可能にするという話でした。
デモの様子
手法的にはこちらのセッションで紹介されていたものとかなり近いはずですので、デモの様子を中心にアーキテクチャ図等を共有できればと思います。デモの中ではニュース、映画、ドラマといったカテゴリの動画が使われていました。
Face Recognitionで各シーンでどの出演者が登場するか検出しています。
CBSで放送されたニュースを例として、生成AIがまとめた動画のサマリです。
ジャンルはちゃんと「ニュース」になっており、さらに「最新のイベント」という形で小カテゴリが選択されています。また、ニュース番組内で登場するニュースリポーター、著名人、使用されている言語などが検出されています。
使用したプロンプトが紹介されていました。シーンの検出に必要な指示、レスポンスはJSONで返却することなどが記載されています。
アーキテクチャ図です。
Lambda関数は動画から画像グリッドを作成するのに使われています。
生成AIが返したJSONオブジェクトです。シーンごとに分かれており、それぞれのシーンの概要や出演している著名人の名前が記載されています。
動画コンテンツの中で稲妻が光っているシーンを自然言語で検索した結果、3つのシーンすべてが検出できていました(画像はその内の1つ)。
コストについて
動画から抜き出すフレーム画像の粒度によってコストが上下します。ニュース番組の場合は1秒に1フレームのような荒い抜き出し方でも問題はないものの、バスケットボールやサッカーと言った目まぐるしく状況が変わるスポーツであれば、細かく抜き出す必要があります。前回のセッション同様、このあたりは動画のコンテンツによって試行錯誤が必要という話でした。
収益化
最後にタイトルにもある「Monetize」について参加者からアイデアを募集して意見交換がされ、Chalk Talkっぽいセッションでした。
おまけ
最後にセッションで使用された手書きの図も共有します。
おわりに
前回参加したセッションと同様、動画コンテンツの可能性が感じられる印象に残るセッションでした。以上、Chalk Talkの「AI-enhanced media archives Classify, discover, and monetize」の様子をお伝えしました!