CEDEC2022 セッションレポート ディープラーニングの活用:AI × キャラクターによる新しいゲームの世界 #CEDEC2022 #classmethod_game

2022.08.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。
ご機嫌いかがでしょうか。
"No human labor is no human error" が大好きな吉井 亮です。

CEDEC2022 を聴講しています。セッションレポートをまとめました。

セッション

タイトル : ディープラーニングの活用:AI × キャラクターによる新しいゲームの世界

受講スキル:

  • ディープラーニングに関する知識・経験がある方
  • 最先端のセリフ生成・音声合成・モーション生成に興味がある方

受講者が得られるであろう知見 :

  • キャラクターの口調や知識を反映するセリフ生成に関する知見
  • 様々な声色を実現する音声合成や対話のための音声合成に関する知見
  • 音声と同期する表情モーション生成や音楽からのダンスモーション生成に関する知見
  • ゲームやメタバースでのAIキャラクターの活用方法
  • AIキャラクターのユーザー生成コンテンツとしての可能性

セッションの内容
ゲームにおけるNPCは、プレイヤーのシナリオ進行や世界観の理解のために重要な役割を果たします。通常NPCのセリフは、シナリオライターにより書かれ、声優により音声収録され、ゲームの進行に応じて変更されます。しかし、このようなセリフ製作では、プレイヤーとNPCのコミュニケーションに限界が生じます。特に近年のオープンワールドやメタバースといった現実世界に近いコミュニケーションが可能なゲームにおいて、NPCとのコミュニケーションの制約はゲーム構築の障壁となります。そこで本セッションでは、進展が著しいディープラーニングを用いたセリフ生成・音声合成・モーション生成により生み出される「AIキャラクター」を実現するための技術を説明します。AIキャラクターは、クリエイターだけでなくプレイヤーによるキャラクター作成を容易とするため、ユーザー生成コンテンツとしての可能性も秘めています。プレイヤーとAIキャラクターやAIキャラクター同士のコミュニケーションは、新たなゲームの世界を創生するでしょう。

講演者プロフィール

沢田 慶 様

所属 : rinna株式会社
部署 : Research Research and Data Manager

シーン 誠 様

所属 : rinna株式会社
部署 : Research Applied Scientist

三井 健太郎 様

所属 : rinna株式会社
部署 : Research Researcher

共同研究・開発者 趙 天雨 様(rinna株式会社)

レポート

AIキャラクターとは何か

AI技術はディープラーニングの登場によりいくつものブレイクスルー、劇的な技術進歩を迎え、様々な製品・サービスが展開されています。
一般ユーザーがAI製品を利用した User Generated Contents が普及してきたと説明されています。
生成系AIの登場によりテキスト・音声・画像生成が可能になり、一般ユーザーでもAIキャラクターを作成できるようになっているとのこと。
人間 X AIだけではなく、AI X AIによる新しいコミュニケーションが生まれていると解説されています。

限られたセリフ・音声・モーションから脱却し、AI-NPCによる新しいゲームの世界が展開されます。
(聞いているだけでわくわくしてきます。)

セリフ生成

これまでのセリフは、キャラクター性を考慮される・世界観が維持されていると利点がある一方で、セリフのバリエーションが少ない・セリフ生成に時間と工数がかかるなどのデメリットがあります。
今後のゲーム業界の需要に応えるために、デメリットを克服する必要があると説明されています。

  • AI-NPCに期待すること
    • 日本語として流暢な返答
      • AI-NPC導入に必須
    • 機械的な返答ではなく、毎度返答が変化
      • 決まったセリフしか言わない、を解決
      • 場面を考慮した回答
    • NPCのキャラクター性を考慮した返答
      • 猫の容姿のキャラクターなら語尾がにゃーなど
    • 知識や世界観に基づいた返答
      • 江戸時代の設定なら「めんこ」などの時代に合わせたセリフ

事前学習モデル

日本語の自然さを表した2つの軸を解決する事前学習モデルについて。

事前学習モデル:大規模なデータで学習されたAIモデル
我々が小学校の頃から多くの教科書や参考書で学習してきました。同じようにAIにも大量のデータで学習してもらいます。

GPT-3を代表としてテキストを生成できる事前学習モデル

  • 次にくる単語を予測
  • 文脈を考慮し、流暢な日本語生成が可能
  • 流暢さを維持しつつ、多様な生成結果

ペルソナコントロール

キャラクターのペルソナに沿ったセリフ生成
例えば、猫の容姿であるキャラクターならば、語尾が「にゃ」である、好きな食べ物は魚であるといったことが該当します。

  • 事前学習モデルを用いた方法で実現
    • a. 入力テキストによるコントロール
      • 質問と発話例を入力
      • もっともらしい回答を返す
      • 低コスト、少量のデータ
      • 良い結果を得るためには、より大規模な事前学習モデルが必要
    • b. 学習によるコントロール
      • a に比べかなり良い精度
      • さらに学習していくことで精度を上げる
      • 高コスト
      • データ量が多い

昨今、制度が良くて、低コストで、少量のデータで済む学習手法が提案されているとのことです。

知識コントロール

知識や世界観に沿ったセリフ生成
例えば、江戸時代のゲームであれば江戸時代に無いものは言えない、時代にあったセリフが必要だと説明されています。

事前学習段階でデータに紐づいた知識モデルで学習します。
知識や世界観に基づいた返答が可能になり、ペルソナコントロールと併用することで世界観を持ちキャラクター性を考慮したAI-NPCが誕生すると説明されています。

セリフ生成の今後

  • 事前学習モデル
    • より精度が高いモデルを構築するために、さらに大規模なモデルになっていく
    • これらを低コストで扱うことが可能なエンジンが登場
  • 実際の会話データ
    • 会話データやログを活用することでニーズに合った会話データの生成

音声合成

与えられた任意のセリフを読み上げるための技術

  • AI を用いた音声合成では、テキストと音声の対応関係をデータのみから学習して新しいテキストに対する音声データを生成
  • 10~20時間の音声データがあれば人間と同等の品質を達成できるとされている
  • 学習には1~2週間ほど

  • ゲーム応用で求められる要件

    • たくさんのキャラクターがいる、様々な話者の声が欲しい
    • 喜怒哀楽の声が欲しい
    • 少量の学習データで効率的に新しい声を合成したい

これらの要件を満たす方法として「多話者多スタイル音声合成」が紹介されています。

多話者多スタイル音声合成

複数の話者・スタイルのデータを用いて1つのモデルを学習
話者・スタイルをIDで指定することで、その話者・スタイルの声を合成可能
それぞれの話者の声質を保ったまま様々な表現を実現しています。(実際の音声デモを使っていました。ぜひご覧ください。感動します)

  • 学習データ量・学習時間で見ても効率的
    • 1話者あたり、1時間程度のデータがあれば十分 (通常は10~20時間)
    • 話者ごとのモデル学習が不要
  • キャラクター同士の対話に向けて
    • 独立したセリフとしては十分
    • 対話として聞いた場合にどうか?
      • なんとなくセリフを読み上げているだけの印象を受ける
    • 人間同士の対話に見られる特徴をAIでも再現したい
      • 相手への同調
      • 笑い声・あいづち
      • 嬉しいだけはなく、少し嬉しい、とても嬉しい等の多様なスタイル

対話音声合成

対話に特化した「対話音声合成」の紹介です。

  • 10時間以上にわたる話者の対話を収録
  • 発話スタイルの遷移をデータから学習し、人間らしい対話を実現
  • 抽出した発話スタイルの系列をもとに、次に合成する発話スタイルを予測
  • 音声から自動的に抽出する連続値を学習させる
  • これによって多様な発話スタイルを表現可能

(サンプルが紹介されていました。とても自然に2人が会話していました。これも感動)

音声合成の今後

  • キャラクターにあった声をユーザーが操作し易い応用
    • 多人数の話者で共通のモデルを学習することによって、実在しない声も生成
  • 多言語への拡張
    • 英語話者が日本語を話せるように
  • セリフ生成 + 対話音声合成による無限会話生成
  • AI-NPCが人間の会話相手になってくれるかもの期待

AIによるモーション生成

表情モーションがコミュニケーションにおいて重要な役割を示していると説明されています。
音声や感情に合わせた表情モーションがリアリティを実現します。

セリフからの音声合成と表情モーションを同期させることによって、音声と表情の不一致を無くします。
セリフごとの表情モーションをキャプチャーしなくてよくなります。

ダンスモーション生成

ダンスモーション生成の需要が高くなっているとのこと。

  • 入力:音楽から自動抽出したスペクトル・音階・テンポ等
  • 出力:ボディモーションのキーポイント座標
  • 音楽の特徴をとらえたダンスモーションが可能
  • 音楽のジャンルの違いも表現

(バレエ・ヒップホップ・J-POPを例にジャンルの特徴を捉えたダンスモーションのデモが紹介されています。すごい!)

モーション生成の今後

  • キーポイントから拡張
    • 2D・3Dモデルにキーポイントを適用
    • フォトリアルAI描画による動画生成
    • 数枚・一枚の写真・イラストからの動画生成
  • セリフや状況を考慮したモーション
  • 移動先などをAIが決める意思決定に基づく行動

コミュニティの活性化

  • ユーザーコミュニティ
    • ユーザーが気軽にAIを使える環境が大切
    • 気軽に共有できるプラットフォームが構築できれば多様なAI-NPCで活性化する
  • 研究・開発コミュニティ
    • AI分野は知識や知見の共有が活発
    • ソースコード・学習データ・学習済モデルの公開が活発

登壇者が所属している rinnna株式会社 もアウトリーチ活動を積極的に行っているとのことです。
GitHub
Hugging Face

発表者のまとめ

画像に日本語キャプションを自動付与するAI、日本語から画像を生成するAIは人間には出来ない新しいコミュニケーションを生む可能性があると説明されています。
人間とAIキャラクターのコミュニケーションから生まれる新しいSNSは面白い可能性です。(私も参加してみたい)

以上、吉井 亮 がお届けしました。