クラスメソッド データアナリティクス通信(機械学習編) – 2023年12月号

2023年11月分(日本時間11/27朝まで分)のAWSおよびGoogle Cloudの機械学習関連サービスのアップデート情報をお届けします。
2023.11.27

データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。

クラスメソッド データアナリティクス通信(機械学習編) の2023年12月号です。2023年11月分のアップデート情報をお届けできればと思います。

今月はAWSでre:Invent2023があり、多くのアップデートが予想されるため、日本時間の11/27朝分までのアップデートで一度区切りたいと思います。AWSについてはre:Invent2023中のアップデートは別記事に、Google Cloudの11月最終週分のアップデートついては2024年1月号にまとめられればと思います。

はじめに

AWSでは、生成系AIをエンジンとした各種サービスの強化がいよいよやってきたという印象でした。Step FunctionsからBedrockの2つのAPIを利用できるようになったほか、PersonalizeやTranslateでLLMをエンジンとした機能が発表されました。プレビュー版ですが、Redshift MLがSageMaker JumpStartで事前トレーニング済みの公開されているLLMを利用できるようにもなりました。

Google Cloudでは、Vertex AIの生成AIのロケーションが拡大したのがとても嬉しいお知らせでした。また、BigQueryをデータソースとしたVertex AI Feature Storeの機能や、ポイントインタイム検索などここ数ヶ月でプレビュー版で公開されていた時系列処理のためのBigQueryの関数など、楽しみにしていたプレビュー機能が続々とGAになりました。

それでは各々のアップデートを振り返って行ければと思います。今回は盛りだくさんです!

※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。

AWS

Amazon SageMakerのアップデート

SageMaker Canvasでより高度なモデルの構成とリーダーボードをリリース

以下のような観点でより高度なモデル構築構成をサポートしました。

  • トレーニング方法(アンサンブル/ハイパーパラメーターの最適化)
  • アルゴリズムの選択
  • トレーニング/検証データ分割比率のカスタマイズ
  • AutoMLのイテレーションやジョブ実行時間の制限設定

また、Canvasによって評価されたモデル構成の主要なメトリクス(精度、精度、再現率、F1 スコアなど)を簡単に比較できるリーダーボードも提供されるようになりました。

SageMaker StudioがIAM Identity Centerによる自動のユーザーセットアップをサポート

SageMaker Studioの認証方法としてIAM Identity Centerを使用している場合に、SageMakerとIdC APIを使用してStudioユーザープロファイルの完全自動のセットアップが利用できるようになりました。

SageMaker CanvasがDocumentDBと統合

SageMaker Canvasにより、Amazon DocumentDB(MongoDB互換性あり)に保存されたデータを使用してノーコード機械学習が可能になりました。

APIのアップデート

SageMaker StudioがTrainiumインスタンスタイプをサポートしたことに関するものと、バッチ変換に関するAPIアップデートがありました。

Amazon Comprehendのアップデート

テキストベースのコンテンツの有害性検出と安全性分類に関する新機能をリリース

新しい有害性検出機能と迅速な安全性分類機能により、ユーザーや機械が生成したテキストコンテンツをモデレートできるようになりました。

以下のようなテキストコンテンツを、より迅速かつ賢くモデレートします。

  • 生成系AIアプリケーションが生成するテキストコンテンツ
  • オンラインユーザーがチャット・コメント・フォーラムディスカッションで作成するテキストコンテンツ

有害性検出は、テキストをセクシャルハラスメント・ヘイトスピーチ・脅迫・虐待・冒涜・侮辱・グラフィックの7つのカテゴリに分類するし、有害なコンテンツを識別します。 迅速な安全性分類は、安全でないプロンプトにフラグを付け、生成系AIアプリケーションの不適切な使用を防ぐ機能です。

どちらのAPIも英語に対応したものになっています。

APIのアップデート

上記の有害性検出と安全性分類に関するAPIが追加されました。

Amazon Transcribeのアップデート

多言語ストリームの自動言語識別サポートを発表

複数の公用語がある国、または複数の地域にまたがって事業を行っている場合に、オーディオストリームにさまざまな言語が含まれているようなユースケースを対象にしたものです。

ストリーム内で話されている全ての言語が識別され、識別された各言語を使用してトランスクリプトが作成されるそうです。

Supported languages and language-specific features』に記載の言語が対象で、日本語も含まれます。東京リージョンでも利用可能です。

LLMにより100以上の言語をサポート

バッチモードで使用する場合に、APIエンドポイントや入力パラメータを変更することなく、100以上の言語の精度向上を実現できるようになります。東京リージョンも対象です。

Call Analyticsによる通話要約を発表(プレビュー)

プレビューのAmazon Transcribe Call Analyticsを使うことで、通話録音全体を自動的に簡潔な要約に要約できるようになりました。現在英語でサポートされており、米国東部(バージニア北部)と米国西部(オレゴン)のリージョンで利用できます。

Amazon Translateのアップデート

brevityカスタマイズにより翻訳出力の長さを短縮できるように

製品タイトル・画像キャプション・動画字幕など・翻訳出力の長さに制約があるコンテンツを翻訳しなければならないユースケースで、brevityを有効にすることでより短縮した翻訳を出力することが可能だそうです。

例:

  • スペイン語の元の文: 「El perro corrió tras de la bola tremendamente grande.」
  • 英語の翻訳文(デフォルト): 「The dog ran after the tremendously large ball.」
  • 英語の翻訳文(brevity有効): 「The dog ran after the huge ball.」

APIのアップデート

上記のbrevityカスタマイズに関するAPIの変更が行われました。

Amazon Personalizeのアップデート

レコメンデーションのテーマを作成するように

生成AIを使い、推奨アイテム間のテーマの類似性を説明するテキストのスニペットを生成する、Amazon Personalize Content Generatorが発表されました。この機能を使い、カルーセルのタイトルや電子メールの件名などに生成されたテキストを組み込むことができます。

ブランドロイヤルティを高めるアクションを推奨するレシピを発表

ユーザーのブランドロイヤルティとコンバージョンの向上に役立つNext Best Actionレシピが発表されました。個々のユーザーの好みや行動に基づいて、そのユーザーを引き付ける可能性が高いアクションを決定し、推薦できます。

Amazon Pollyのアップデート

3つの豊かなアメリカ英語の音声を備えた長文エンジンを発表

Danielle・Gregory・Ruthの3つの豊かなアメリカ英語の音声を備えた長文エンジンを提供開始しました。

APIのアップデート

US英語音声の追加と、長いコンテンツ専用の新しいエンジンに関するアップデートがありました。

Amazon Bedrockのアップデート

新たな基盤モデルが利用可能に

MetaのLlama2 Chat 13Bモデル、CohereのCommand Light・Embed English・多言語モデルが利用可能になりました。

2つのBedrock APIをStep Functionsから直接呼び出せるように

InvokeModel APIとCreateModelCustomizationJob APIをStep Functionsから直接呼び出せるようになりました。

PartyRockが公開されました

楽しく直感的に実践型の生成型AIアプリを構築できるサービスです。Amazon Bedrockの新機能というよりは派生したサービスのようで、コンソールには表示されていません。

使用イメージや使ってみた感想については以下の記事に詳しく記載があるのでご確認ください。

Amazon EC2のアップデート

Capacity Blocks for MLの一般提供を開始

Amazon EC2 UltraCluster内のGPUインスタンスを、機械学習ワークロードを実行するために必要となる将来の日付から指定した期間予約できるようになったようです。

8週間前から予約可能、GPU容量は1~14日の期間、クラスターサイズは1~64インスタンス(512GPU)の範囲で予約できるそうです。

Instance Topology APIの一般提供を発表

インスタンス間の相対的な近接度を示す、アカウントごとの独自の階層ビューを提供します。

インスタンストポロジーを記述して、緊密に結合されたグループに属するインスタンスを識別し、通信時間をより改善し、ジョブの完了時間を短縮できます。

複数マシンを使った大規模な分散トレーニングをしたい場合に、通信速度のボトルネックは効きそうですので、この機能を使ってより改善ができるのは嬉しいですね。

東京リージョンでも利用可能です。

Amazon S3のアップデート

Amazon S3 Connector for PyTorchの公開

Amazon S3 Connector for PyTorchを使うと、PytorchからのS3の読み取りリクエストとリストリクエストを自動的に最適化し、トレーニングワークロードのデータロードとチェックポイントのパフォーマンスが向上させるそうです。

Amazon EC2インスタンスストレージに保存したときよりも、機械学習トレーニングモデルのチェックポイントの保存が最大40%高速になるということで、 Pytorchユーザーであれば一度試してみたい機能と思います。

Amazon Redshift MLのアップデート

大規模言語モデルをサポート(プレビュー)

プレビューで、Amazon SageMaker JumpStartで事前トレーニング済みの公開されている大規模言語モデルを活用できるようになりました。エンティティ抽出、感情分析、製品フィードバック分類などを実行できます。

Google Cloud

Vertex AIのアップデート

Vertex AIの生成AIのロケーションが拡大

Vertex AIの生成AIのロケーションが12リージョンに拡大したようです。

東京でも利用可能でした。詳しくは以下のガイドをご確認ください。

TPU アクセラレータを使用したトレーニングが一般提供開始

TPU VMを使用した各種フレームワークとライブラリによるトレーニングが一般提供開始になりました。

Model Gardenの機能向上・新しいモデルの追加が発表

  • 言語モデルのスループットが向上しました。
  • Stable Diffusion 1.5、2.1、XLモデルの推論速度がオリジナル実装の2倍になりました。
  • デプロイボタンのワークフローが改善されました。
  • Llama2、OpenLlama、Falcon Instructのノートブックが更新され、モデル提供のための推奨マシンスペックと、EleutherAIのモデル評価ツールに関する情報が掲載されました。
  • 新しいモデルが追加されました。
    • ImageBind
    • Vicuna v1.5
    • OWL-ViT v2
    • DITO
    • NLLB
    • Mistral-7B
    • BioGPT
    • BiomedCILP

textembedding-geckoとtextembedding-gecko-multilingualの新しい安定版がリリース

以下の安定版モデルがリリースされました。

  • textembedding-gecko@002
  • textembedding-gecko-multilingual@001

なお、安定版のモデルが利用できるのは後続のバージョンがリリースされてから6か月間であることに留意が必要です。

生成AIのセキュリティ管理が利用可能に

モデルとトレーニングデータを保護するためのセキュリティ管理が利用可能になりました。

一覧は以下のガイドをご確認ください。

Vertex AI Feature Storeが一般提供開始

10月時点でプレビュー版で提供されていたFeature Storeに関する機能がGAになりました。

  • Feature Registry: 特徴量グループを作成し、BigQueryのデータソースを登録可能に。
  • Cloud Bigtable online serving: オンラインストアインスタンスで複数のBigQueryデータソースを統合し特徴量ビューを提供可能に。

ただし一部機能はプレビュー状態であることに注意が必要です。

BigQueryのアップデート

高度なテキストアナライザ構成オプションをサポート

BigQueryでの検索エクスペリエンスを向上させることができる高度なテキストアナライザ構成オプションをサポートしました。

プレビューでテキスト分析用の関数をサポート

以下の自然言語処理に関する関数をプレビューでサポートしました。

  • ML.BAG_OF_WORDS
  • ML.TF_IDF
  • BAG_OF_WORDS
  • TF_IDF
  • COSINE_DISTANCE
  • EUCLIDEAN_DISTANCE
  • EDIT_DISTANCE

ポイントインタイム検索のための関数が一般提供開始

時系列モデルについて訓練・推論するために、ポイントインタイム検索を行うためのML.FEATURES_AT_TIME関数およびML.ENTITY_FEATURES_AT_TIME関数が一般提供開始になりました。

Document AI・Speech-to-TextのAPIとの連携強化がプレビュー版で提供

Document AI APIベースのリモートモデル利用をするための関数をプレビューでサポートしました。

以下のガイドも詳細があります。

Speech-to-Text APIベースのリモートモデル利用をするための関数もプレビューでサポートしました。

以下のガイドも詳細があります。

時系列予測に関するオプションと関数が一般提供開始

予測値が指定された範囲内に収まるようにする、CREATE MODEL文のFORECAST_LIMIT_LOWER_BOUNDFORECAST_LIMIT_UPPER_BOUNDオプションを使うことで、モデルが返す予測値の下限と上限を設定することができるようになりました。

この機能については、以下のチュートリアルで具体的に確認が可能です。

独自の休暇のモデリングについても追加の機能がGAされました。

  • ML.HOLIDAY_INFO: ARIMA_PLUSARIMA_PLUS_XREGでモデル化されている祝日のリストを返す。
  • ML.EXPLAIN_FORECAST: モデルの休暇の効果を説明する。

この機能については、以下のチュートリアルで具体的に確認が可能です。

LLM利用のSQL構文の変更とリモートモデルのリージョン拡大

全てのテキスト生成モデルおよびエンベディングモデルをリモートモデルとして利用するためのSQL構文が更新されました。

text-bison*系のLLMモデルをサポートするリージョンが拡大しました。なお、東京リージョンはこのアップデートの対象外でした。

最新の状況は以下をご確認ください。

Text-to-Speechのアップデート

スタジオ音声に関する追加と変更

en-GB-Studio-Bとen-GB-Studio-Cの2つのスタジオ音声を公開しました。

2023/11/13以降はen-US-Studio-Mが使用不可となり、en-US-Studio-Qにルーティングされるようになりました。

Speech-to-Textのアップデート

電話に由来する音声を認識するモデルを公開

電話に由来する音声を認識するtelephonyとtelephony_shortの2つのモデルが公開されました。

イベント・サービス情報

ブログリレー企画の開催

12月は技術ブログではアドベントカレンダーの季節ということで、機械学習チームでは今年はブログリレーを開催します。テーマはGoogle CloudのAI/MLサービスになります。随時更新していきますので、ぜひご覧ください!

ウェビナーの開催報告

10/31に『成功事例に学ぶ、事業に付加価値をもたらすAI・機械学習の活用方法』というタイトルでウェビナーを開催しましたのでご報告です。

2つのセッションを発表させて頂きました。

  • ユースケースに学ぶ、事業に付加価値をもたらすAI・機械学習の活用方法
  • Google Cloudで実現する自然言語処理の活用ユースケース

相談会

クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。

このようなことでお困りではないですか?

企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。

データ分析相談会のお申込みはこちらです。

機械学習システム導入支援サービスについて

AWSやGoogle Cloudなどパブリッククラウドにて、機械学習サービスを活用したシステムの導入支援を行います。詳しくは以下のページをご覧ください。

例えば以下のようなケースをご支援しています。

  • ECサイトのレコメンドシステムを構築し、利用者にパーソナライズされたおすすめ商品を提示する
  • SNSや問い合わせのログなどから、テキストマイニングを活用したインサイトの発見する
  • 画像解析により、工場における不良品検出や農業・畜産業分野での生育管理を効率化する
  • 売上や消費者の行動などから、将来の需要を予測する

最後に

2023年11月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。

データアナリティクス通信(機械学習編) - 2023年12月号は以上です。