クラスメソッド データアナリティクス通信(機械学習編) – 2023年11月号

2023年10月分のAWSおよびGoogle Cloudの機械学習関連サービスのアップデート情報をお届けします。
2023.11.06

データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。

クラスメソッド データアナリティクス通信(機械学習編) の2023年11月号です。2023年10月分のアップデート情報をお届けできればと思います。

今回でこのシリーズを初めて1年になりました。

はじめに

AWSでは、Amazon SageMaker Canvasで、Amazon QuickSightやAmazon Kendra、各種LLM関連機能との連携が強化され、より多くのユースケースに対応しました。

また、個人的にはRekognitionのカスタムモデレーション機能が非常に嬉しいアナウンスでした。例えばECサイトやコンテンツ配信サービスでは、ユーザーに対して意図しないコンテンツを見せてしまうことによりサービスとしてのイメージが下がってしまうリスクがあります。機械学習によるコンテンツモデレーションを使ってこのリスクを軽減したいというニーズは大きいものの、どういったコンテンツが不適切かについてはある程度そのサービスの背景や文脈に影響を受けるので、Rekognitionのカスタムモデレーション機能は強く待ち望んでいたものでした。

Google Cloudでは、Vertex AIの機能追加が印象的でした。特にフィーチャーストアとしてBigQueryを利用するプレビュー版の機能については、Vertex AIでもBigQueryとより緊密に連携するようになっているなと感じました。

それでは各々のアップデートを振り返って行ければと思います。

※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。

AWS

Amazon SageMakerのアップデート

Feature Storeが特徴量取得用インメモリオンラインストアをサポート

フルマネージド型のインメモリオンラインストアをサポートするようになりました。高スループットの機械学習アプリケーションで、リアルタイムで特徴量を取得できます。ElastiCache for Redisを利用しているそうです。世界中の18のリージョンで利用でき、東京リージョンも対象です。

Model RegistryがプライベートDockerリポジトリをサポート

プライベートDockerリポジトリに保存されている機械学習モデル用のモデルアーティファクトを登録できるようになりました。Model Registryだけで、Amazon ECRとプライベートDockerリポジトリの両方をサポートできます。

SageMaker Canvasのすぐに使用できるモデルに基盤モデルが追加

Amazon Bedrockを利用してClaude 2・Amazon Titan・Jurassic-2をサポートしたことに加え、Amazon SageMaker JumpStartを利用してFalconやMPTなどの公開モデルにもアクセスできるようになりました。基盤モデルからの回答を並べて比較したいということもできるそうです。

SageMaker Canvasで実行した予測をQuickSightから利用可能に

QuickSightでデータをSageMaker Canvasにエクスポートし、機械学習モデルを構築し、使用のためにQuickSightに共有するということができるようになったそうです。ダッシュボード開発者がコードを1行も記述することなく、簡単により的確な洞察が得られる予測ダッシュボードを構築できます。

SageMaker CanvasがKendraのドキュメントに対する要約と情報抽出機能をサポート

情報の抽出対象となる一連のドキュメントにAmazon Kendraを使用してインデックスを付け、そのドキュメントインデックスを選択してSageMaker Canvasが要約と情報抽出を行えるようになりました。

SageMaker Canvasで構築したモデルをリアルタイムエンドポイントにデプロイ可能に

SageMakerエンドポイントにモデルをデプロイして、リアルタイム推論を行うことができるようになリました。これまではリアルタイムエンドポイントへのデプロイのため、モデルのエクスポートからの一連の流れが必要でしたが、SageMaker Canvasから行えるようになりました。

ml.p4d・ml.trn1・ml.g5インスタンスを推論で利用できるリージョンが拡大 (プレビュー版)

プレビュー版で、Amazon SageMakerから推論のためにml.p4d・ml.trn1・ml.g5インスタンスを利用できるリージョンが拡大しました。対象のリージョンはアナウンスを確認頂ければと思います。特に東京リージョンに限って見ると、ml.p4d.24xlargeインスタンスがプレビュー版として利用できるようになりました。

東京リージョンでml.p4dインスタンスが推論で利用できるように

東京リージョンとフランクフルトリージョンでml.p4dインスタンスが推論で利用できるようになりました。

Feature Storeを使用してカスタムデータソースから特徴量パイプラインを構築できるように

Amazon Kinesisなどのストリーミングデータソースに接続し、Spark Structured Streamingを使用した変換を挟んで、カスタムデータソースを設定できるようになったようです。

APIのアップデート

入出力まわりの改善に加え、Autopilotでテキスト生成ジョブをサポートするような大規模言語モデルに関する機能も追加されたようです。

Amazon Bedrockのアップデート

APIのアップデート

スループットのプロビジョニング機能が追加されていました。

Amazon Rekognitionのアップデート

モデルの精度を向上させるカスタムモデレーション機能が登場

アダプターはモジュール式のコンポーネントを、既存のRekognitionディープラーニングモデルに追加して、トレーニング対象のタスクに合わせて機能を拡張できるようになりました。

画像をアップロードして注釈を付けてトレーニングデータを作成し、アダプターを作成して使用できるそうです。

Rekognitionのコンテンツモデレーションは、組み込みのモデルの改善自体も継続的に行われてきましたが、今回いよいよカスタマイズが可能になりました。直近の状況については以下の記事で取り上げていましたが、ラベルの判定の精度については、どうしても解きたいタスクの背景や文脈によって画像が不適切かどうかがある程度影響を受けるため、タスクと機能の相性を検証する必要がありました。

今回のアップデートにより、Rekognitionのコンテンツモデレーション機能がより様々なタスクにマッチするようになるのはとても嬉しいですね。

APIのアップデート

Amazon Textractのアップデート

カスタムクエリでビジネス特有のドキュメントの情報抽出を改善可能に

アダプターを使い、ビジネス特有のドキュメントに合わせてクエリ機能を調整し、抽出精度を向上させるカスタムクエリがリリースされました。AWS コンソールでサンプルドキュメントをアップロードし、データにラベルを付け、アダプターを作成できるそうです。

APIのアップデート

カスタムクエリに関するアップデートに加え、タグ付けなどのAPIアップデートがありました。

Amazon Transcribeのアップデート

APIのアップデート

M4Aファイル形式が利用可能になったようでした。

Amazon Personalizeのアップデート

Amazon OpenSearch Serviceの統合により検索結果のパーソナライズが可能に

Amazon OpenSearch Service内でAmazon Personalize Search Rankingプラグインを使用することで、OpenSearchの検索結果をパーソナライズできるようになりました。

Google Cloud

Vertex AIのアップデート

textembedding-geckoモデルに対するファインチューニングがプレビューに

独自のユースケースがある場合は、独自のトレーニングデータを使ってモデルのチューニングが可能です。textembedding-geckoモデルがプレビュー版として教師ありのチューニングをサポートしました。

C3シリーズのマシンタイプが推論で使用可能に

マシンのスペックについては以下のドキュメントをご確認ください。

プレビュー提供でVertex AI Feature Storeに対する新しい機能がアナウンス

以下の4つの機能がプレビュー提供されました。

  • オフラインストアとしてBigQueryを利用可能に
  • 特徴量グループを作成し、BigQueryのデータソースを登録可能に
  • オンラインストアインスタンスで複数のBigQueryデータソースを統合し特徴量ビューを提供可能に
  • BigQueryに格納されている埋め込みベクトルを取得してリアルタイムに提供可能に

Ray on Vertex AIがプレビュー提供を開始

機械学習ワークフローのための分散コンピューティングと並列処理のインフラストラクチャを提供するRay on Vertex AIがプレビュー提供を開始しました。

Text-to-Speechのアップデート

長時間の音声の合成するためのAPIの拡充がありました。

  • Long Audio Synthesis APIが、英語・スペイン語・フランス語・ドイツ語・日本語・ヒンディー語・イタリア語・韓国語・ポルトガル語・タイ語・ベトナム語・デンマーク語・フィリピン語をサポート
  • スタジオ音声をサポート
  • SSML入力をサポート

長時間の音声の合成については以下のガイドをご確認ください。

イベント・サービス情報

相談会

クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。

このようなことでお困りではないですか?

企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。

データ分析相談会のお申込みはこちらです。

機械学習システム導入支援サービスについて

AWSやGoogle Cloudなどパブリッククラウドにて、機械学習サービスを活用したシステムの導入支援を行います。詳しくは以下のページをご覧ください。

例えば以下のようなケースをご支援しています。

  • ECサイトのレコメンドシステムを構築し、利用者にパーソナライズされたおすすめ商品を提示する
  • SNSや問い合わせのログなどから、テキストマイニングを活用したインサイトの発見する
  • 画像解析により、工場における不良品検出や農業・畜産業分野での生育管理を効率化する
  • 売上や消費者の行動などから、将来の需要を予測する

最後に

2023年10月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。

データアナリティクス通信(機械学習編) - 2023年11月号は以上です。