クラスメソッド データアナリティクス通信(機械学習編) – 2023年11月号
データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。
クラスメソッド データアナリティクス通信(機械学習編) の2023年11月号です。2023年10月分のアップデート情報をお届けできればと思います。
今回でこのシリーズを初めて1年になりました。
はじめに
AWSでは、Amazon SageMaker Canvasで、Amazon QuickSightやAmazon Kendra、各種LLM関連機能との連携が強化され、より多くのユースケースに対応しました。
また、個人的にはRekognitionのカスタムモデレーション機能が非常に嬉しいアナウンスでした。例えばECサイトやコンテンツ配信サービスでは、ユーザーに対して意図しないコンテンツを見せてしまうことによりサービスとしてのイメージが下がってしまうリスクがあります。機械学習によるコンテンツモデレーションを使ってこのリスクを軽減したいというニーズは大きいものの、どういったコンテンツが不適切かについてはある程度そのサービスの背景や文脈に影響を受けるので、Rekognitionのカスタムモデレーション機能は強く待ち望んでいたものでした。
Google Cloudでは、Vertex AIの機能追加が印象的でした。特にフィーチャーストアとしてBigQueryを利用するプレビュー版の機能については、Vertex AIでもBigQueryとより緊密に連携するようになっているなと感じました。
それでは各々のアップデートを振り返って行ければと思います。
※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。
AWS
Amazon SageMakerのアップデート
Feature Storeが特徴量取得用インメモリオンラインストアをサポート
フルマネージド型のインメモリオンラインストアをサポートするようになりました。高スループットの機械学習アプリケーションで、リアルタイムで特徴量を取得できます。ElastiCache for Redisを利用しているそうです。世界中の18のリージョンで利用でき、東京リージョンも対象です。
Model RegistryがプライベートDockerリポジトリをサポート
プライベートDockerリポジトリに保存されている機械学習モデル用のモデルアーティファクトを登録できるようになりました。Model Registryだけで、Amazon ECRとプライベートDockerリポジトリの両方をサポートできます。
SageMaker Canvasのすぐに使用できるモデルに基盤モデルが追加
Amazon Bedrockを利用してClaude 2・Amazon Titan・Jurassic-2をサポートしたことに加え、Amazon SageMaker JumpStartを利用してFalconやMPTなどの公開モデルにもアクセスできるようになりました。基盤モデルからの回答を並べて比較したいということもできるそうです。
SageMaker Canvasで実行した予測をQuickSightから利用可能に
QuickSightでデータをSageMaker Canvasにエクスポートし、機械学習モデルを構築し、使用のためにQuickSightに共有するということができるようになったそうです。ダッシュボード開発者がコードを1行も記述することなく、簡単により的確な洞察が得られる予測ダッシュボードを構築できます。
SageMaker CanvasがKendraのドキュメントに対する要約と情報抽出機能をサポート
情報の抽出対象となる一連のドキュメントにAmazon Kendraを使用してインデックスを付け、そのドキュメントインデックスを選択してSageMaker Canvasが要約と情報抽出を行えるようになりました。
SageMaker Canvasで構築したモデルをリアルタイムエンドポイントにデプロイ可能に
SageMakerエンドポイントにモデルをデプロイして、リアルタイム推論を行うことができるようになリました。これまではリアルタイムエンドポイントへのデプロイのため、モデルのエクスポートからの一連の流れが必要でしたが、SageMaker Canvasから行えるようになりました。
ml.p4d・ml.trn1・ml.g5インスタンスを推論で利用できるリージョンが拡大 (プレビュー版)
プレビュー版で、Amazon SageMakerから推論のためにml.p4d・ml.trn1・ml.g5インスタンスを利用できるリージョンが拡大しました。対象のリージョンはアナウンスを確認頂ければと思います。特に東京リージョンに限って見ると、ml.p4d.24xlargeインスタンスがプレビュー版として利用できるようになりました。
東京リージョンでml.p4dインスタンスが推論で利用できるように
東京リージョンとフランクフルトリージョンでml.p4dインスタンスが推論で利用できるようになりました。
Feature Storeを使用してカスタムデータソースから特徴量パイプラインを構築できるように
Amazon Kinesisなどのストリーミングデータソースに接続し、Spark Structured Streamingを使用した変換を挟んで、カスタムデータソースを設定できるようになったようです。
APIのアップデート
入出力まわりの改善に加え、Autopilotでテキスト生成ジョブをサポートするような大規模言語モデルに関する機能も追加されたようです。
- 2023/10/03 - Amazon SageMaker Service - 14 updated api methods
- 2023/10/04 - Amazon SageMaker Service - 7 updated api methods
- 2023/10/12 - Amazon SageMaker Service - 6 updated api methods
- 2023/10/26 - Amazon SageMaker Service - 4 updated api methods
Amazon Bedrockのアップデート
APIのアップデート
スループットのプロビジョニング機能が追加されていました。
- 2023/10/02 - Amazon Bedrock Runtime - 1 updated api methods
- 2023/10/02 - Amazon Bedrock - 5 new api methods
Amazon Rekognitionのアップデート
モデルの精度を向上させるカスタムモデレーション機能が登場
アダプターはモジュール式のコンポーネントを、既存のRekognitionディープラーニングモデルに追加して、トレーニング対象のタスクに合わせて機能を拡張できるようになりました。
画像をアップロードして注釈を付けてトレーニングデータを作成し、アダプターを作成して使用できるそうです。
Rekognitionのコンテンツモデレーションは、組み込みのモデルの改善自体も継続的に行われてきましたが、今回いよいよカスタマイズが可能になりました。直近の状況については以下の記事で取り上げていましたが、ラベルの判定の精度については、どうしても解きたいタスクの背景や文脈によって画像が不適切かどうかがある程度影響を受けるため、タスクと機能の相性を検証する必要がありました。
今回のアップデートにより、Rekognitionのコンテンツモデレーション機能がより様々なタスクにマッチするようになるのはとても嬉しいですね。
APIのアップデート
- 2023/10/12 - Amazon Rekognition - 8 updated api methods
- 2023/10/23 - Amazon Rekognition - 3 new api methods
Amazon Textractのアップデート
カスタムクエリでビジネス特有のドキュメントの情報抽出を改善可能に
アダプターを使い、ビジネス特有のドキュメントに合わせてクエリ機能を調整し、抽出精度を向上させるカスタムクエリがリリースされました。AWS コンソールでサンプルドキュメントをアップロードし、データにラベルを付け、アダプターを作成できるそうです。
APIのアップデート
カスタムクエリに関するアップデートに加え、タグ付けなどのAPIアップデートがありました。
Amazon Transcribeのアップデート
APIのアップデート
M4Aファイル形式が利用可能になったようでした。
Amazon Personalizeのアップデート
Amazon OpenSearch Serviceの統合により検索結果のパーソナライズが可能に
Amazon OpenSearch Service内でAmazon Personalize Search Rankingプラグインを使用することで、OpenSearchの検索結果をパーソナライズできるようになりました。
Google Cloud
Vertex AIのアップデート
textembedding-gecko
モデルに対するファインチューニングがプレビューに
独自のユースケースがある場合は、独自のトレーニングデータを使ってモデルのチューニングが可能です。textembedding-gecko
モデルがプレビュー版として教師ありのチューニングをサポートしました。
C3シリーズのマシンタイプが推論で使用可能に
マシンのスペックについては以下のドキュメントをご確認ください。
プレビュー提供でVertex AI Feature Storeに対する新しい機能がアナウンス
以下の4つの機能がプレビュー提供されました。
- オフラインストアとしてBigQueryを利用可能に
- 特徴量グループを作成し、BigQueryのデータソースを登録可能に
- オンラインストアインスタンスで複数のBigQueryデータソースを統合し特徴量ビューを提供可能に
- BigQueryに格納されている埋め込みベクトルを取得してリアルタイムに提供可能に
Ray on Vertex AIがプレビュー提供を開始
機械学習ワークフローのための分散コンピューティングと並列処理のインフラストラクチャを提供するRay on Vertex AIがプレビュー提供を開始しました。
Text-to-Speechのアップデート
長時間の音声の合成するためのAPIの拡充がありました。
- Long Audio Synthesis APIが、英語・スペイン語・フランス語・ドイツ語・日本語・ヒンディー語・イタリア語・韓国語・ポルトガル語・タイ語・ベトナム語・デンマーク語・フィリピン語をサポート
- スタジオ音声をサポート
- SSML入力をサポート
長時間の音声の合成については以下のガイドをご確認ください。
イベント・サービス情報
相談会
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。
データ分析相談会のお申込みはこちらです。
機械学習システム導入支援サービスについて
AWSやGoogle Cloudなどパブリッククラウドにて、機械学習サービスを活用したシステムの導入支援を行います。詳しくは以下のページをご覧ください。
例えば以下のようなケースをご支援しています。
- ECサイトのレコメンドシステムを構築し、利用者にパーソナライズされたおすすめ商品を提示する
- SNSや問い合わせのログなどから、テキストマイニングを活用したインサイトの発見する
- 画像解析により、工場における不良品検出や農業・畜産業分野での生育管理を効率化する
- 売上や消費者の行動などから、将来の需要を予測する
最後に
2023年10月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
データアナリティクス通信(機械学習編) - 2023年11月号は以上です。