クラスメソッド データアナリティクス通信(機械学習編) – 2023年8月号

2023年7月分のAWSおよびGoogle Cloudの機械学習関連サービスのアップデート情報をお届けします。
2023.08.07

データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。

クラスメソッド データアナリティクス通信(機械学習編) の2023年8月号です。2023年7月分のアップデート情報をお届けできればと思います。

はじめに

AWSではSageMaker Canvasのアップデートが多数ありました。特にQuickSightやTextractなどほかのサービスとの統合が追加されていました。SageMaker Canvasを使えばUIから機械学習モデルの構築と利用ができます。今後もどんどんと、SageMaker Canvasを中心にノーコードで様々な機械学習サービスの利用や連携をすることができるようになるかもしれないですね。

SageMaker JumpStartでLlama2基盤モデルも利用できるようになりました。こちらについては発表後すぐにDevelopresIOでも検証記事も出しておりました。

Google CloudではVertexAIで画像を中心に生成系モデルを利用した機能が一般提供開始になっていました。

また、BigQuery MLで機械学習向けのデータ前処理のための関数が一般提供開始になりました。この機能は今年の2月にプレビューになっていたものですが、いよいよ正式に利用できるようになり非常に嬉しいお知らせでした。これにより前処理用の関数を使ったモデルでもVertex AIのModel Registryに登録できるようになりました。

それでは各々のアップデートを振り返って行ければと思います。

※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。

AWS

Amazon SageMakerのアップデート

RStudio Workbench version 2023.03に対応

RStudio on Amazon SageMakerがRStudio Workbench バージョン2023.03 に対応しました。オートコンプリートとアクセシビリティの向上が新機能として追加されたほか、R-4.3.0もサポートしました。

Feature StoreのオンラインストアがTTLをサポート

オンラインストアのレコードについて、有効期間 (TTL) をサポートし、レコードの管理がより柔軟にできるようになりました。

TTLは以下の粒度で設定可能です。

  • 特徴量グループ
  • 個々のレコード

オンラインストアからレコード削除されると、オフラインストアに削除済みレコードを書き込みます。

SageMaker CanvasがParquetファイルをサポート

ローカルディスクまたはS3バケットから複数のParquetファイルを選択して利用できるようになりました。各Parquetファイルのサイズは最大5GBまでとのことです。

例えば、特徴量として使うデータレイク上のデータマートは多くの場合Parquetファイルだと思いますので、変換が不要になったのは非常に嬉しいアップデートだと思います。

Model CardsがRegistry のモデルバージョンに統合

モデルカードをモデルレジストリ内の特定のモデルバージョンに関連付けられるようになりました。モデルレジストリを中心として、モデルに関する文書を確認することができますね。

AWSブログでも具体的な例が紹介されていました。

SageMaker JumpStartがLlama2基盤モデルをサポート

MetaのLlama2基盤モデルをAmazon SageMaker JumpStartで利用可能になりました。

Llama2の利用については、チームメンバーのnokomoro3さんがリリース直後にブログとして検証内容を公開してくれました。

Feature Storeがクロスアカウントの共有・検出・アクセスをサポート

AWSアカウント間での特徴量グループの共有・検索・アクセスを簡単にできるようになりました。AWS Resource Access Manager (RAM) を使って他のアカウントの特定の特徴量グループにアクセス権を付与する仕組みとのことです。

アクセス権が付与されたアカウントは、SageMaker StudioかSDKから特徴量グループを表示できるようになります。

SageMaker CanvasのMLアーティファクト出力先のS3の場所を指定可能に

訓練済みモデル、レポート、推論結果のようなMLアーティファクトを出力するS3の場所を指定可能になりました。

SageMakerドメインやユーザープロファイルを設定する際に、独自のカスタムS3ロケーションを指定することで、例えばユーザーごとに保存先を分けるようなことができるそうです。

SageMaker Canvasがドキュメントへのクエリをサポート

Amazon Textractが提供するDocument Queries機能をサポートし、自然言語を使用して構造化ドキュメントからデータを抽出できるようになりました。

SageMaker CanvasのモデルをQuickSightで利用可能に

SageMaker Canvasで作成したモデルにより、QuickSightで予測を生成できるようになりました。

QuickSightのビルトインの予測機能はML Insightのランダムカットフォレストモデルですが、SageMaker Canvasと連携することで、ノーコードでモデルを作成し、QuickSightで利用できます。

具体的な使い方は以下の開発者ガイドで紹介されています。

SageMaker Canvasで目標メトリックの選択が可能に

これまでは問題のタイプに対して単一のデフォルトの目的メトリックのみをサポートしていましたが、サポートされているメトリックのリストから目的メトリックを選択できるようになりました。

APIのアップデート

CreateAutoMLJobV2 APIで時系列予測をサポートしました。

推論エンドポイントのローリングデプロイをサポートしました。

SageMaker Inference Recommenderで新しいフィールドをサポートしました。

Search APIのレスポンスでProfilerConfigを取得できるようになりました。

-2023/07/27 - Amazon SageMaker Service - 1 updated api methods

Amazon Translateのアップデート

カスタム用語集機能を強化

カスタム用語集機能の強化により、登録したカスタム用語に合わせて、文脈にあった流暢な翻訳を実現してくれるようです。

Amazon Transcribeのアップデート

Toxicity Detectionのための引数を追加

ヘイトスピーチ・ハラスメント・脅迫を含む有害な言葉を特定・分類するための引数が追加されました。

なお、Amazon Transcribe Toxicity Detectionについては以下に紹介があります。

Amazon Personalizeのアップデート

ユーザー行動の変化を考慮したバッチレコメンデーションが可能に

イベントトラッカーを作成し、バッチ推論ジョブを実行することで、モデルの再トレーニングを必要とせずにユーザー行動の変化を考慮したレコメンデーションを生成できるようになりました。

開発者ガイドの『Recording events』ページで紹介されているAWS CLIの例を確認すると、イベントトラッカーをデータセットグループに紐づけて作成することが分かります。この関連付けによりレコメンデーションを生成時にバッチ推論ジョブがイベントトラッカーのデータを考慮するようになると思われます。

aws personalize create-event-tracker \
    --name MovieClickTracker \
    --dataset-group-arn arn:aws:personalize:us-west-2:acct-id:dataset-group/MovieClickGroup

OpenSearchとの統合

OpenSearchで、ユーザーごとに検索結果をパーソナライズできるようになりました。

OpenSearchでAmazon Personalize Search Rankingプラグインを使用することで、連携するようです。

Amazon Auroraのアップデート

Aurora PostgreSQLがpgvectorをサポート

pgvectorはPostgreSQLをベクトルデータベースとして利用するためのオープンソースの拡張モジュールです。PostgreSQLのデータベースに格納したベクトルに対して類似度検索を実行することができます。

Aurora Serverless v2での使用例を以下のブログでご紹介しました。このアップデートにより、自分のAWSアカウント内で非常に簡単にベクトルデータベースを構築することができます。

Amazon Redshift MLのアップデート

Amazon Forecast と統合

Amazon Redshift MLから、時系列予測サービスであるAmazon Forecastを活用できるようになりました。

RedshiftでSQLを実行し、Forecastの予測子の作成や、推論の作成ができるようになります。東京リージョンでも使用可能です。

Amazon Pollyのアップデート

ボイスの追加を発表

オランダ語 (ベルギー)のボイスが追加されました。

Google Cloud

Vertex AIのアップデート

モデル評価が一般提供開始

Vertex AIのモデル評価が一般提供開始しました。

公平性のモデル評価を含む、一部機能はプレビューとのことでした。

  • Model evaluation with sliced metrics.
  • Model evaluation with fairness and bias metrics.
  • Vision error analysis for AutoML image classification models.

チャット用のPaLM 2が一般提供開始

チャット用のVertex AI PaLM APIでchat-bisonのサポートが一般提供開始されました。

text-bisonへのバッチリクエストが一般提供開始

text-bisonへのバッチリクエストが一般提供開始しました。

Imagen on Vertex AIで複数機能がGAに

以下の機能がGAになりました。(ただし、*がついたものはRestricted access feature)

BigQuery MLのアップデート

前処理関数が一般提供開始

BigQuery MLの前処理用関数が一般提供開始になりました。

以下の関数があります。

  • ML.IMPUTER
  • ML.LABEL_ENCODER
  • ML.MAX_ABS_SCALER
  • ML.MULTI_HOT_ENCODER
  • ML.NORMALIZER
  • ML.ONE_HOT_ENCODER
  • ML.ROBUST_SCALER

特にML.ROBUST_SCALERのページによると、以下のようにSQLで実行が可能でとても便利です。BigQueryにデータを入れてしまえば、前処理用の関数を使ったモデルでもVertex AIのModel Registryに登録できるようになったのは非常に強力ですね。

SELECT f, ML.ROBUST_SCALER(f) OVER () AS output
FROM
  UNNEST([NULL, -3, 1, 2, 3, 4, 5]) AS f
ORDER BY f;
+------+---------------------+
|  f   |       output        |
+------+---------------------+
| NULL |                NULL |
|   -3 | -1.6666666666666667 |
|    1 | -0.3333333333333333 |
|    2 |                 0.0 |
|    3 |  0.3333333333333333 |
|    4 |  0.6666666666666666 |
|    5 |                 1.0 |
+------+---------------------+

カスタムホリデーモデリングがプレビューに

時系列モデルにおいて、カスタマイズした休日設定を取り込む機能がプレビューになりました。

CREATE MODEL syntaxを見ると、custom_holidayが追加されています。

使い方は以下のチュートリアルから確認できます。

ARIMA_PLUS_XREGモデルが一般提供開始

多変量時系列予測のためのARIMA_PLUS_XREGモデルがサポートされました。

新しいExplainable AI機能を追加

モデルの説明するための機能が強化されました。

  • ML.EXPLAIN_FORECASTをARIMA_PLUS_XREGモデルに適用できるように
  • ML.EXPLAIN_FORECASTで休暇の効果を説明できるように
  • ML.EXPLAIN_FORECASTAutoML Tablesに適用可能に
  • ML.EXPLAIN_PREDICTapprox_feature_contribオプションが利用可能に

イベント・サービス情報

相談会

クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。

このようなことでお困りではないですか?

企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。

データ分析相談会のお申込みはこちらです。

機械学習システム導入支援サービスについて

AWSやGoogle Cloudなどパブリッククラウドにて、機械学習サービスを活用したシステムの導入支援を行います。詳しくは以下のページをご覧ください。

例えば以下のようなケースをご支援しています。

  • ECサイトのレコメンドシステムを構築し、利用者にパーソナライズされたおすすめ商品を提示する
  • SNSや問い合わせのログなどから、テキストマイニングを活用したインサイトの発見する
  • 画像解析により、工場における不良品検出や農業・畜産業分野での生育管理を効率化する
  • 売上や消費者の行動などから、将来の需要を予測する

最後に

2023年7月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。

データアナリティクス通信(機械学習編) - 2023年8月号は以上です。