クラスメソッド データアナリティクス通信(機械学習編) – 2023年8月号
データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。
クラスメソッド データアナリティクス通信(機械学習編) の2023年8月号です。2023年7月分のアップデート情報をお届けできればと思います。
はじめに
AWSではSageMaker Canvasのアップデートが多数ありました。特にQuickSightやTextractなどほかのサービスとの統合が追加されていました。SageMaker Canvasを使えばUIから機械学習モデルの構築と利用ができます。今後もどんどんと、SageMaker Canvasを中心にノーコードで様々な機械学習サービスの利用や連携をすることができるようになるかもしれないですね。
SageMaker JumpStartでLlama2基盤モデルも利用できるようになりました。こちらについては発表後すぐにDevelopresIOでも検証記事も出しておりました。
Google CloudではVertexAIで画像を中心に生成系モデルを利用した機能が一般提供開始になっていました。
また、BigQuery MLで機械学習向けのデータ前処理のための関数が一般提供開始になりました。この機能は今年の2月にプレビューになっていたものですが、いよいよ正式に利用できるようになり非常に嬉しいお知らせでした。これにより前処理用の関数を使ったモデルでもVertex AIのModel Registryに登録できるようになりました。
それでは各々のアップデートを振り返って行ければと思います。
※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。
AWS
Amazon SageMakerのアップデート
RStudio Workbench version 2023.03に対応
RStudio on Amazon SageMakerがRStudio Workbench バージョン2023.03 に対応しました。オートコンプリートとアクセシビリティの向上が新機能として追加されたほか、R-4.3.0もサポートしました。
Feature StoreのオンラインストアがTTLをサポート
オンラインストアのレコードについて、有効期間 (TTL) をサポートし、レコードの管理がより柔軟にできるようになりました。
TTLは以下の粒度で設定可能です。
- 特徴量グループ
- 個々のレコード
オンラインストアからレコード削除されると、オフラインストアに削除済みレコードを書き込みます。
SageMaker CanvasがParquetファイルをサポート
ローカルディスクまたはS3バケットから複数のParquetファイルを選択して利用できるようになりました。各Parquetファイルのサイズは最大5GBまでとのことです。
例えば、特徴量として使うデータレイク上のデータマートは多くの場合Parquetファイルだと思いますので、変換が不要になったのは非常に嬉しいアップデートだと思います。
Model CardsがRegistry のモデルバージョンに統合
モデルカードをモデルレジストリ内の特定のモデルバージョンに関連付けられるようになりました。モデルレジストリを中心として、モデルに関する文書を確認することができますね。
AWSブログでも具体的な例が紹介されていました。
SageMaker JumpStartがLlama2基盤モデルをサポート
MetaのLlama2基盤モデルをAmazon SageMaker JumpStartで利用可能になりました。
Llama2の利用については、チームメンバーのnokomoro3さんがリリース直後にブログとして検証内容を公開してくれました。
Feature Storeがクロスアカウントの共有・検出・アクセスをサポート
AWSアカウント間での特徴量グループの共有・検索・アクセスを簡単にできるようになりました。AWS Resource Access Manager (RAM) を使って他のアカウントの特定の特徴量グループにアクセス権を付与する仕組みとのことです。
アクセス権が付与されたアカウントは、SageMaker StudioかSDKから特徴量グループを表示できるようになります。
SageMaker CanvasのMLアーティファクト出力先のS3の場所を指定可能に
訓練済みモデル、レポート、推論結果のようなMLアーティファクトを出力するS3の場所を指定可能になりました。
SageMakerドメインやユーザープロファイルを設定する際に、独自のカスタムS3ロケーションを指定することで、例えばユーザーごとに保存先を分けるようなことができるそうです。
SageMaker Canvasがドキュメントへのクエリをサポート
Amazon Textractが提供するDocument Queries機能をサポートし、自然言語を使用して構造化ドキュメントからデータを抽出できるようになりました。
SageMaker CanvasのモデルをQuickSightで利用可能に
SageMaker Canvasで作成したモデルにより、QuickSightで予測を生成できるようになりました。
QuickSightのビルトインの予測機能はML Insightのランダムカットフォレストモデルですが、SageMaker Canvasと連携することで、ノーコードでモデルを作成し、QuickSightで利用できます。
具体的な使い方は以下の開発者ガイドで紹介されています。
SageMaker Canvasで目標メトリックの選択が可能に
これまでは問題のタイプに対して単一のデフォルトの目的メトリックのみをサポートしていましたが、サポートされているメトリックのリストから目的メトリックを選択できるようになりました。
APIのアップデート
CreateAutoMLJobV2 APIで時系列予測をサポートしました。
推論エンドポイントのローリングデプロイをサポートしました。
SageMaker Inference Recommenderで新しいフィールドをサポートしました。
Search APIのレスポンスでProfilerConfig
を取得できるようになりました。
-2023/07/27 - Amazon SageMaker Service - 1 updated api methods
Amazon Translateのアップデート
カスタム用語集機能を強化
カスタム用語集機能の強化により、登録したカスタム用語に合わせて、文脈にあった流暢な翻訳を実現してくれるようです。
Amazon Transcribeのアップデート
Toxicity Detectionのための引数を追加
ヘイトスピーチ・ハラスメント・脅迫を含む有害な言葉を特定・分類するための引数が追加されました。
なお、Amazon Transcribe Toxicity Detectionについては以下に紹介があります。
Amazon Personalizeのアップデート
ユーザー行動の変化を考慮したバッチレコメンデーションが可能に
イベントトラッカーを作成し、バッチ推論ジョブを実行することで、モデルの再トレーニングを必要とせずにユーザー行動の変化を考慮したレコメンデーションを生成できるようになりました。
開発者ガイドの『Recording events』ページで紹介されているAWS CLIの例を確認すると、イベントトラッカーをデータセットグループに紐づけて作成することが分かります。この関連付けによりレコメンデーションを生成時にバッチ推論ジョブがイベントトラッカーのデータを考慮するようになると思われます。
aws personalize create-event-tracker \ --name MovieClickTracker \ --dataset-group-arn arn:aws:personalize:us-west-2:acct-id:dataset-group/MovieClickGroup
OpenSearchとの統合
OpenSearchで、ユーザーごとに検索結果をパーソナライズできるようになりました。
OpenSearchでAmazon Personalize Search Rankingプラグインを使用することで、連携するようです。
Amazon Auroraのアップデート
Aurora PostgreSQLがpgvectorをサポート
pgvectorはPostgreSQLをベクトルデータベースとして利用するためのオープンソースの拡張モジュールです。PostgreSQLのデータベースに格納したベクトルに対して類似度検索を実行することができます。
Aurora Serverless v2での使用例を以下のブログでご紹介しました。このアップデートにより、自分のAWSアカウント内で非常に簡単にベクトルデータベースを構築することができます。
Amazon Redshift MLのアップデート
Amazon Forecast と統合
Amazon Redshift MLから、時系列予測サービスであるAmazon Forecastを活用できるようになりました。
RedshiftでSQLを実行し、Forecastの予測子の作成や、推論の作成ができるようになります。東京リージョンでも使用可能です。
Amazon Pollyのアップデート
ボイスの追加を発表
オランダ語 (ベルギー)のボイスが追加されました。
Google Cloud
Vertex AIのアップデート
モデル評価が一般提供開始
Vertex AIのモデル評価が一般提供開始しました。
公平性のモデル評価を含む、一部機能はプレビューとのことでした。
- Model evaluation with sliced metrics.
- Model evaluation with fairness and bias metrics.
- Vision error analysis for AutoML image classification models.
チャット用のPaLM 2が一般提供開始
チャット用のVertex AI PaLM APIでchat-bisonのサポートが一般提供開始されました。
text-bisonへのバッチリクエストが一般提供開始
text-bisonへのバッチリクエストが一般提供開始しました。
Imagen on Vertex AIで複数機能がGAに
以下の機能がGAになりました。(ただし、*がついたものはRestricted access feature)
- Image generation (text-to-image generation)*: テキストから画像を生成
- Image editing*: テキストを入力して画像を変換
- Image visual captioning: 画像の説明を生成
- Visual Question Answering (VQA): 画像に対する説明の回答
BigQuery MLのアップデート
前処理関数が一般提供開始
BigQuery MLの前処理用関数が一般提供開始になりました。
以下の関数があります。
- ML.IMPUTER
- ML.LABEL_ENCODER
- ML.MAX_ABS_SCALER
- ML.MULTI_HOT_ENCODER
- ML.NORMALIZER
- ML.ONE_HOT_ENCODER
- ML.ROBUST_SCALER
特にML.ROBUST_SCALERのページによると、以下のようにSQLで実行が可能でとても便利です。BigQueryにデータを入れてしまえば、前処理用の関数を使ったモデルでもVertex AIのModel Registryに登録できるようになったのは非常に強力ですね。
SELECT f, ML.ROBUST_SCALER(f) OVER () AS output FROM UNNEST([NULL, -3, 1, 2, 3, 4, 5]) AS f ORDER BY f;
+------+---------------------+ | f | output | +------+---------------------+ | NULL | NULL | | -3 | -1.6666666666666667 | | 1 | -0.3333333333333333 | | 2 | 0.0 | | 3 | 0.3333333333333333 | | 4 | 0.6666666666666666 | | 5 | 1.0 | +------+---------------------+
カスタムホリデーモデリングがプレビューに
時系列モデルにおいて、カスタマイズした休日設定を取り込む機能がプレビューになりました。
CREATE MODEL syntaxを見ると、custom_holiday
が追加されています。
使い方は以下のチュートリアルから確認できます。
ARIMA_PLUS_XREGモデルが一般提供開始
多変量時系列予測のためのARIMA_PLUS_XREGモデルがサポートされました。
新しいExplainable AI機能を追加
モデルの説明するための機能が強化されました。
ML.EXPLAIN_FORECAST
をARIMA_PLUS_XREGモデルに適用できるようにML.EXPLAIN_FORECAST
で休暇の効果を説明できるようにML.EXPLAIN_FORECAST
をAutoML Tablesに適用可能にML.EXPLAIN_PREDICT
でapprox_feature_contribオプションが利用可能に
イベント・サービス情報
相談会
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。
データ分析相談会のお申込みはこちらです。
機械学習システム導入支援サービスについて
AWSやGoogle Cloudなどパブリッククラウドにて、機械学習サービスを活用したシステムの導入支援を行います。詳しくは以下のページをご覧ください。
例えば以下のようなケースをご支援しています。
- ECサイトのレコメンドシステムを構築し、利用者にパーソナライズされたおすすめ商品を提示する
- SNSや問い合わせのログなどから、テキストマイニングを活用したインサイトの発見する
- 画像解析により、工場における不良品検出や農業・畜産業分野での生育管理を効率化する
- 売上や消費者の行動などから、将来の需要を予測する
最後に
2023年7月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
データアナリティクス通信(機械学習編) - 2023年8月号は以上です。