クラスメソッド データアナリティクス通信(機械学習編) – 2023年7月号

2023年6月分のAWSおよびGoogle Cloudの機械学習関連サービスのアップデート情報をお届けします。
2023.07.10

データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。

クラスメソッド データアナリティクス通信(機械学習編) の2023年7月号です。2023年6月分のアップデート情報をお届けできればと思います。

はじめに

AWSではAmazon SageMaker Feature Storeのfeature processingの機能がとてもよいなと思いました。例えばOne-HotエンコーディングなどAthena SQLでやりにくい処理を、Feature StoreからSparkランタイム環境にオフロードして実行することで、簡潔なワークロードを構築できそうです。

また、Amazon Rekognitionのユーザーベクトルもとても印象的でした。より精度の高い顔認証を実現でき、安全性やユーザー体験に直接的に効果を出せそうで、顔認証用のエンジンとしてより強力になったと思います。

Google CloudではVertex AI Codey APIが一般提供開始になったのが印象的でした。6/7にプレビューのアナウンスがありましたが、6月中に一般提供が開始されておりすごいスピード感でした。コード生成・質問・補完を現在時点で14言語で行うことができるようです。

Vertex AI Model GardenもGAとなっており、生成AI利用への勢いとスピード感を感じますね。

それでは各々のアップデートを振り返って行ければと思います。

※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。

AWS

Amazon SageMakerのアップデート

Automatic Model Tuningの設定を自動で選べるように

Automatic Model Tuningで、提供された目的指標にもとづいて、設定を自動的に選択できるようになりました。

以下の設定が自動選択対象とのことです。

  • ハイパーパラメータの範囲
  • 検索ストラテジー
  • チューニングジョブの最大実行時間
  • トレーニングジョブの早期停止タイプ
  • トレーニングジョブの再試行回数
  • チューニングジョブを停止するモデル収束フラグ

ハイパーパラメータの自動探索のノウハウが少なくても、妥当な設定でチューニングジョブを実行し、効果的な実験が可能になりますね。

AWS Machine Learning BlogでSDKからの実行例が紹介されていました。

SageMaker Canvasでデータセット更新時のワークフロー自動実行をサポート

ローカルアップロードとAmazon S3のデータセットの更新により、最新バージョンのデータセットでのモデルのトレーニングおよびバッチ予測ワークフローの実行ができるようになりました。

SageMaker Canvasの利用例は例えば以下で紹介していて、データセットのアップロードについても記載があるのでご興味があればご覧ください。

SageMaker Pipelinesでワークフロー内の一部分の再実行をサポート

Selective Executionsにより、パイプライン内の必要なステップをサブワークフローとして実行できるようになりました。パイプライン全体の再実行をせずに、パイプライン内で選択したステップのみを実行することができます。

SageMaker Feature Storeでデータを取得する際にデータの加工ができるように

feature processingの機能により、SageMaker Feature Storeでデータを取得する際にデータの加工ができるようになりました。

例えば、Amazon SageMaker Feature Store Python SDKからデコレーターをインポートし、変換関数を作成することで、特徴量の作成をするためのSparkランタイム環境を立ち上げることができるようでした。詳細は以下の開発者ガイドをご確認ください。

TIIのFalcon 40B基盤モデルがSageMaker JumpStartで利用可能に

Falcon 40Bは400億パラメータの大規模言語モデル(LLM)です。Apache 2.0ライセンスで利用可能です。Amazon SageMaker JumpStartから利用できるようになりました。

利用例がAWS Machine Learning Blogで紹介されていました。

新しいHugging Face LLMディープラーニングコンテナが利用可能に

人気のあるオープンソースのLLMに対して、高性能なテキスト生成を可能にするためのText Generation Inference(TGI)を搭載した、新しいHugging Faceディープラーニングコンテナ(DLC)のリリースが発表されました。サービスとしてLLMモデルをホストすることは非常に難度が高いことですが、SageMakerとこの新しいDLCにより、強力なサポートを得ることができるそうです。

SageMaker Inference Recommenderがコンソールから利用可能に

SageMaker Inference Recommenderがコンソールから利用可能になりました。また、モデルをデプロイするインスタンスの候補を提案するようになりました。

コンソールから確認すると、推論メニューの推論レコメンダーからアクセスできることを確認できました。

推論レコメンダー

SageMaker NeoでInferentia2・Trainium1インスタンス向けのPyTorch・TensorFlowモデルのコンパイルをサポート

Amazon SageMaker NeoでPyTorchモデルおよびTensorFlowモデルをコンパイルするターゲットとして、Inferentia2とTrainium1を選択できるようになりました。

SageMaker Data WranglerがSnowflakeから直接データ取得ができるように

SageMaker Data WranglerでSnowflakeからデータ取得ができるようになったため、S3バケットなどを介することなく直接取得できるようになりました。

より具体的なイメージはAWS Machine Learning Blogの記事をご確認下さい。

AWS CDKがSageMaker Role Managerに対応

AWS CDKでSageMaker Role Manager向けのライブラリが提供されました。

Amazon Sagemaker AutopilotのAPIアップデート

CreateAutoMLJobV2およびDescribeAutoMLJobV2のリリースがありました。

AWS API Changes

Amazon Fraud Detectorのアップデート

Amazon EventBridgeと統合

Amazon EventBridgeとの統合により、イベントオーケストレーション機能が追加されました。

この機能を使うと、以下のようにAmazon Fraud Detectorからほかのサービスとの連携が可能になります。

  • イベントをBIダッシュボードに送信する
  • 不正検出の結果に基づいてAmazon SNSで通知を送る
  • LambdaやStep Functionsを起動してカスタム処理を実行する

APIアップデート

変数の作成でDateTime型をサポートしました。

AWS API Changes

Amazon Rekognitionのアップデート

ユーザーベクトルにより顔検索の精度が大幅に向上

顔のベクトル表現であるフェイスベクトルを複数集約したユーザーベクトルを作成できるようになりました。

一つのフェイスベクトルを使うよりも、そのベクトルの元となった顔画像を撮った際の明るさや角度などを考慮したよりロバストな表現を生成できるため精度が向上すると考えられます。

認証がより確実になることで、安全性も高まり、ユーザー体験もよくなりますね。

APIアップデート

APIアップデートも、顔検索の精度向上に関するものが発表されていました。

AWS API Changes

Amazon Personalizeのアップデート

VPCエンドポイント経由での通信をサポート

VPCエンドポイントを経由してAmazon Personalizeに接続できるようになりました。VPC内からインターネットに出ずにアクセスしたい場合に利用できます。

入力またはクエリアイテムのプロパティに基づいてフィルタリング可能に

入力アイテムまたはクエリアイテムのプロパティに基づいて、関連アイテムレシピのレコメンデーションをフィルタリングできるようになりました。

フィルタの使い方はFiltering recommendations and user segmentsをご確認下さい。

また、具体例として以下のビデオオンデマンドサービスでの活用例が公開されていましたのでご紹介します。

Google Cloud

BigQueryのアップデート

リモートモデルとしてSQLから生成AIを利用できる機能がプレビューになりました。

Vertex AIのアップデート

Vertex AIのGenerative AIサポートが一般提供開始しました。

以下のモデルおよび機能が対象となります。

  • PaLM 2 for Text: text-bison
  • Embedding for Text: textembedding-gecko
  • Generative AI Studio for Language

Vertex AI Model Gardenが一般提供開始しました。

Vertex AI Codey APIが一般提供開始になりました。コード生成・コード補完・コードチャットAPIができます。APIはus-central1リージョンからアクセスでき、Generative AI studioまたはRESTコマンドで利用可能とのことです。

以下のAPIがあります。

  • code generation API
  • code chat API
  • code completion API

Google Cloud Pipeline Components (GCPC) SDK v2およびKubeflow Pipelines (KFP) SDK v2がGAになりました。

Example-based explanationsもGAになりました。

Vertex Predictionのアップデート

batch prediction requestでマルチリージョンのBigQueryテーブルを入出力先に指定できるようになりました。

イベント情報

Classmethod Showcase Data Analytics & Management(開催済み)

6/15(木)に『生成AIだけじゃない!ビジネス課題を解決するAI/MLプロダクトのご紹介』というタイトルで、機械学習チームメンバーで登壇しました。

生成AIとこれまでの機械学習の仕組みの使い分けについて発表した内容をブログにもしましたので、活用をご検討されている方はぜひご覧下さい。

相談会

クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。

このようなことでお困りではないですか?

企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。

データ分析相談会のお申込みはこちらです。

最後に

2023年6月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。

データアナリティクス通信(機械学習編) - 2023年7月号は以上です。