クラスメソッド データアナリティクス通信(機械学習編) – 2023年7月号
データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。
クラスメソッド データアナリティクス通信(機械学習編) の2023年7月号です。2023年6月分のアップデート情報をお届けできればと思います。
はじめに
AWSではAmazon SageMaker Feature Storeのfeature processingの機能がとてもよいなと思いました。例えばOne-HotエンコーディングなどAthena SQLでやりにくい処理を、Feature StoreからSparkランタイム環境にオフロードして実行することで、簡潔なワークロードを構築できそうです。
また、Amazon Rekognitionのユーザーベクトルもとても印象的でした。より精度の高い顔認証を実現でき、安全性やユーザー体験に直接的に効果を出せそうで、顔認証用のエンジンとしてより強力になったと思います。
Google CloudではVertex AI Codey APIが一般提供開始になったのが印象的でした。6/7にプレビューのアナウンスがありましたが、6月中に一般提供が開始されておりすごいスピード感でした。コード生成・質問・補完を現在時点で14言語で行うことができるようです。
Vertex AI Model GardenもGAとなっており、生成AI利用への勢いとスピード感を感じますね。
それでは各々のアップデートを振り返って行ければと思います。
※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。
AWS
Amazon SageMakerのアップデート
Automatic Model Tuningの設定を自動で選べるように
Automatic Model Tuningで、提供された目的指標にもとづいて、設定を自動的に選択できるようになりました。
以下の設定が自動選択対象とのことです。
- ハイパーパラメータの範囲
- 検索ストラテジー
- チューニングジョブの最大実行時間
- トレーニングジョブの早期停止タイプ
- トレーニングジョブの再試行回数
- チューニングジョブを停止するモデル収束フラグ
ハイパーパラメータの自動探索のノウハウが少なくても、妥当な設定でチューニングジョブを実行し、効果的な実験が可能になりますね。
AWS Machine Learning BlogでSDKからの実行例が紹介されていました。
SageMaker Canvasでデータセット更新時のワークフロー自動実行をサポート
ローカルアップロードとAmazon S3のデータセットの更新により、最新バージョンのデータセットでのモデルのトレーニングおよびバッチ予測ワークフローの実行ができるようになりました。
SageMaker Canvasの利用例は例えば以下で紹介していて、データセットのアップロードについても記載があるのでご興味があればご覧ください。
SageMaker Pipelinesでワークフロー内の一部分の再実行をサポート
Selective Executionsにより、パイプライン内の必要なステップをサブワークフローとして実行できるようになりました。パイプライン全体の再実行をせずに、パイプライン内で選択したステップのみを実行することができます。
SageMaker Feature Storeでデータを取得する際にデータの加工ができるように
feature processingの機能により、SageMaker Feature Storeでデータを取得する際にデータの加工ができるようになりました。
例えば、Amazon SageMaker Feature Store Python SDKからデコレーターをインポートし、変換関数を作成することで、特徴量の作成をするためのSparkランタイム環境を立ち上げることができるようでした。詳細は以下の開発者ガイドをご確認ください。
TIIのFalcon 40B基盤モデルがSageMaker JumpStartで利用可能に
Falcon 40Bは400億パラメータの大規模言語モデル(LLM)です。Apache 2.0ライセンスで利用可能です。Amazon SageMaker JumpStartから利用できるようになりました。
利用例がAWS Machine Learning Blogで紹介されていました。
新しいHugging Face LLMディープラーニングコンテナが利用可能に
人気のあるオープンソースのLLMに対して、高性能なテキスト生成を可能にするためのText Generation Inference(TGI)を搭載した、新しいHugging Faceディープラーニングコンテナ(DLC)のリリースが発表されました。サービスとしてLLMモデルをホストすることは非常に難度が高いことですが、SageMakerとこの新しいDLCにより、強力なサポートを得ることができるそうです。
SageMaker Inference Recommenderがコンソールから利用可能に
SageMaker Inference Recommenderがコンソールから利用可能になりました。また、モデルをデプロイするインスタンスの候補を提案するようになりました。
コンソールから確認すると、推論
メニューの推論レコメンダー
からアクセスできることを確認できました。
SageMaker NeoでInferentia2・Trainium1インスタンス向けのPyTorch・TensorFlowモデルのコンパイルをサポート
Amazon SageMaker NeoでPyTorchモデルおよびTensorFlowモデルをコンパイルするターゲットとして、Inferentia2とTrainium1を選択できるようになりました。
SageMaker Data WranglerがSnowflakeから直接データ取得ができるように
SageMaker Data WranglerでSnowflakeからデータ取得ができるようになったため、S3バケットなどを介することなく直接取得できるようになりました。
より具体的なイメージはAWS Machine Learning Blogの記事をご確認下さい。
AWS CDKがSageMaker Role Managerに対応
AWS CDKでSageMaker Role Manager向けのライブラリが提供されました。
Amazon Sagemaker AutopilotのAPIアップデート
CreateAutoMLJobV2
およびDescribeAutoMLJobV2
のリリースがありました。
Amazon Fraud Detectorのアップデート
Amazon EventBridgeと統合
Amazon EventBridgeとの統合により、イベントオーケストレーション機能が追加されました。
この機能を使うと、以下のようにAmazon Fraud Detectorからほかのサービスとの連携が可能になります。
- イベントをBIダッシュボードに送信する
- 不正検出の結果に基づいてAmazon SNSで通知を送る
- LambdaやStep Functionsを起動してカスタム処理を実行する
APIアップデート
変数の作成でDateTime型をサポートしました。
Amazon Rekognitionのアップデート
ユーザーベクトルにより顔検索の精度が大幅に向上
顔のベクトル表現であるフェイスベクトルを複数集約したユーザーベクトルを作成できるようになりました。
一つのフェイスベクトルを使うよりも、そのベクトルの元となった顔画像を撮った際の明るさや角度などを考慮したよりロバストな表現を生成できるため精度が向上すると考えられます。
認証がより確実になることで、安全性も高まり、ユーザー体験もよくなりますね。
APIアップデート
APIアップデートも、顔検索の精度向上に関するものが発表されていました。
Amazon Personalizeのアップデート
VPCエンドポイント経由での通信をサポート
VPCエンドポイントを経由してAmazon Personalizeに接続できるようになりました。VPC内からインターネットに出ずにアクセスしたい場合に利用できます。
入力またはクエリアイテムのプロパティに基づいてフィルタリング可能に
入力アイテムまたはクエリアイテムのプロパティに基づいて、関連アイテムレシピのレコメンデーションをフィルタリングできるようになりました。
フィルタの使い方はFiltering recommendations and user segmentsをご確認下さい。
また、具体例として以下のビデオオンデマンドサービスでの活用例が公開されていましたのでご紹介します。
Google Cloud
BigQueryのアップデート
リモートモデルとしてSQLから生成AIを利用できる機能がプレビューになりました。
Vertex AIのアップデート
Vertex AIのGenerative AIサポートが一般提供開始しました。
以下のモデルおよび機能が対象となります。
- PaLM 2 for Text:
text-bison
- Embedding for Text:
textembedding-gecko
- Generative AI Studio for Language
Vertex AI Model Gardenが一般提供開始しました。
Vertex AI Codey APIが一般提供開始になりました。コード生成・コード補完・コードチャットAPIができます。APIはus-central1リージョンからアクセスでき、Generative AI studioまたはRESTコマンドで利用可能とのことです。
以下のAPIがあります。
code generation
APIcode chat
APIcode completion
API
Google Cloud Pipeline Components (GCPC) SDK v2およびKubeflow Pipelines (KFP) SDK v2がGAになりました。
Example-based explanationsもGAになりました。
Vertex Predictionのアップデート
batch prediction requestでマルチリージョンのBigQueryテーブルを入出力先に指定できるようになりました。
イベント情報
Classmethod Showcase Data Analytics & Management(開催済み)
6/15(木)に『生成AIだけじゃない!ビジネス課題を解決するAI/MLプロダクトのご紹介』というタイトルで、機械学習チームメンバーで登壇しました。
生成AIとこれまでの機械学習の仕組みの使い分けについて発表した内容をブログにもしましたので、活用をご検討されている方はぜひご覧下さい。
相談会
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。
データ分析相談会のお申込みはこちらです。
最後に
2023年6月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
データアナリティクス通信(機械学習編) - 2023年7月号は以上です。