クラスメソッド データアナリティクス通信(機械学習編) – 2023年6月号
データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。
クラスメソッド データアナリティクス通信(機械学習編) の2023年6月号です。2023年5月分のアップデート情報をお届けできればと思います。
はじめに
AWSではAmazon SageMakerで生成モデル向けのアップデートがありました。Amazon Personalizeにてカラム選択ができる機能による使いやすさの改善やAmazon Rekognitionの視線の方向を検出する機能など、嬉しいアップデートが多数ありました。
Google CloudではVertex AIにて基盤モデルを利用しやすくするためのアップデートが着実に進んでいます。Vertex AIのカスタムトレーニングジョブの内容をVertex AI Experimentsに連携するアップデートも使いやすさを大きく向上させてくれると思います。
それでは各々のアップデートを振り返って行ければと思います。
※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。
AWS
Amazon Rekognitionのアップデート
コンテンツモデレーションの精度が向上
画像および動画に対するコンテンツモデレーションの精度向上が発表されました。新しいコンテンツモデレーションの機能により、さらに高い精度で露骨な表現や暴力的なコンテンツを検出することができます。
視線の方向を検出する機能が一般提供開始
視線の方向を検出する機能が一般提供開始しました。DetectFacesおよびIndexFacesのEyeDirection
属性に、人の視線方向のyaw(縦軸の回転)およびpitch(横軸の回転)角度の推定値が出力されます。
DevelopersIOでも以下の記事で紹介されています。
遮蔽物の検出機能が一般提供開始
顔認証の精度を向上させる顔のオクルージョン検知(マスクなど遮蔽物の検知)の一般提供も発表されました。
DetectFacesおよびIndexFacesのFaceOccluded
属性から確認することができます。
FaceOccluded
は、目・鼻・口の一部がキャプチャされて検出された場合や、顔がマスク・濃い色のサングラス・携帯電話・手・その他の物体で覆われている場合に、高い信頼度スコアでtrue
を返すそうです。この検出を使い、ユーザーに部分的に隠れていない顔画像をリクエストするような要件が満たせそうですね。
Amazon Personalizeのアップデート
モデルの訓練に使う特徴量を選択可能に
データセットのどの列をモデルの訓練に使用するかを選択できるようになりました。これにより、簡単に様々なカラムの組み合わせでモデルを訓練・評価できるようになったので、レコメンデーションモデルの開発がスピードアップしますね。
Amazon SageMakerのアップデート
Amazon SageMaker CanvasのモデルをSageMaker Model Registryにワンクリックで登録できるように
Amazon SageMaker CanvasのモデルをSageMaker Model Registryにワンクリックで登録できるようになりました。これによりSageMaker Model Registryを経由してAmazon SageMaker Canvasで作成したモデルを本番環境に、必要であれば承認フローを挟んでデプロイすることができます。
Amazon SageMaker Serverless Inferenceで同時実行をプロビジョニング可能に
サーバーレスエンドポイントで、事前に定義された量の同時実行リクエストに即応できる状態に保つことが可能になります。大量のトラフィックでも、設定した同時実行以内であれば、コールドスタートなしで処理可能です。
推論用のモデルのデプロイにml.inf2・ml.trn1ファミリーのインスタンスが利用可能に
リアルタイムおよび非同期推論用の機械学習 (ML) モデルのデプロイに、ml.inf2およびml.trn1ファミリーのインスタンスが利用可能になりました。規模言語モデル(LLM)やビジョントランスフォーマーなどの生成モデルをデプロイして、低コストかつ高性能な推論を実現できます。SageMaker Inference RecommenderなどSageMakerの便利な機能を利用できることも大きなポイントです。
Amazon SageMakerノートブックがml.p4d、ml.p4de、ml.inf1インスタンスをサポート
Amazon SageMaker Studioノートブックとノートブックインスタンスは、ml.p4dとml.p4deのGPUインスタンスをサポートしました。加えてノートブックインスタンスはml.inf1インスタンスもサポートしました。多くのパラメータを持つ巨大な機械学習モデルの訓練および推論に利用できますね。
SageMaker Autopilotで加重および8つの追加目標メトリクスを利用可能に
加重目標メトリクスでは、不均衡なデータセットのデータサンプルが他より大幅に少ない一部クラスに重みをつけることにより、より性能の高いモデル作成ができるようになりました。Autopilotで実験を作成する際、入力データセットに加重列名を渡せるようです。RMSE・MAE・R2・バランス正解率・適合率・適合率マクロ・再現率・再現率マクロの8つの目標メトリクスも新たにサポートしました。
Geospatial MLがGAに
SageMakerでの、地理空間データを使ったMLモデルの構築・トレーニング・デプロイまでを容易に実施するGeospatial MLがGAになりました。
re:Invent2022で発表されたプレビュー中の機能でした。地理空間データを使った機械学習モデルの開発がSageMakerでより便利にできるのは非常に嬉しい知らせです。
テキスト生成モデルを中心に、基盤モデルをJumpStart上でfine-tuningする機能が登場
Amazon SageMaker JumpStartで、大規模な言語モデル(特にテキスト生成モデル)を固有のデータセットでfine-tuningする機能を提供します。
Amazon SageMaker StudioのUIやSageMaker Python SDKを通じて、GPT-J 6BやGPT-J 6B FP16モデルなどの基盤モデルをJumpStart上でfine-tuningすることができます。
関連して、SageMaker JumpStartとAWS CDKを使って生成モデルをデプロイするソリューション例もAWS Machine Learning Blogで紹介されていました。
Amazon Sagemaker Data Wranglerが画像データの準備に対応
画像データに対してラベル付けおよびトレーニング・推論用のデータ準備をできるようになりました。
以下のブログに具体的にできることのイメージが掲載されていますが、ビルトインの変換を使ってリサイズやコントラストの強調ができることに加え、カスタム変換を使うことも可能のようです。
Ground Truth Plusで基盤モデル向けの機能が登場
Amazon SageMaker Ground Truth Plusで基盤モデルをfine-tuningすることを目的として高品質で大規模なデータセットの準備が可能になりました。
Amazon CodeWhispererをAmazon SageMaker Studioとノートブックインスタンスで利用可能に
Amazon SageMaker StudioとノートブックインスタンスのPythonノートブックで、拡張機能として利用可能になりました。ドキュメントにはインストール方法の紹介もあり、以下のアナウンスページからそれぞれ確認できます。
以下のAWS Machine Learning BlogでUIの例と一緒にインストール方法が紹介されているのである方は併せてご確認ください。
APIのアップデート
Amazon Textractのアップデート
AnalyzeDocument APIで利用可能なクエリ機能の品質向上
保険証書・保険金支払い宣言書・賃貸契約書・支払明細書・公共料金請求書など、新たに14種類の文書について、クエリ機能によるデータ抽出の精度が向上しました。
クエリ機能には、自然言語を使って文書から情報を抽出することができる機能です。以下のブログで紹介されています。
Google Cloud
Vertex AIのアップデート
Vertex AIのカスタムトレーニングジョブを、Vertex AI Experimentsからトラッキングできるようになりました。
Vertex AIパイプライン向けのスケジューラーAPIがプレビューで利用可能になりました。これにより、モデルの訓練をスケジュールできますね。
プレビューでVertex AIで生成モデルをテスト・チューニング・デプロイできるようになりました。
関連して、Vertex AI Model Gardenもプレビューで利用可能になりました。
GoogleおよびGoogleパートナーの公開している様々なモデルを検索して、機械学習プロジェクトをジャンプスタートするためのサービスになります。
Model GardenとGenerative AI Studioについては以下のブログ記事も出ていましたのでご紹介します。
Vertex AI Predictionのアップデート
固定数のNVIDIA L4 GPUがアタッチされたG2アクセラレータ最適化マシンタイプが利用できるようになりました。
1つのVM内でリソースを共有する、モデルの共同ホスティングが利用可能になりました。これまではREST APIからのみ利用できる機能でした。
Vertex AI Visionのアップデート
画像のバッチ処理がプレビューで利用可能になりました。画像がアップロードされたCloud Storageのパスを指定することで処理を実行し、指定したパスに出力してくれます。
Vertex AI Visionのための新しいPython SDKも利用可能になりました。
イベント情報
クラスメソッドで開催している機械学習・データ活用に関するイベント情報です。
Classmethod Showcase Data Analytics & Management
『生成AIだけじゃない!ビジネス課題を解決するAI/MLプロダクトのご紹介』というタイトルで、機械学習チームメンバーで登壇します。一般的な機械学習に対する解決策を導入として、弊社が開発中のKPIモニタリングソリューションや会議分析システムなどのAI/ML関連プロダクトについてご紹介します。6/15(木)にオンライン開催となります。
相談会
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。
データ分析相談会のお申込みはこちらです。
最後に
2023年5月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
生成モデルに関する機能アップデートは着実に進みつつも、それ以外の機械学習タスクに関する使いやすさの向上およびユースケース追加も積極的にされていました。新しく出た機能を自分達の日々の開発にも取り入れていければと思います。
データアナリティクス通信(機械学習編) - 2023年6月号は以上です。