クラスメソッド データアナリティクス通信(機械学習編) – 2024年1月号

2023年12月分のAWSおよびGoogle Cloudの機械学習関連サービスのアップデート情報をお届けします。
2024.01.09

データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。

クラスメソッド データアナリティクス通信(機械学習編) の2024年1月号です。2023年12月分のアップデート情報をお届けできればと思います。

はじめに

AWSでは、SageMakerのトレーニングジョブへのログインや、コンテナビルド・動作検証のためのStudio Local Mode機能の提供がありました。コンテナを使うことで実行環境に依存せずSageMakerで機械学習処理を実行できていましたが、一方でトラブルシュートがしにくいという難点がありました。これらの機能を使うことにより、大きくSageMakerでのコンテナ利用がしやすくなりました。

Google Cloudでは、LLMの強力なアップデートがありました。特にマルチモーダルもサポートしたVertex AI Gemini modelsの発表は印象深かったと思います。また、DataplexデータカタログとVertex AIの統合がGAとなるなど、ガバナンス面での重要なアップデートもありました。

それでは各々のアップデートを振り返って行ければと思います。

※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。

AWS

Amazon SageMaker Canvasのアップデート

Amazon SageMaker Data Wranglerによる包括的なデータ準備機能のサポートを開始

SageMaker Data Wranglerを統合し、包括的なデータ準備機能をサポートしました。コードを書くことなく、機械学習のデータ準備にかかる時間を短縮できます。

並列処理により最大20%の高速化を実現

Amazon SageMakerモデル並列ライブラリ(SMP)のメジャーバージョンリリースが発表されました。PyTorch完全シャーディングデータ並列(FSDP APIとの互換性がサポートされ、深層学習モデルのトレーニングが最大20%高速化できるそうです。

分散学習のため、アクセラレーターデバイスを増やしても、オーバーヘッドにより思ったより高速化されなかったというケースはありがちですが、SMPのコードを数行足すだけでより効率的に分散学習ができるということはぜひ覚えておきたいですね。

デバッグを目的としたモデルトレーニングコンテナへのアクセスの提供を開始

モデルのトレーニング環境にリモート接続できるようになりました。機械学習の訓練は1回あたりの時間が大きくかかることがあるため、何か不具合がある場合に学習環境で何が起こっているか直接検証できない場合は、コードを直して再実行としていると時間がかかることがあります。トレーニングコンテナへ直接アクセスできるようになったことで、検証がしやすくなります。

DevelopersIOでも記事が公開されています。

Studio Local Modeを提供開始

Studio内でDockerイメージを構築し、動作確認を行うためのStudio Local Modeが提供されました。

APIのアップデート

コンパイルジョブを削除するための新しいAPIが追加されました。また、各種APIのアップデートがありました。

Amazon Rekognitionのアップデート

精度の向上とレイテンシーの低減をしたFace APIバージョン7をリリース

画像や動画に含まれる顔を分析するためのFace APIについて、新しいバージョンがリリースされました。性能が向上したほか、レイテンシーが低減されてほぼリアルタイムとなったそうです。

Face Livenessの精度とユーザーエクスペリエンスを向上

サービスにアクセスしているユーザーが実在の人物なのか、偽物なのかを検出するためのFace Livenessについて、モデルの精度向上と新しいUIを発表しました。Face Livenessを使うことで、プレゼンテーション攻撃 (印刷された写真をカメラに映し出すなど) やデジタルインジェクション攻撃 (カメラをバイパスするソフトウェアを使用するディープフェイクビデオなど) などに対する防御を行うことができます。

Amazon Textractのアップデート

AnalyzeDocument APIのForms機能の品質向上を発表

最新のフォーム機能では、住宅ローン申請書・保険の申請書・納税申告書・入国審査の文書など、さまざまな形式のキーと値のペアの抽出精度が向上したそうです。

Amazon Bedrockのアップデート

APIのアップデート

Knowledge Bases for Amazon Bedrockで、Amazon Auroraをベクトルストアとして使う場合のAPIが更新されました。

Google Cloud

Vertex AIのアップデート

Vertex AI Gemini modelsがプレビューに

テキスト用のGemini Pro、マルチモーダルなGemini Pro VisionがVertex AIからプレビュー版として利用可能になりました。

以下の記事をはじめ、DevelopersIOでも検証記事を公開しています。

PaLM 2 for TextでUnicorn modelがGAに

text-unicornが一般提供開始になりました。

PaLM 2の新しいバージョンのモデルが利用可能に

以下の新しいモデルが利用可能になりました。

  • text-bison@002
  • chat-bison@002
  • code-bison@002
  • codechat-bison@002
  • code-gecko@002
  • textembedding-gecko@003
  • imagegeneration@005

モデルとデータセットメタデータのDataplexデータカタログ統合がGAに

DataplexデータカタログでVertex AIアセットを検索できるようになりました。

この機能については、昨年9月のGoogle Cloud Next '23時点でプレビュー提供の機能でした。以下のセッションレポートでも少し触れました。

根拠付け機能がプレビュー提供に

text-bisonモデルとchat-bisonモデルで、predict呼び出し時にgroundingConfigオプションであらかじめ作成しておいたデータストアを指定することができます。

セキュリティコントロールが利用できる機能が追加

以下の機能で、セキュリティ管理が利用可能になりました。

  • Embeddings for Multimodal online prediction
  • Imagen on Vertex AI online prediction
  • Imagen on Vertex AI tuning

Text-to-Speechのアップデート

de-DEとfr-FRのスタジオボイスを提供

de-DE-Studio-B・de-DE-Studio-C・fr-FR-Studio-A・fr-FR-Studio-Dが提供されました。

Cloud Visionのアップデート

モデルの改善を発表

以下のタスクについて、builtin/latestモデルによる性能向上を発表しました。

  • Text detection and documentation text detection (OCR)
  • Web detection
  • Logo detection
  • Object localization

BigQueryのアップデート

ML.TRANSFORM機能がプレビューに

CREATE MODEL文のTRANSFORM句で指定した前処理結果を返すML.TRANSFORM機能がプレビュー版で利用できるようになりました。

また、変換だけを定義したモデルも作成可能になりました。

イベント・サービス情報

ブログリレー企画の開催

12月は技術ブログではアドベントカレンダーの季節ということで、機械学習チームでは今年はブログリレーを開催しました。テーマはGoogle CloudのAI/MLサービスになります。

相談会

クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。

このようなことでお困りではないですか?

企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。

データ分析相談会のお申込みはこちらです。

機械学習システム導入支援サービスについて

AWSやGoogle Cloudなどパブリッククラウドにて、機械学習サービスを活用したシステムの導入支援を行います。詳しくは以下のページをご覧ください。

例えば以下のようなケースをご支援しています。

  • ECサイトのレコメンドシステムを構築し、利用者にパーソナライズされたおすすめ商品を提示する
  • SNSや問い合わせのログなどから、テキストマイニングを活用したインサイトの発見する
  • 画像解析により、工場における不良品検出や農業・畜産業分野での生育管理を効率化する
  • 売上や消費者の行動などから、将来の需要を予測する

最後に

2023年12月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。

データアナリティクス通信(機械学習編) - 2024年1月号は以上です。