クラスメソッド データアナリティクス通信(機械学習編) – 2023年4月号

2023.04.10

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部の鈴木です。

クラスメソッド データアナリティクス通信(機械学習編) の2023年4月号です。2023年3月分のアップデート情報をお届けできればと思います。

AWSでは、モデルの改善のための実験をよりスピードを上げて行うためのアップデートが印象的でした。例えば、Amazon ComprehendでFlywheels機能が提供され、対応するモデルの再学習が簡単になりました。Amazon SageMaker Canvasは、パフォーマンスの最適化により、より高速で正確なモデルトレーニングが提供されるようになりました。

Google Cloudでは、BigQueryでTF_VERSIONオプションおよびXGBOOST_VERSIONオプションで使用するライブラリのバージョンを指定できるようになったのが嬉しいですね。

それでは各々のアップデートを振り返って行ければと思います。

※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。

AWS

Amazon Comprehendのアップデート

モデルの再トレーニングとバージョン管理を簡素化するself-service flywheel APIが発表されました。

この機能を使用して、再トレーニング用の新しいデータセットを提供するだけでカスタムモデルの再トレーニングが実行できるようになりました。既存のデータセットと新しいデータセットを自動的にマージして、モデルを再トレーニングします。さらに管理している以前のバージョンに対してモデルのパフォーマンスを表示し、本番モデルとして最適なバージョンを選択できます。 プレーンテキストのドキュメントでトレーニングされたカスタムComprehend名前付きエンティティ認識 (NER) とドキュメント分類のカスタムモデルで利用可能です。

プレーンテキストのドキュメントでトレーニングされたカスタムComprehend名前付きエンティティ認識 (NER) とドキュメント分類のカスタムモデルで利用可能です。

使用例は以下のAWS Machine Learning Blogでも紹介されています。

一部APIでは、FlyWheelArnを返却するようにアップデートされました。

Amazon SageMakerのアップデート

Amazon SageMaker Canvasは、パフォーマンスの最適化により、より高速で正確なモデルトレーニングが提供されるようになりました。これにより、反復的なプロトタイピングと実験がしやすくなり、より良い予測を生成するまでの時間を短縮できます。

データセットにはよりますが、クイックビルドモデルは7分未満、スタンダードビルドモデルは2時間未満で取得できるようになったそうです。また、特徴量重要度も見られるようになりました。

Amazon SageMaker Data Wranglerでは、ビッグデータ向けのクエリエンジンとして、EMR Hiveに接続して大規模なデータセットの取り込みが可能になりました。

このアップデートに関しては、以下のAWS Machine Learning Blogに記事が公開されています。

Amazon SageMaker AutopilotにCreateAutoMLJobV2DescribeAutoMLJobV2というAPIが追加されました。またノートブックインスタンスに、インタラクティブな地理空間ノートブックを起動できるml.geospatial.interactiveインスタンスタイプが追加されたことも分かりました。

地理空間ノートブックのための新しいインスタンスタイプについては、Amazon SageMaker を使用した地理空間機械学習 (プレビュー)のドキュメントも記載がありました。

SageMaker Python SDKでは、IAMロール・VPC・KMSキーなどのパラメータのデフォルト値設定に対応しました。

Amazon Forecastのアップデート

Amazon Forecastが251か国の祝日のデータをサポートするようになりました。Amazon Forecastでは組み込みの「祝日」や「天気」の情報をモデルトレーニングに含めるオプションが用意されています。「祝日」のオプションを選択する際に、251か国から選択できるようになりました。

Amazon Textractのアップデート

Amazon TextractのAPIについて、AnalyzeDocumentのテーブル機能に、table titles・footers・section titles・summary cells/tables・table typeの要素が追加されました。

なお、2023/4/3のAmazon Textract announces updates to the AnalyzeDocument - Tables featureでも紹介されているので併わせてご覧ください。

Amazon Chimeのアップデート

Amazon Chime SDKがリアルタイムでの通話分析を提供するようになりました。

Amazon Translateのアップデート

非同期バッチ翻訳の対応リージョンが拡大し、東京リージョンでも利用できるようになりました。

Google Cloud

Vertex AIのアップデート

Vertex AIで使えるビルド済みコンテナで、TensorFlow 2.11・PyTorch 1.12・PyTorch 1.13がGAになりました。

Vertex AI Workbenchでは、M104およびM105のリリースがありました。

BigQuery MLモデルがVertex AIモデルレジストリに登録されていて、Explainable AIでサポートされているモデルタイプの場合は、エンドポイントにデプロイするときに、Explainable AIを有効にできるようになりました。

Vertex AI Feature Storeでエンティティタイプ内の複数のエンティティから特徴量を削除する機能がGAになりました。

Vertex AI Visionの一部モデルで、処理結果をCloud FunctionsによってPub/Subに送ることができるようになりました。

Text-to-Speechのアップデート

長い音声の合成に対応しました。5KBより長いテキストを合成が可能になります。

Studio Voices(プレビュー版)に、スペイン語のcloud-es-US-Studio-Bの声が使用可能になりました。

BigQueryのアップデート

BigQuery MLでモデル学習時にTF_VERSIONオプションでTensorFlowのバージョンの指定が可能になりました。 XGBOOST_VERSIONオプションではモデル学習時のXGBoostのバージョンも指定可能です。

また、INSTANCE_WEIGHT_COLオプションを使用し、学習データセットの各データポイントの重みを含む列を指定できるようになりました。ランダムフォレストなど決定木系モデルでのみ利用可能です。

Document AI Warehouseのアップデート

以下のDocAI Warehouse Pipelinesがプレビューになりました。

プレビュー版のBigQuery Connectorにより、BigQueryにドキュメントメタデータを出力できるようになりました。

イベント情報

クラスメソッドで開催している機械学習・データ活用に関するイベント情報です。

相談会

クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。

このようなことでお困りではないですか?

企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。

データ分析相談会のお申込みはこちらです。

最後に

2023年3月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。

AWSでは、モデルの改善のための実験をよりスピードを上げて行うためのアップデートが印象的でしたね。1度の試行を簡単かつ短時間で回せるようになると、それだけ改善のスピードが上がります。

Google Cloudでは、BigQueryで新規オプションで使用するライブラリのバージョンを指定できるのが嬉しいです。使用するライブラリを固定することで、トラブルシュートや細かい挙動の理解に便利になりそうです。

データアナリティクス通信(機械学習編) - 2023年4月号は以上です。