クラスメソッド データアナリティクス通信(機械学習編) – 2022年12月号
データアナリティクス事業本部の鈴木です。
先月から始まりましたクラスメソッド データアナリティクス通信(機械学習編) の12月号です。
今月は特にAWSでre:Invent2022が開催されるため、少し早いですが現時点までのアップデートを12月号としてご紹介します。
機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。
AWS
SageMaker Autopilotに関するアップデート
一括でバッチ推論が実行できるようになりました。
これまでAutopilotでバッチ推論をするには、以下の手順を踏む必要がありましたが、一括できるようになりました。
- DescribeAutoMLJob APIを使用して一覧を取得する。
- 取得されたコンテナ定義を使ってCreateModel APIでモデルを作成する。
- CreateTransformJob APIでSageMaker変換ジョブを作成する。
- それらをプログラムで呼び出してバッチ推論を実行する。
また、アンサンブル学習モードで各試行の結果を確認し、最適なモデル候補を選択することが可能になりました。
Personalizeのオンライン評価指標の計算機能
イベント記録を用いたオンラインでの評価指標の計算が可能になりました。追跡したいメトリックと計算する関数を定義すると、CloudWatchにてモニタリングができるようになったほか、S3にエクスポートすることでBIツールなどから分析することも可能です。レコメンデーションのクリック率(CTR)などの測定も可能になるので、AWSの仕組みを中心に使って手軽にモニタリングできるのはとてもよいですね。
Forecastでコールドスタート予測に対応する新しいオプションの発表
メタデータを使用して類似商品の情報から、まだ履歴のない新商品の時系列予測を改善する仕組みが発表されました。データセットに含まれる色・ブランド名・商品カテゴリーなどのメタデータから類似商品を特定し、それらの商品のデータを使って履歴のない商品に対しても従来より精度の高い予測ができるようになりました。
SageMaker JumpStartに追加された5つの新しいソリューション・モデルの紹介
最近追加されたSageMaker JumpStartのソリューションについて使用例を紹介するブログが公開されました。
ソリューションは以下の5種になります。
- 価格最適化
- 鳥類の物体検出
- 肺がん生存率予測(CT画像)
- 金融取引の分類(詐欺検出、パーソナライズ、または異常検出のステップを含む)
- 携帯電話顧客の解約予測
また、テキスト生成用のBloomモデルと画像生成用のStable Diffusionが追加されました。
Amazon Rekognitionでラベルに関する機能の強化
Amazon RekognitionのAPIにて、ImagePropertiesが追加され、ラベル検出機能にドミナントカラーと画像品質の情報が取得できるようになりました。
Developers IOでも早速検証した記事が公開されています。
関連して24日にはさらにラベルに関する追加機能がアナウンスされました。
これにより、新しいラベルや既存ラベルの精度改善、画像プロパティの利用とラベルによるAPIレスポンスのフィルタリング機能を利用できます。
具体的な例は開発者ガイドのDetecting labelsに記載があるのでご確認ください。
SageMakerのTensorFlowによる新しいビルトインアルゴリズムの情報
TensorFlowによるオブジェクト検出およびテキスト分類のビルトインアルゴリズムに関しての情報がAWS Machine Learning Blogにて公開されました。
TensorFlow 画像分類アルゴリズムについては2022/9/8にSageMaker組み込みアルゴリズムでTensorFlow画像分類アルゴリズムが利用可能ににてアナウンスされていましたが、TensorFlowに関しての組み込みアルゴリズムの続報としてオブジェクト検出およびテキスト分類が紹介されています。
画像分類に加えて、オブジェクト検出およびテキスト分類についてもTensorFlow Hubで利用できる多くの事前学習済みモデルでの転移学習が可能になりました。
転移学習に使用できる事前学習済みモデルについては、開発者ガイドの以下のページで各々紹介されています。
- オブジェクト検出: Object Detection - TensorFlow > TensorFlow Hub Models
- テキスト分類: Text Classification - TensorFlow > TensorFlow Hub Models
SageMaker Canvasに関するアップデート
まず学習・推論に利用するデータの相関行列が確認できるようになりました。
また、時系列予測について、インポートされたデータセットやMLモデルのアーティファクトなどの暗号化に、カスタマーマネージドキー (CMK) による暗号化をサポートしました。これにより、SageMaker Canvasで現在サポートされているすべてのユースケースがカバーされるようになりました。
SageMakerのトレーニングジョブがml.trn1インスタンスをサポート
SageMakerトレーニングジョブで、AWS Trainiumチップを搭載した ml.trn1インスタンスをサポートするようになりました。
Textractのアップデート
Amazon Textractはドキュメントからテキストやデータを簡単に自動抽出してくれるサービスです。利用イメージとしては、以下のブログで紹介していました。
まず、AnalyseExpense APIについて機能強化がアナウンスされました。
OCR時にサポートされるフィールドが追加されました。例えば、サマリーフィールドにVendor Addressなど、ラインアイテムフィールドにProduct Codeなどが追加されました。また、既にサポートしていたフィールドについても精度を向上されました。
また、米国の運転免許証や米国パスポートなどのID文書からデータを抽出することに特化したAnalyze IDについてもMRZコード(Machine Readable Zone)のデータ抽出機能が追加されました。
AnalyzeDocument Signaturesという名前の、ローン申込書・小切手・クレームフォームなどの文書にある手書きの署名・電子署名・イニシャルを検出する機能も発表されました。
それぞれの機能については、リージョンは一部にて利用可能とのことです。また、Textractの日本語対応が待たれますね。
Google Cloud
Vertex AIのアップデート
カスタム予測ルーチン(CPR)がGAになりました。
カスタム予測ルーチン(CPR)を使用することで、HTTPサーバーのセットアップやコンテナをゼロから構築するような作業なしで、前処理・後処理コードを含んだカスタムコンテナを簡単に構築することができます。
カスタム予測ルーチンについては以下のドキュメントをご確認ください。
また、Vertex ML Metadataで、コンテキスト・実行・アーティファクトのフィルタリングが可能になりました。
Vertex ML Metadata を使用すると、機械学習システムによって生成されたメタデータの追跡と分析を行うことができ、システムの動作の分析に役立ちます。
今回追加になったフィルタの設定について以下のドキュメントに記載がありましたのでご確認ください。
BigQueryでJSON型が使えるように
BigQueryのJSON型が一般提供となった記事を公開しましたのでご紹介です。これでモデル作成のデータがJSONであってもデータを抽出して利用することができそうです。特にBigQuery MLではSQLで直接JSONにアクセスして利用できるのでとてもよいですね。
プレビューの機能のご紹介
以下は新しく追加されたプレビュー状態の機能になります。検証などでいち早く使ってみたい方はご確認ください。
まず、Vertex AIでFeature Transformがプレビューになりました。特徴選択および特徴変換を実行する機能になります。
またBigQueryのオブジェクトテーブルがプレビューになりました。
BigQuery MLおよびBigQueryリモート関数を使用して、画像、音声ファイル、ドキュメント、およびその他のファイル形式の分析および推論を実行可能になります。
イベント情報
クラスメソッドで開催している機械学習・データ活用に関するイベント情報です。
ウェビナー
来月2022/12/9(金)に「デモで解説!データ分析基盤かんたん構築ウェビナー RedshiftとQuickSightで作る売上分析」が開催予定です。このウェビナーはクラスメソッドのサービス「CSアナリティクス」を使ったデータ基盤のデモと合わせて、Amazon QuickSightを使った分析例をご紹介します。直接機械学習は登場しませんが、QuickSightではML機能の活用を検討されている方や、構造化データを活用した機械学習の準備例についてご興味がある方は是非ご確認ください。
また、今月8日に弊社にて開催された「ユースケースに学ぶ、事業に付加価値をもたらすAI・機械学習の活用方法」の振り返り記事が公開されました。機械学習基盤構築のご相談をご検討されている方は是非ご覧いただければと思います。
相談会
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
- 企業内に点在するデータを1箇所にまとめて分析したい
- クラウド上で分析基盤を導入したい・・・
- データを活用したいが、具体的に何から始めたらいいかわからない
機械学習相談会のお申込みはこちらです。お気軽にご相談ください。
データ分析相談会のお申込みはこちらです。
採用に関するイベント情報
クラスメソッドで開催している採用に関するイベント情報です。
定期的に開催しているデータ分析に関連ポジションに特化した説明会ですが、今回は12/9(金)にオンラインにて開催予定です。ご興味がある方はぜひご参加ください。
最後に
2022年11月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
11/28 - 12/2にかけてはAWS re:Invent 2022が開催されます。その影響もあってか、今月はAWS関連のアップデートがたくさんありました。期間中も多くの情報があると思われます。それらについてはDevelopers IOで随時ご紹介しつつ、2023年1月号にてピックアップできればと思います。
データアナリティクス通信(機械学習編) - 2022年12月号は以上です。