クラスメソッド データアナリティクス通信(機械学習編) – 2023年3月号
データアナリティクス事業本部の鈴木です。
クラスメソッド データアナリティクス通信(機械学習編) の2023年3月号です。2023年2月分のアップデート情報をお届けできればと思います。
AWSでは、特にAmazon Fraud Detectorが使いやすいように改善されているのが印象的でした。不正検知モデルをマネージドな環境で構築・運用できるサービスですが、これまでと比べて少ないデータ量からでも開始できるようにコールドスタート機能がサポートされたほか、データをインポートする際に分かりやすいようスマートデータ検証機能が追加されました。
Google Cloudでは、プレビュー版ですがVertex AI Pipelinesで、テンプレートギャラリーの機能が公開されました。
それでは各々のアップデートを振り返って行ければと思います。
※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。
AWS
Amazon Fraud Detectorのアップデート
まず、Amazon Fraud Detector (AFD) がコールドスタート機能の提供を開始しました。従来は、モデルの学習のため、1万件以上のラベル付きイベント(うち少なくとも400件の不正事例を含む)を用意する必要がありました。 このアップデートにより、わずか50件のラベル付き不正イベントと50件のラベルなしイベントのみでモデルの訓練が可能になりました。
また、不正防止に利用するためのLists機能も提供を開始しました。 例えば、不正行為を行う既知のIPアドレスからの支払いをブロックするなど、特定のアクションのためのルールで属性値のリストを作成し、動的に更新できるそうです。 リストは、最大10万件の値を含むことができ、電子メールアドレス・IPアドレス・電話番号・カードBINなどの、AFDがサポートする変数タイプにすることができます。
スマートデータ検証により、ユーザーがAFDにデータをバッチインポートする際に、モデルに合わせてデータを検証し、データの異常などのレポートを出力できるようになりました。
Amazon SageMakerのアップデート
SageMaker Automatic Model Tuningで、ハイパーパラメータ最適化のチューニングジョブの完了条件を3つ追加されました。 以前は、最大学習ジョブまたは目的メトリクスのいずれかを指定可能でしたが、このアップデートにより正確性・コスト・ランタイムの中で希望するトレードオフに基づいてチューニングジョブの終了条件をカスタマイズできるようになりました。
追加された完了条件は以下の3つになります。
- MaxRuntimeInSeconds: 指定時間後にチューニングジョブが自動的に完了するように
- MaxNumberOfTrainingJobsNotImproving: 目的メトリクスが十分に改善されない場合に停止するように
- CompleteOnConvergence: 以降の試行で目的メトリクスが改善されない場合にチューニングジョブを自動的に停止させることができるように
Amazon SageMaker Trainingは、プライベートDockerレジストリに保存されているイメージを使用して機械学習モデルを訓練できるようになりました。
Amazon SageMaker Model DashboardからAmazon SageMaker Model Monitorを起動および設定できるようになりました。
Amazon SageMaker JumpStartを使って、話題のStable Diffusionをファインチューニングすることができるようにもなりました。
Amazon Pollyのアップデート
日本人の女性の音声合成(NTTS)音声である「Kazuha」と「Tomoko」の一般提供を開始しました。 これで全部で日本語音声は4種類となり、うち3種類の女性のNTTSが使えるようになりました。
この2種の音声についてはDevelopersIOで使ってみた内容を取りあげています。この2つの音声は、ニューラル発話スタイルのみサポートされています。
また、米国英語のニューラル音声合成(NTTS)音声であるRuthとStephenもリリースされました。
Amazon Kendraのアップデート
Kendraが東京リージョンで利用できるようになりました。
以下の7つの追加データフォーマットのサポート開始についてのブログも公開されました。
- Rich Text Format (RTF)
- JavaScript Object Notation (JSON)
- Markdown (MD)
- Comma separated values (CSV)
- Microsoft Excel (MS Excel)
- Extensible Markup Language (XML)
- Extensible Stylesheet Language Transformations (XSLT)
Amazon Lexのアップデート
Amazon Lexにネットワーク機能が追加されました。
どのようなことができる機能なのかや制限事項については、実際に試してみた記事がありますので参考にして下さい。
Google Cloud
Vertex AIのアップデート
Vertex AI Feature StoreおよびエンティティタイプへのリソースレベルのIAMポリシーでの制限がGAになりました。
PyTorchモデル用のビルド済みPyTorchコンテナがGAになりました。
Vertex AI Pipelinesで、テンプレートギャラリーの機能がプレビューで公開されました。パイプラインのテンプレートを利用できます。
Vertex AI Matching EngineでPrivate Service Connectをプレビューで利用できるようになりました。
Text-to-Speechのアップデート
以下の2種の声が使用可能になりました。
- cloud-eu-ES-Standard-A
- cloud-gl-ES-Standard-A
Discovery Engine APIのアップデート
おすすめをプレビュー表示できる機能がPre-GAになりました。この機能により、本番運用を開始する前に、モデルや配信設定を迅速にテストすることが可能です。
イベント情報
クラスメソッドで開催している機械学習・データ活用に関するイベント情報です。
ウェビナー
機械学習のプロジェクトの進め方や、目的別のユースケースについて解説するウェビナーを2023年3月9日(木)に開催予定です。
2022年11月に開催したウェビナー内容に加えて、Google Cloudを活用した自然言語処理のユースケースについて解説します。前回参加した方もぜひお申し込みください。
前回のウェビナーの概要は、以下のブログでご紹介しています。
相談会
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。
データ分析相談会のお申込みはこちらです。
最後に
2023年2月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
データアナリティクス通信(機械学習編) - 2023年3月号は以上です。