クラスメソッド データアナリティクス通信(機械学習編) – 2023年1月号
データアナリティクス事業本部の鈴木です。
クラスメソッド データアナリティクス通信(機械学習編) の2023年1月号です。先月分のアップデート情報をお届けできればと思います。
12月はAWSではre:Inventの影響もあってか多くのアップデートがありました。
Google CloudでもDocument AIおよびVertex AIでアップデートが数多くありました。特にVertex AIでは多くの機能がGAになっているのが印象的でした。
アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。
AWS
Translateのアップデート
入力ファイルの言語検出機能をサポートしました。 各ファイルの最初の1,000文字をサンプリングして支配的なソース言語を検出します。 Amazon Comprehendの言語検出APIを活用しています。
また、ネストされたS3フォルダに保存されたファイルの翻訳サポートも開始しました。
バッチ処理はスウェーデン語、ベトナム語に対応しました。
SageMakerのアップデート
re:Invent2022で多くのSageMakerに関するアップデートが発表されましたが、そちらについては別途記事にまとめました。この記事ではそれ以外のアップデートをご紹介します。
SageMaker JumpStart
SageMaker JumpStartノートブックでは、Amazon Comprehendに関するノートブックを2つ追加しました。Comprehendのカスタム分類とカスタムエンティティ認識に対応したものとなります。カスタム分類は、文書分類のための独自の複数クラス分類モデルとマルチラベル分類モデルを作成できます。カスタムエンティティ認識はプリセットにない独自の用語などを検出できるようにComprehendの機能を拡張できる機能です。
SageMaker Data Wrangle
SageMaker Data Wranglerがデータセットの各特徴に対して自動的にビジュアライゼーションを生成するようになりました。データのプレビューが表示される画面で、カラム上部に分布などが表示されます。
SageMaker Canvas
SageMaker Canvasでは、SageMaker Model Registryに登録することで、異なる環境で構築したMLモデルをSageMaker Canvasにインポートすることが可能になりました。
SageMaker Feature Store
SageMaker Feature StoreはオフラインストアのSageMaker Python SDKをサポートしました。今までは、AthenaとGlueを使用し、アドホックなSQLクエリを記述する必要がありました。今回のリリースで、Python SDKのメソッドを使用してトレーニングデータセットを作成することが可能になります。
また、特徴を格納するためのテーブル形式としてApache Icebergをサポートするようになったのも大きなアップデートですね。
SageMaker Experiments
SageMaker Experimentsは、Python SDKまたはBoto3で任意の環境で実験の追跡と分析をサポートするようになりました。
SageMaker Distributed Model Parallel
SageMaker model parallel (SMP) library v1.13で学習性能向上のための機能が追加されました。SMDDP Collectives はフォワードまたはバックワード計算時にAWSに最適化されたAllGather collectiveを利用し、計算を高速化できます。FlashAttention(Dao et al.)ではアテンション行列の計算時に従来手法のボトルネックを回避して高速化を図ります。
SageMaker Ground Truth
SageMaker Ground Truthでは、製造業、倉庫ロボット、食品包装、小売業、自律移動、スマートホームなどのお客様のユースケースにおいて、動的な3D環境の合成データ生成が可能になりました。Amazon SageMaker Ground Truth synthetic dataは米国東部(N.Virginia)リージョンでGAです。
SageMaker Ground Truth Plusでは新しいビルトインインターフェースが搭載されました。これまでのインターフェースと比較し、よりチームでの作業に適したものとなり、作業の高速化が期待されます。
Neptuneのアップデート
Neptune MLでReal-time inductive inferenceのサポートを開始しました。後で追加されたグラフに対して、機械学習モデルを更新せずに予測ができるような機能です。
また、Neptune notebooksでJupyterLab 3をサポートするようにもなりました。
Personalizeのアップデート
トレーニングに関する制限が緩和され、最大1億ユーザー・30億インタラクションのデータセットをサポートするようになりました。今までは、最大5000万人のユーザー、5億件のインタラクションまでを上限としていました。今回のアップデートでは最大1億ユーザーまで訓練の対象とできるようになり、インタラクションデータについても最大30億までを考慮するオプションができました。
Rekognitionのアップデート
Rekognition Labelsが600のラベルを追加、2000以上の既存ラベルの精度を向上しました。さらに、ラベルの結果を「エイリアス」や「カテゴリー」で整理する機能を追加し、結果のフィルタリングをサポートしました。
Rekognition Content Moderationはモデルを改善し、誤検出を大幅に低減しました。Content Moderationは、画像や動画に対して、不適切・不要・不快なものを検出できるディープラーニングベースの機能です。今回、ECサイト、ソーシャルメディア、オンラインコミュニティのコンテンツに対して、本当に安全ではないコンテンツの検出率を低下させることなく、誤検出率を大幅に低減できるようになりました。
Fraud Detectorのアップデート
ビジネスモデルに合った不正検知モデルの提案と必要なデータの確認ができるData Model explorerが使えるようになりました。この機能により、自分のビシネス上のユースケースに対して適切なモデルを調べ、どのようなデータが必要なのか分かるようになりました。
機械学習サービスのAPIのアップデート
Sagemaker Imagesが、ImageVersionsのエイリアスをサポートしました。
SageMaker Autopilotは、CreateAutoMLJob APIで新しい目的関数のメトリクスをサポートしました。
Lookout for Equipmentが、推論スケジューラをステータス別にリストアップする機能を追加しました。
Lookout for Equipmentで検出されたイベントに関するフィードバックを、ラベルやラベルグループを通じて取得可能になりました。
そのた
自動再トレーニングを行うためのオープンソースのPythonライブラリ「Renate」の一般提供が開始されました。多くのデータが利用可能なときに、ニューラルネットワークを段階的に学習させることができる継続的な学習アルゴリズムを提供します。
Google Cloud
Document AIのアップデート
OCR ProcessorがデジタルPDFの埋め込みテキストの抽出に対応しました。PDFに非デジタルテキストが含まれている場合、光学式OCRモデルへ自動でフォールバックされます。
この機能を利用するには、OCRプロセッサへのAPIリクエストでprocess_options.ocr_config.enable_native_pdf_parsing=true
を設定します。
また、以下の3機能も追加されました。
- Intelligent Document Quality (IDQ) でページレベルの品質チェックが可能に
- デジタルPDFに埋め込まれたテキストや記号を、元文書と全く同じように抽出できるように
- モデルのバージョニングをサポートし、使用するモデルをピン留めできるように
パブリックプレビュー版の機能については、まずPurchase Order Parserの新しいバージョンがパブリックプレビューになりました。Version IDはpretrained-purchase-order-v1.1-2022-06-17
です。注文書から、配送先住所・注文書ID・注文書日付・合計金額・納品日などのテキストや値を抽出することができます。
また、Form ParserのVersion IDpretrained-parser-v2.0-2022-11-10
もパブリックプレビューです。11の一般的なエンティティを抽出するGeneric Entity Extractionをサポートします。
Vertex AIのアップデート
以下の機能がGAになりました。
- Vertex AI Vision
- Vertex AI Pipeline Templates
- Vertex AI TensorFlow Profiler
- Vertex AI Matching Engine
- Vertex AI Feature Store Streaming ingestion
Vertex AI VisionはGoogle Cloud Next'22で発表された機能ですが、早速GA版が利用できるのは良いですね。また、Pipeline Templatesもワークフロー定義をチームで共有する際に非常に重宝しそうです。
イベント情報
クラスメソッドで開催している機械学習・データ活用に関するイベント情報です。
ウェビナー
2022/12/9(金)に開催されたウェビナー「デモで解説!データ分析基盤かんたん構築ウェビナー RedshiftとQuickSightで作る売上分析」の振り返り記事が公開されました。このウェビナーはクラスメソッドのサービス「CSアナリティクス」を使ったデータ基盤のデモと合わせて、Amazon QuickSightを使った分析例をご紹介する内容でした。直接機械学習は登場しませんが、データ分析基盤と合わせて機械学習機能の構築を検討されている方など、参考にして頂ければ幸いです。
相談会
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
- 企業内に点在するデータを1箇所にまとめて分析したい
- クラウド上で分析基盤を導入したい・・・
- データを活用したいが、具体的に何から始めたらいいかわからない
機械学習相談会のお申込みはこちらです。お気軽にご相談ください。
データ分析相談会のお申込みはこちらです。
最後に
2022年12月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
re:Invent2022では、Amazon SageMakerでMLガバナンスツールが登場したり、SageMaker Data Wranglerでは40以上サードパーティー向けのデータソースに対応したりと、よりプロジェクトを効果的かつ効率的に進めていくようなアップデートが多く、パブリッククラウド上での機械学習機能開発はより一層、プロジェクト開発やアーキテクチャを踏まえて考えていくことになりそうに思いました。また、より広くデータ分析系サービスという観点では、Amazon DataZoneなどよりスケールするデータ分析環境の構築を視野に入れたサービスがプレビュー版ではあるものの登場してきており、機械学習機能もそのような枠組みでどのような立て付けで開発・運用していくか改めて考える必要があるなと思います。
今年はこのような機能がますますリリース・活用されていくことと思い、機械学習やデータ分析にも着実に変化がありそうな予感がしています。日々のリリースを踏まえてより良いご支援ができるよう、頑張っていきたいと思います。
データアナリティクス通信(機械学習編) - 2023年1月号は以上です。