[アップデート] Amazon Nova Pro モデルがレイテンシー最適化推論をサポートしました

[アップデート] Amazon Nova Pro モデルがレイテンシー最適化推論をサポートしました

Clock Icon2025.03.06

こんにちは!クラウド事業本部コンサルティング部のたかくに(@takakuni_)です。

Amazon Nova Pro がレイテンシー最適化推論をサポートしました。

https://aws.amazon.com/jp/about-aws/whats-new/2025/03/latency-optimized-inference-amazon-nova-pro-foundation-model-bedrock/

レイテンシー最適化

レイテンシー最適化推論は、推論サーバーに Trainium 2 の利用やソフトウェアの最適化を行い、従来の推論よりも精度を損なうことなくレイテンシーの低い応答が見込めるオプションです。

re:Invent 2024で登場した機能で現時点でパブリックプレビューの機能になります。

https://dev.classmethod.jp/articles/amazon-bedrock-latency-optimized-inference-public-preview-announced-awsreinvent/

Monday Night Live では、 Anthropic Claude Haiku 3.5 モデルが 60% ほど推論スピードが早くなったと紹介され、話題となりました。

https://www.youtube.com/watch?v=vx36tyJ47ps

アップデート内容

アップデート前までは Anthropic Claude 3.5 Haiku と Meta Llama 3.1 405B Instruct, Llama 3.1 70B Instruct がサポートされていましたが、新たに Amazon Nova Pro が追加となりました。

最新情報は以下をご覧ください。

https://docs.aws.amazon.com/bedrock/latest/userguide/latency-optimized-inference.html

なお、 Amazon Nova Pro においては、バージニア北部、オハイオ、オレゴンの 3 リージョンによるクロスリージョン推論でサポートされています。

Latency optimized inference is available for Amazon Nova Pro in the US East (N. Virginia), US East (Ohio), and US West (Oregon) regions via cross-region inference.

2025-03-06 at 17.47.05-Optimize model inference for latency - Amazon Bedrock@2x.png

料金

料金周りについて触れていきます。Latency Optimized を利用する場合は 25 % ほど上乗せでの利用になります。他のモデルと同様でした。

Amazon Nova models Price per 1,000 input tokens Price per 1,000 output tokens
Amazon Nova Pro $0.0008 $0.0032
Amazon Nova Pro (w/ latency optimized inference) $0.001 $0.004

2025-03-06 at 17.49.03-Build Generative AI Applications with Foundation Models – Amazon Bedrock Pricing – AWS@2x.png

https://aws.amazon.com/bedrock/pricing/?nc1=h_ls

やってみる

それでは Latency Optimized Inference を利用して、推論にかかった記録を計測してみたいと思います。

main.tf
import json
import boto3

def extract_answer(response):
    """レスポンスから回答テキストを抽出する"""
    try:
        return response["output"]["message"]["content"][0]["text"]
    except (KeyError, IndexError) as e:
        return f"回答の抽出に失敗しました: {str(e)}"

def main():
    aws_region = "us-east-1"
    model_id = "us.amazon.nova-pro-v1:0"
    performance_config_latencies = ['standard', 'optimized']
    user_prompt = "日本で一番長い川は何ですか?その理由を教えてください"
    num_iterations = 5

    bedrock = boto3.client(
        'bedrock-runtime',
        region_name=aws_region
    )

    for performance_config_latency in performance_config_latencies:
        for i in range(num_iterations):
            try:
                response = bedrock.converse(
                    modelId=model_id,
                    messages=[
                        {
                            'role': 'user',
                            'content': [
                                {'text': user_prompt}
                            ]
                        }
                    ],
                    performanceConfig={
                        'latency': performance_config_latency
                    }
                )
            except Exception as e:
                print(f"エラーが発生しました: {str(e)}")

if __name__ == "__main__":
    main()

CloudWatch Logs で平均値を測ってみます。まずはスタンダードを検索します。

filter modelId = "us.amazon.nova-pro-v1:0" and performanceConfig.latency = "OPTIMIZED"
| stats avg(output.outputBodyJson.metrics.latencyMs) as AverageLatency

3835.5625 ms でした。

2025-03-06 at 21.02.18-CloudWatch  us-east-1@2x-2.png

続いて OPTIMIZED にしてみます。

filter modelId = "us.amazon.nova-pro-v1:0" and performanceConfig.latency = "OPTIMIZED"
| stats avg(output.outputBodyJson.metrics.latencyMs) as AverageLatency

3581.1875 ms でした。私のテスト環境下の場合は約 7 % 弱の速度向上でした。もっと試行回数を増やしたり、異なるユースケースで試すとさらに速度向上が見込めるかもしれません。

2025-03-06 at 21.02.27-CloudWatch  us-east-1@2x.png

まとめ

以上、「Amazon Nova Pro モデルがレイテンシー最適化推論をサポートしました。」でした。

このブログがどなたかの参考になれば幸いです。

クラウド事業本部コンサルティング部のたかくに(@takakuni_)でした!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.