re:Growth 2025 札幌で「AWS Trainium3 をちょっと身近に感じたい」というタイトルで登壇しました

re:Growth 2025 札幌で「AWS Trainium3 をちょっと身近に感じたい」というタイトルで登壇しました

2025.12.11

2025 年 12 月 8 日開催された re:Growth 札幌 にて「AWS Trainium3 をちょっと身近に感じたい」をテーマにお話させていただきました。

https://classmethod.connpass.com/event/371835/

セッションスライド

セッション概要

当日お話させて頂いた点を掻い摘んで紹介します。

生成 AI のワークロードで代表的なものとして「トレーニング」と「推論」の 2 つの処理があります。ここで必要な計算処理の多くは「行列演算」です。 この行列演算を高速に処理するために、CPU ではなく GPU が使われています。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい (1).png

GPU は「並列計算に特化」しています。 1 つ 1 つのコアは複雑な計算は苦手ですが、行列計算のような計算であれば処理が得意なコアを数千〜数万個持っています。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい.png

大量のデータからモデルを作る「トレーニング」には、AWS Trainium。 ユーザーに応答を返す「推論」には、AWS Inferentia。 名前の通り役割がわかりやすい ASIC を AWS は開発しています。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい (2).png

今回の Matt German のキーノートで、発表された Trainium3 や、Trainium2 は、推論においても世界最高レベルの性能を発揮するとのことでした。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい (3).png

Trn インスタンスを直接使うことないからな...となると思います。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい (4).png

現在、Claude Sonnet 4.5、Opus 4.5 といった最新モデルの推論トラフィックの大部分は、NVIDIA GPU ではなく、AWS の Trainium2 で処理されています。AWS で利用されている Bedrock 経由のモデルアクセスのときだけなのかと思いきや、Anthropic が提供している Web アプリや、モバイルアプリ、Claude Code など提供サービスの大部分が対象とのことです。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい (5).png

これらのサービスの裏側では Trainium2 が頑張っています。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい (6).png

Kiro を使う場合もモデルは Sonnet 4.5 や、Haiku 4.5 を使うので、同様に Trainium2 が裏側では処理していることになります。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい (7).png

今後の Trainium の発展、進化により、Claude のレスポンスが早くなったり、キャパシティが潤沢になりクロスリージョン推論は保険程度の扱いになるかもしれないし、GPU に比べるとコスパ良いので Bedrock からの提供価格が安くなったりするかもしれません。

[札幌]re_Growth2025_AWS_Tranium3をちょっと身近に感じたい (8).png

Trainium を「自分には関係ない」ものから「自分の仕事を手伝ってくれるもの」として知っていただ頂けたら幸いです。

おわりに

Anthropic の Traiunim での推論をリードされている Jonathan Gray 氏が re:Invent 2025 のセッションで登壇されています。Trainium での最適化について解説してくれているのですが、私のレベルでは理解できなくて基礎が足りないとなりました。CPU 基礎から出直してきます。

https://www.youtube.com/watch?v=c_1FhdXNUSE

この記事をシェアする

FacebookHatena blogX

関連記事