re:Growth 2025 札幌で「AWS Trainium3 をちょっと身近に感じたい」というタイトルで登壇しました

AWS re:Invent 2025

2025.12.11

2025 年 12 月 8 日開催された re:Growth 札幌 にて「AWS Trainium3 をちょっと身近に感じたい」をテーマにお話させていただきました。
https://classmethod.connpass.com/event/371835/
 セッションスライド セッション概要当日お話させて頂いた点を掻い摘んで紹介します。
生成 AI のワークロードで代表的なものとして「トレーニング」と「推論」の 2 つの処理があります。ここで必要な計算処理の多くは「行列演算」です。 この行列演算を高速に処理するために、CPU ではなく GPU が使われています。
GPU は「並列計算に特化」しています。 1 つ 1 つのコアは複雑な計算は苦手ですが、行列計算のような計算であれば処理が得意なコアを数千〜数万個持っています。
大量のデータからモデルを作る「トレーニング」には、AWS Trainium。 ユーザーに応答を返す「推論」には、AWS Inferentia。 名前の通り役割がわかりやすい ASIC を AWS は開発しています。
今回の Matt German のキーノートで、発表された Trainium3 や、Trainium2 は、推論においても世界最高レベルの性能を発揮するとのことでした。
Trn インスタンスを直接使うことないからな...となると思います。
現在、Claude Sonnet 4.5、Opus 4.5 といった最新モデルの推論トラフィックの大部分は、NVIDIA GPU ではなく、AWS の Trainium2 で処理されています。AWS で利用されている Bedrock 経由のモデルアクセスのときだけなのかと思いきや、Anthropic が提供している Web アプリや、モバイルアプリ、Claude Code など提供サービスの大部分が対象とのことです。
これらのサービスの裏側では Trainium2 が頑張っています。
Kiro を使う場合もモデルは Sonnet 4.5 や、Haiku 4.5 を使うので、同様に Trainium2 が裏側では処理していることになります。
今後の Trainium の発展、進化により、Claude のレスポンスが早くなったり、キャパシティが潤沢になりクロスリージョン推論は保険程度の扱いになるかもしれないし、GPU に比べるとコスパ良いので Bedrock からの提供価格が安くなったりするかもしれません。
Trainium を「自分には関係ない」ものから「自分の仕事を手伝ってくれるもの」として知っていただ頂けたら幸いです。
 おわりにAnthropic の Traiunim での推論をリードされている Jonathan Gray 氏が re:Invent 2025 のセッションで登壇されています。Trainium での最適化について解説してくれているのですが、私のレベルでは理解できなくて基礎が足りないとなりました。CPU 基礎から出直してきます。
https://www.youtube.com/watch?v=c_1FhdXNUSE