
The Agentic Evolution - Anthropicが語るClaudeとエージェント時代のいま - AWS Summit Hamburg 2026 レポート
ベルリンオフィスのKeisukeです。
先日、ハンブルクで開催されたAWS Summit Hamburg 2026に参加してきました。自分にとっては初めてのAWS Summit参加で、会場の規模感、ブースの賑わい、参加者の熱量、どれをとっても新鮮な体験でした。

いろんなセッションを回ったなかで、一番印象に残ったのがAnthropic登壇の「The Agentic Evolution (sponsored by Anthropic)」というセッションでした。AnthropicのApplied AIチーム、つまり実際にお客様のところに行ってClaudeを業務に組み込む手伝いをしている方が登壇していて、現場で見えている景色をそのまま話してくれる感じが良かったです。
Anthropicという会社
念のため軽くおさらいすると、Anthropicは設立からまだ5年程度、従業員2000人超のAI研究ラボです。共同創業者の多くがOpenAI出身ということでも知られています。
冒頭で強調されていたのが、Anthropicは「AI企業」ではなく「研究ラボ」と自称しているという話でした。世界がこれから訪れる強力なAIへスムーズかつ安全に移行できるようにする、というのがコアミッションで、エージェントを実環境で安全に動かすための仕組みづくりにこだわるのも、そういう背景から来ているそうです。

そもそもエージェントとは何か
「お客様ごとに『エージェント』の定義がバラバラなんです」という前置きのあと、Anthropicとしての定義が共有されました。
エージェントとは、自らの処理手順とツール利用を動的に決めるシステムであり、タスクの達成方法に対する制御を自ら握っているもの。
ちょっとお堅い定義ですが、続けて「要するに自律的なワーカーです。タスクを与えると、ループを回しながら自分で解決していく存在」と言い換えてくれて、こちらのほうが腑に落ちました。
肝心なのは、「ワークフロー型」のエージェント(プロンプトチェーンで決められた手順を辿るタイプ)ではなく、LLMが自分でやり方を決められるタイプを推奨している点です。
理由はシンプルで、モデルの賢さが上がるたびにワークフロー型は構造に縛られて改善しにくいのに対し、自律ループ型はモデルの能力向上の恩恵をそのまま受けられるからだそうです。これ自体は前から言われている話ではあるんですが、Anthropic自身の口から聞くとやっぱり説得力がありました。
2025年は本当に「エージェント元年」だったのか
2025年は世間的に「エージェント元年」と言われていましたが、登壇者は「正直そこまでではなかった」と振り返っていました。
会場で「実際にエージェントを本番投入できた人?」と挙手を求める場面があったんですが、手を挙げたのは数人だけ。
ただ、2026年に入ってその壁が崩れ始めた、というのが登壇者の認識でした。タイムラインを軽くまとめるとこんな感じです。
- 2024年10月: Claude 3.5 Sonnet。Cursor上でClaude人気が一気に高まったきっかけのモデル
- 2025年3月: Claude Codeをリサーチプレビューでリリース。Anthropic初の本格的なエージェント製品
- 2025年11月: Opus 4.5。業界全体で「変曲点が来た」と言われた時期
- 2026年2月: Opus 4.6
- 直近: Opus 4.7
「Opus 4.5で潮目が変わった」と何度も繰り返されていたのが印象に残りました。例えばSpotifyでは、12月以降トップエンジニアたちが一行も自分でコードを書いていないとのこと。これは後でもう少し詳しく出てきます。
Claude CodeとClaude Cowork
Anthropic自身がいま提供しているエージェント製品は大きく2つあります。
ひとつめが Claude Code。開発者向けで、ターミナル上で動くハーネスです。bashコマンドやMCPサーバーを駆使してClaudeが自分でコードを書いて、ビルドして、エラーを見て、自分で直すというループを回します。
ここで紹介されていた Auto Mode という機能が面白かったです。通常Claude Codeは「このコマンド実行していい?」というYes/Noを開発者に聞きにくるんですが、Auto Modeを使うとこれを自動承認できる。「人間がボトルネックにならないようにする設計」が長時間タスクの鍵らしいです。
もうひとつが Claude Cowork。非エンジニア向けで、Claude Codeの考え方をチャットUIに持ち込んだ製品です。
ここで一番気になったのが、Claude Coworkが Amazon Bedrock経由で使えるようになった という発表でした。ヨーロッパのエンタープライズ、特にドイツの企業はデータレジデンシー要件が厳しいので、Anthropic公式APIの選択肢がとれないケースが少なくないと聞きます。Bedrock経由なら同じ機能が使える、というのは現地での導入のハードルが一段下がる、結構大きな話です。
スピーカー曰く、Claude CoworkはあくまでAnthropicが提供する「汎用ハーネス」で、業界特化のニーズは各社が自社でその上に作り込んでいくものだそうです。例えば法務のLagoraや医療のHarveyは、Claude Coworkをそのまま使うのではなく、自社の業界知識やMCPサーバーを組み込んだ独自ハーネスを構築しているという話でした。
具体事例
Spotify: Claude Codeを土台に自社カスタマイズ
Spotifyのコードベースは数千リポジトリが絡み合うマルチリポ構成で、リポジトリのルートで素のClaude Codeを動かすだけでは足りない、という話。
そこで Agent SDK(Claude Codeの土台部分)を使って、自社のテックスタックに特化したエージェントを内製したそうです。「最高のエンジニアたちが12月以降一行も自分でコードを書いていない。Slackからスマホで指示を飛ばす働き方になっている」と紹介されていました。
正直、ここはちょっと衝撃でした。「コード補完」ではなくて「コード書く役割を完全に委譲した」レベル感です。
Novo Nordisk: 臨床試験報告書を10週→10分
こちらはClaude Codeなどのハーネスは使わず、モデルとしてのClaudeを使った自動化事例。
300ページ規模の臨床試験報告書の作成が、従来10週間かかっていたのを10分にまで短縮したとのこと。もちろん最終的な数値や結論は人間がレビューしますが、その下準備の手作業部分を一気に圧縮した形です。
「プロンプトとハーネスの作り込みの質が、得られる価値の質を決める」という登壇者の言葉が、まさにこのケースだなと思いました。
Lovable: Claudeをベースにした独自AIサービス
Lovableは、Claude Codeを使わず、 完全に独自のエージェントループを組んで、その内側でClaude(モデル)を呼び出している 事例です。
興味深かったのは、Anthropic自身が 「Cursor、Lovable、Vercelといった各社が独自ハーネスを作っているが、脅威だと思っていない」 と言い切っていた点。むしろこれらの会社が伸びることで 市場全体が広がっている という感覚だそうです。
Anthropic Economic Index
研究ラボらしさが出ていたのが、Anthropic Economic Indexの紹介でした。AIが世界の経済活動にどう拡散しているかを定期的に追跡しているレポートで、自分は今回初めて知りました。
強調していたなかで特に刺さったのが、 「AIから価値を引き出せている人ほど、プロンプトの作り込みもモデルの使い方も洗練されている」 という観察です。
確かにそうだよなと納得しました。Claudeを「お手軽な質問機」として使っているだけだと価値は頭打ちで、Novo Nordiskの事例みたいにプロンプトとハーネスを作り込んで初めて10週→10分のような変化が出る、ということだと思います。
レポートにはドイツの数字も載っていて、
- ドイツの使用量は人口比で予測値より多い(期待値以上にClaudeが使われている)
- ただし国別ランキングだと突出はしておらず、緩やかに浸透している
「いかにもドイツらしい慎重さ」と笑い混じりに紹介していて、会場のドイツ人参加者からも笑いが起きていました。コーディング、メール作成、リサーチ、ビジネス戦略策定がドイツでの典型的なユースケースだそうです。
エージェントの未来:3つのトレンド
ここがセッションのクライマックスでした。Anthropicが見据えるエージェントの未来として、3つのテーマが挙げられました。
1. マルチエージェントシステム
ひとつのエージェントが全部こなすのではなく、専門特化エージェントの分業に向かうというトレンド。Lagoraの法務エージェントが例として挙げられていました。
「人間のチームが分業しているのと同じ発想で、エージェントもチーム化していく」という説明はわかりやすかったです。社内ツールを作るときも「ひとつに全部やらせる」ではなく「役割分担した複数エージェント」を考えるべき、というメッセージでした。
2. Long-running execution(長時間自律実行)
「ここを多くの人がまだ過小評価している」と力を込めて話していたパート。個人的にはこのセッションで一番刺さった話でした。
METRの調査によると、Claudeが自律実行できる時間(Time Horizon)はこの1年で急激に伸びていて、
- Claude 3.5 Sonnet(2024年10月): 数分の自律実行が限界
- Claude Opus 4.7(直近): 12時間規模で自律実行可能
つまり、「12時間動けるなら、それに見合う大きさのタスクを投げないとモデルの真価が出ない」ということ。
印象的な問いかけがありました。
同僚が20時間や50時間あなたの代わりに働けるとしたら、もっと野心的でハードなタスクを任せたいと思いませんか?
ChatGPT的なお手軽質問の延長で使っていると、モデル世代が上がっても得られる体験はあまり変わらない。 「大きく投げる前提でタスク設計と足回りを組み直す」 ことが鍵になるそうです。
自分の業務に当てはめると「明らかにClaudeを過小評価したタスクの振り方をしているな」と気づかされる話で、しばらく引きずりました。
3. Genuine collaboration(真の協働)
長時間動かせるからといって、エージェントに全部丸投げするのは違う、という話。
ここで提示された小さなクイズが秀逸でした。
Aエージェント: "always going to be right and never ask for help"(自分は絶対に正しいから助けは要らない)
Bエージェント:"knows when to ask for help"(助けを求めるべきタイミングを知っている)
どちらを選びますか?
会場全員Bを選びました。当然です。
これを実現するには「Claudeに逃げ道を用意する」必要があるそうで、Coworkのデモで時々出てくる選択肢式の確認UIは、まさにこれの実装例とのこと。「自分の判断に自信がない時に人間に聞ける」設計を組み込んでおかないと、長時間自律実行と暴走は紙一重になる、というのは納得でした。
実践をどう始めるか
最後のまとめパートで、Anthropic側からの実践アドバイスがありました。

まずは 解決すれば自分の業務の8割が圧縮できるような、繰り返し発生している作業 を見つけて、そこから着手する。たとえば「5つのツールを行き来しながら手動でやっているデータ集約を、一箇所にまとめる」みたいな話。
次に、その作業を「まずこのデータを取って、次にこっちで分析して...」と細かくステップ分解するのではなく、 タスクと必要なツールだけ渡して、Claudeがどこまで自律で進められるかを観察する。Claudeが詰まる箇所が見えてきたら、そこにコンテキストを補強するか、検証用のループを差し込む——これが正攻法とのこと。
そして、 BedrockとAnthropic公式APIの機能差はどんどん埋まっている ので、規制業界の人もBedrockを再評価してみてほしい、というメッセージで締められました。
最も安全なAIを、最もセキュアなハードウェアに乗せる - これがAnthropicとAWSの組み合わせの価値提案
このフレーズはセッション全体の締めくくりとしても収まりが良かったです。
感想
初めてのAWS Summit参加でしたが、想像していた以上に学びの多い一日でした。なかでもこのAnthropicセッションは、自分が普段使っているClaudeの「裏側にいる人たち」が何を考えているのかを直接聞ける貴重な機会で、参加して本当に良かったです。
セッション後、しばらく頭から離れなかったのが「もっと大きくタスクを投げよう」というメッセージです。日々の業務で「Claudeにここまでやらせていいんだっけ」と縮こまる場面は確かに多くて、モデルの能力が伸びている前提で、こちらのタスク設計をアップデートしていく必要があるなと感じました。
会場の熱量、Anthropic自身の現場感のある話、どれも刺激的でした。来年もぜひ参加したいです。









