
【Cowork】Whisperを使って議事録の音声データから要約までやってみる
データ事業本部の川中子(かわなご)です。
最近のWeb会議ツールでは、ツール自体に録音機能があったり、
議事録を自動で作成してくれるツールが増えてきました。
しかしオフラインの会議や録音機能のないツールでは依然として、
手動での議事録作成を続けている方が多いと思います。
今回はClaude DesktopのCoworkでWhisperを利用して、
会議の録音データから文字起こし、要約までやってみました。
Coworkの簡単な概要は以前ブログで紹介しているので、
よろしければ以下の記事も併せてご覧ください。
Whisperとは
WhisperはOpenAIが開発した汎用の音声認識モデルです。
大規模で多様な音声データセットで学習されており、
多言語の音声認識、音声翻訳、言語識別に対応しています。
コードとモデルの重みはOSSとして公開されているので、
ローカルマシンにインストールすれば無料で利用できます。
モデルは以下の種類が用意されています。
モデルのパラメータ数が多い方が文字起こしなどの精度が高くなりますが、
その分処理の実行時間が長くなるので、用途に合わせて選ぶ必要があります。
| モデル | パラメータ数 | 英語専用版 | 多言語版 | 必要VRAM | 相対速度 |
|---|---|---|---|---|---|
| tiny | 39M | tiny.en | tiny | ~1GB | ~10x |
| base | 74M | base.en | base | ~1GB | ~7x |
| small | 244M | small.en | small | ~2GB | ~4x |
| medium | 769M | medium.en | medium | ~5GB | ~2x |
| large | 1550M | N/A | large | ~10GB | 1x |
| turbo | 809M | N/A | turbo | ~6GB | ~8x |
会議の録音データのように数十分を超えるものについては、
medium以上のモデルを選ぶと精度は安定してくると思います。
やってみる
実際にCoworkの仮想環境にWhisperをインストールして、
サンプルの録音データを文字起こし&要約するところまでやってみます。
Whisperのインストール
Coworkの新しいセッションを開始し、Whisperのインストールを依頼します。
ユーザー:
whisperを使えるようにしてくれる?
cowork:
Whisper をセットアップしますね!まずは環境を確認して、インストールを進めます。
環境が整っています。Whisper をインストールします。
Whisper のインストールが完了しました。次に、簡単に使える文字起こしスクリプトを作ります。
Whisper のセットアップが完了しました。文字起こしスクリプトも用意しました。
**使い方は簡単です:**
音声ファイルをこのチャットにアップロードしてもらえれば、私が Whisper を使って文字起こしします。
日本語も英語も自動検出されます。
モデルサイズは `tiny` → `base` → `small` → `medium` → `large` の順に精度が上がりますが、
その分処理時間も長くなります。日本語の場合は `small` 以上がおすすめです。
音声ファイルがあれば、ぜひ送ってください。
お願いするだけですぐにWhisperをインストールしてくれて、
使い方やモデルの種類について教えてくれました。
文字起こしを実行(エラー発生)
次に音声ファイルを渡して文字起こしを依頼してみます。
ユーザー:
これ文字起こしできる?
cowork:
音声ファイルを受け取りました。Whisper で文字起こしします。
日本語の音声だと思うので、`small` モデルを使いますね。
...
残念ながら、この環境ではモデルファイルのダウンロードがネットワーク制限でブロックされてしまいました。
Whisper は初回実行時にモデルの重みファイル(数百MB〜数GB)をダウンロードする必要があるのですが、
このサンドボックス環境ではそのダウンロードが許可されていません。
どうやらドメインへのアクセスが許可されていないため、
Whisperで使用するモデルのダウンロードができないみたいです。
アクセスできるドメインの設定があるのかと思い調べてみると、
設定 > 機能 > コード実行とファイル作成にドメイン設定がありました。
Coworkの仮想環境では外部通信がプロキシ経由で制御されており、
デフォルトではパッケージマネージャーのみとして設定されていました。

ドメイン許可リストの追加の許可ドメインのところに、
モデルダウンロードに必要なドメインを追加する必要がありそうです。
ドメインの許可設定
前述の設定画面に移動し、ドメイン許可リストに以下を追記します。
openaipublic.azureedge.net

再度文字起こしを実行
ドメインを追加した後、新しいセッションで再度文字起こしを依頼します。
同一セッションのままだとドメインの追加設定が反映されません。
ユーザー:
これをwhisperで文字起こしして
cowork:
Whisper(baseモデル)で文字起こしが完了しました。
日本語のプロジェクト進捗会議の内容のようですね。
設計レビュー、チケット管理、資材作成、テスト計画などについて話されています。
ただし、baseモデルのため固有名詞や専門用語の精度がやや低い部分があります。
より高精度な結果が必要であれば、`medium` や `large` モデルで再実行することもできます。
無事にモデルがダウンロードできて、文字起こしができました。
以下が実際に文字起こしされたデータの一部です。
明らかな単語間違いやフィラーが見られるので品質は低めですね。
では、そのアイリーカプリだ。じゃあ、はじめに行きます。
鏡を共有しないんです。手元が準備できてないので、少々お待ちください。
1週間。1週間。1週間。2週間。山。山。山。
平例やるんですけど、私、皆さんの助く状況、全然交わしていただくんですね。
おかしい先週、1週間、絶対して助く、少々かしてくれてたらいいなぁぐらいの感じで、初めて行きます。
えーっと、あそくの確認ですね。こうなってしまった。設計者周りはもう終わっていかないですね。
ってお話を選手したんですけど、レビューも受けておりません。っていうお話をしておきます。
これ、レビュー町なのか、作成が終わってないのか、ちょっと分かり合いですね。
ステータスとして、ちょっとどれが新局は終わってないのか分かり合いがあって、お手数なんですが、...
今回は特にモデルを指定しなかったのでbaseが使われたのですが、
Claudeの言う通りmedium以上のモデルを使うのが良さそうです。
またWhisper単体だと話者分離などの処理はできないようなので、
正確な議事録が必要な場合は他の手段を検討する必要があります。
議事録を要約
次に、文字起こしされた文章をそのままCoworkで要約してみます。
直接要約の細かい指示をチャットで打ち込んでもいいのですが、
今回は手軽に使えるスキルとして/sales:call-summaryを紹介します。
これは文字起こし済みのテキストを処理して、要点やアクション、
フォローアップメールなどを自動生成してくれるスキルです。
このスキルはカスタマイズ画面の個人用プラグイン設定から、
Salesを有効化することで利用できるようになります。

生成された文字起こしデータのTranscriptionに対して、
/sales:call-summaryを実行して議事録の要約を作成してみます。
ユーザー:
/sales:call-summary Transcriptionを要約して
Cowork:
音声の内容を分析して、会議サマリーを作成します。
会議サマリーを作成しました。
プロジェクト定例の進捗会議で、主な論点は設計書レビューの停滞、資材作成の進捗、
結合テストの計画、3月のレビュー会スケジュール調整などでした。
Whisperのbaseモデルでの文字起こしのため固有名詞がかなり崩れており、
人名やチケット番号などは実際と異なる可能性が高いです。
正確性が重要であれば、`large`モデルでの再文字起こしも検討ください。
以下は生成された会議サマリーのイメージです。
ある程度、内容をぼかすように修正をかけています。
# 会議サマリー
**会議種別:** プロジェクト定例(進捗確認)
**参加者:** 複数名
---
## 主な議論ポイント
### 1. 設計書レビューの停滞
レビュー会を設けないと完了にならない状況で、チケット上でレビュー待ちなのか
作成未完了なのか判別しづらい問題が指摘された。
### 2. 資材作成の進捗
ローカルでのデプロイ・動作確認まで完了済み。
### 3. 結合テストの計画
テスト項目表がまだ作成されていないため、チケットを新規作成する方針。
---
## アクションアイテム
| 担当 | アクション | 期限 |
|------|-----------|------|
| 各担当者 | チケットのステータスを更新 | 今週中 |
| 担当者 | 結合テスト項目表作成のチケットを起票 | 本日中 |
| 担当者 | レビュー会ミーティング招待を送付 | 今週中 |
---
## 次のステップ
1. チケットのステータス整理
2. 結合テスト項目表の作成・分担決め
3. レビュー会のスケジュール確定
精度の低かった文字起こしからうまく推測してくれて、
内容としてはギリギリ理解できるレベルにはなっていると思います。
今回のようにただ要約を指示するだけではなく、
会議に登場する固有の単語や、参加者のリストを渡してあげると、
Claude側で推測して、より思い通りのアウトプットになるかもしれません。
さいごに
今回はCoworkにWhisperをインストールして、
録音データの文字起こしから要約までを試してみました。
Whisperの性能や仕様上、正確な文字起こしは難しいですが、
要約のタイミングでClaudeがうまく推測してくれることが分かりました。
会議の録音データから要約レベルの情報が欲しい場合には、
手軽に利用できるこの方法が選択肢の一つになると思います。
話者分離ができなかったり、処理に10分ほどかかるのは難点ですが、
音声データから要約作成がCoworkで完結するのはメリットですね。
今回の記事が少しでも参考になれば幸いです。
最後まで記事をご覧いただきありがとうございました。







