produced by Classmethod

# 音声認識の記事一覧

飲食店を題材に Twilio ConversationRelay で「電話の一次対応を AI に任せる」シナリオを組んでみた

越井琢巳 (Koshii Takumi)

2026.07.18

pipecatでSTT・LLM・TTSを組み合わせて音声AIボットを動かしてみる

2026.05.29

Aqua Voice × Claude Cowork：毎週の自動分析で音声入力のカスタマイズを仕組み化する

けーま (川田圭真)

2026.05.28

macOS の Firefox で MediaStreamAudioSourceNode 経由の mono MediaStream を PannerNode に通すと OS 出力でモノラル化される

越井琢巳 (Koshii Takumi)

2026.05.15

Twilio と OpenAI Realtime API で電話越しに AI と日本語会話する最小構成を作ってみた

越井琢巳 (Koshii Takumi)

2026.05.11

OpenAIにおける文字起こし（音声認識）の現在地

nokomoro3@製造BT部

2025.04.15

【Kotlin】Androidで連続して音声認識がしたい

2024.11.29

日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた

2024.04.17

音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた

2024.02.21

Google Cloud上でGoogleの次世代のASR（自動音声認識）モデル「Chirp」を使ってみた

nokomoro3@製造BT部

2023.12.02

Whisperなどの前段処理に使えるかも!? PythonのWebRTC VADを使って音声分割を検討してみた

nokomoro3@製造BT部

2023.11.26

OpenAI DevDayで発表された様々な機能について、公式ドキュメントを見ながら少しだけ詳細を確認してみた

nokomoro3@製造BT部

2023.11.07

OpenAIのWhisper APIの25MB制限に合うような調整を検討する

nokomoro3@製造BT部

2023.03.05

OpenAIからChatGPTとWhisperに関するAPIがリリースされたのでドキュメントを読み解いてみた

nokomoro3@製造BT部

2023.03.02

日本語に特化した高精度な音声認識 ReazonSpeech を使って、会議音声を書き起こししてみた

nokomoro3@製造BT部

2023.01.31

Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました

nokomoro3@製造BT部

2022.11.09

OpenAIリリースのWhisperで文字起こし後にテキスト読み上げした話

2022.10.11

音声認識モデル”Whisper”をストリーミング処理対応させる方法

nokomoro3@製造BT部

2022.10.09

OpenAIリリースのWhisperをCPUだけで動かすために色々試した話

2022.10.05

OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた

nokomoro3@製造BT部

2022.09.29

OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた

nokomoro3@製造BT部

2022.09.23

Developers.IO 2017 WORLD in 仙台でVoice User Interfaceについて話してきた #cmdevio2017

2017.11.13

[iOS 11] Siriとアプリをつなげる！SiriKitを使ったVoice User Interface開発のまとめ

2017.09.20