AWS Amazon Transcribe คืออะไร? การแนะนำฟังก์ชันล่าสุดของ AWS ในปี 2023

นี่เป็นบทความแปล ที่มีเนื้อหามาจากบทความภาษาญี่ปุ่นของ Classmethod, Inc. ในหัวข้อ「[AWS再入門2022 AWS Amazon Transcribeについて」หากผู้อ่านสนใจอ่านเนื้อหาต้นฉบับสามารถอ่านได้ที่ลิ้งค์ "บทความต้นฉบับ" ทางด้านล่าง เนื้อหาในบทความนี้การอธิบายบางอย่างจะถูกปรับให้เข้าใจง่ายขึ้นทำให้แตกต่างจากต้นฉบับในบางจุด

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

เริ่มต้น

สวัสดีครับ LIGHT จากบริษัท Classmethod (Thailand) ครับ

ครั้งนี้อยากจะมาแนะนำให้ทุกคนได้รู้จักกับอีกหนึ่งบริการที่น่าสนใจของ AWS ที่มีชื่อว่า Amazon Transcribe กันครับ

Amazon Transcribe คืออะไร?

Amazon Transcribe เป็นบริการแปลงเสียงเป็นตัวอักษร โดยสามารถแปลงข้อมูลเสียง/เสียงที่บันทึกไว้/เสียงจากวิดีโอที่บันทึกไว้ฯ ได้แบบเรียลไทม์

จุดเด่น

Amazon Transcribe คือบริการรับเสียงพูดอัตโนมัติที่สามารถเพิ่มฟังก์ชั่น Speech to Text (เสียงพูดเป็นข้อความ) ในแอปพลิเคชันได้อย่างง่ายดาย ด้วยฟีเจอร์ของ Transcribe จะช่วยให้เราสามารถสร้าง Transcribe สำหรับการดึงข้อมูลเสียงที่จะตรวจสอบได้ง่ายขึ้น และสามารถปรับปรุงความแม่นยำด้วยการ Customize รวมไปถึงการกรองเนื้อหาเพื่อรักษาความเป็นส่วนตัวของลูกค้าได้อีกด้วย

Amazon Transcribe Features

ผมดึงฟังก์ชันบางส่วนมาอธิบายให้ทุกคนได้รู้จักกันครับ

Custom Vocabularies : เป็นฟังก์ชั่นลงทะเบียนคำที่โดยทั่วไปอาจไม่เป็นที่รู้จัก เช่น คำศัพท์เฉพาะทาง เป็นต้น

custom language models : เป็นฟังก์ชั่นที่จะใช้ Text data เพื่อเพิ่มความแม่นยำให้มากขึ้น

Partitioning speakers (diarization) : เป็นฟังก์ชั่นสำหรับการระบุผู้พูดในแต่ละประโยค

ตรวจสอบภาษาที่รองรับได้ที่ Supported languages and language-specific features (มีภาษาไทยด้วย)

Tutorial

วิธีการสร้างคำขึ้นมา สามารถใช้วิธีอัปโหลดไฟล์ไปยัง S3 ก็ได้ครับ

ทว่าในครั้งนี้จะไม่ใช้ S3 แต่จะใช้ Real-time transcription แล้วลองสร้างคำที่พูดออกมาแบบเรียลไทม์ดูครับ
(ปัจจุบันฟีเจอร์นี้ยังไม่รองรับการใช้ใน Sinagpore Region โดยการสาธิตตามภาพต่อไปนี้เป็นการใช้งานผ่าน Tokyo Region )

1.จากหน้า Amazon Transcribe ให้เปิด Real-time transcription ขึ้นมา

2.ที่ Language settings ให้เปลี่ยนเป็น Thai, TH (th-TH)

3.จากนั้นคลิกที่ Start streaming จะมี Pop-up ขออนุญาตใช้ไมค์ผ่านเบราว์เซอร์ แสดงขึ้นมาให้เลือกอนุญาต (Allow)

4.จากนั้นให้พูดคำที่ต้องการสร้างได้เลย โดยในขณะที่พูดอยู่ก็จะมีการสร้างคำขึ้นมาแบบเรียลไทม์โดยอัตโนมัติ

คำอ้างอิง

เป้าหมายของบริษัทเราคือ การแนะนำเทคโนโลยีระดับโลกให้แก่ประเทศไทยและเราตั้งใจสนับสนุนการพัฒนาประเทศไทยด้วยเทคโนโลยี

ผลลัพธ์

สรุป

เป็นยังไงกันบ้างครับ บริการนี้ใช้งานได้ไม่ยากเลยใช่มั้ย จากที่ปกติต้องพิมพ์เป็นข้อความค่อนข้างใช้เวลาเยอะพอได้ใช้ฟีเจอร์

บทความที่เกี่ยวข้อง