AWS Summit Bangkok 2025 : Streamline RAG and model evaluation with Amazon Bedrock

AWS Summit Bangkok 2025 : Streamline RAG and model evaluation with Amazon Bedrock

สวัสดีค่ะผู้อ่าน DevelopersIO ทุกคน เฟินจาก Classmethod Thailand ค่ะ

วันนี้จะมาแชร์ข้อมูลจากเซสชั่นที่ได้เข้าร่วมฟังมาเมื่อวันที่ 29 เมษายนที่งาน AWS Summit Bangkok 2025 ที่ผ่านมาค่า
Streamline RAG and model evaluation with Amazon Bedrock” หรือภาษาไทยก็คือ “ปรับปรุง RAG และการประเมินแบบจำลองด้วย Amazon Bedrock

เซสชั่นนี้เหมาะกับท่านที่กำลังเริ่มสร้าง Gen AI แอปและต้องการเพิ่ม performance ให้ดียิ่งขึ้น

สิ่งสำคัญอันดับแรกในการสร้างแอป Model ที่ใช้เหมาะสมกับ Use Case ของเรา
Screenshot 2025-05-29 154245

โดยการทำ Evaluation ผู้ใช้สามารถทำใน Amazon Bedrock ได้เลย ซึ่งสามารถช่วยลดระยะเวลาในส่วนนี้ได้

Screenshot 2025-05-29 161607

AWS มีฟีเจอร์ใหม่ที่เรียกว่า "LLM-as-a-judge" ที่ช่วย identify และวัดผลลัพธ์ของโมเดลที่ได้ โดยมี metric ครอบคลุมตั้งแต่ Correctness ไปจนถึงในส่วนของ AI responsible อย่างพวก harmfulness

การทำงานของ LLM-as-a-judge

Screenshot 2025-06-09 143716

RAG Evaluation

โพรเซสในการพัฒนา Knowledge Base และ Content ให้สามารถตอบคำถามของยูสเซอร์ได้อย่างมีประสิทธิภาพได้อย่างไร
ในส่วนนี้ AWS ก็มีบริการนี้เช่นกันคือ RAG evaluation on Amazon Bedrock Knowledge Base
โดยหลักการก็คล้ายๆกับการ Evaluation เลย

Screenshot 2025-06-09 150128

เราสามารถเลือก Knowledge Base ใน Bedrock เพื่อทำ Evaluation ด้วยตัวเองได้แล้วก็ยังสามารถเลือกวิธีการ Evaluate ได้

Bedrock Experience from Omise

ในส่วนท้ายเป็น Feedback การใช้งานจริงของทาง Omise ที่นำไปใช้งานในส่วนของ Customer Support Agent หรือ AI Agent ในการตอบคำถามคำ Merchant โดยใช้ Knowledge Base ที่ทาง Omise มี ซึ่งปัญหาที่ทาง Omise เจอในกรณีที่คำถามมีเนื้อหาใกล้เคียงกันทำให้ misleading คำตอบไปได้

สำหรับทาง Omise แล้วการเริ่มต้นใช้งาน Bedrock สามารถทำได้ง่ายเนื่องจากมีตัว high quality AI model ในตัวอยู่แล้ว อีกทั้งการตั้งค่า Knowledge Base ที่เป็น Streamline automation และฟีเจอร์ต่างๆในการตั้งค่า Workflows หรือ Evaluation
แต่สิ่งที่ควรระวังก็คือ On-demand service มี maximum limit(250 requests/minute/region) ที่เหมาะกับการใช้งาน dev หรือเริ่มต้นใช้งานแรกๆ แต่หากใช้ไปซักระยะ มี volumn ที่เพิ่มขึ้นที่ On-demand ไม่สามารถรองรับได้แล้วและต้องขยับขึ้นไปใช้ Provisioned ที่แพงขึ้น

Using AI to evaluate AI response

Amazon Bedrock ตอบโจทย์ในการทำงานส่วนนี้เนื่องจากรองรับ metric ได้หลากหลายมากกว่าแค่ True หรือ False
เพื่อให้ได้ Result ที่ตรงกับคำถามของยูสเซอร์มากที่สุด ทาง Omise มีการ Evaluate ทั้ง

1. Knowkedge Base

การ Evaluate นี้ช่วยระบุ gaps ใน knowledge base และทำให้แน่ใจว่าครอบคลุมคำถามของผู้ใช้อย่างครบถ้วน

2. Agent END TO END Evaluation

เป็นโพรเซสในการ Evaluate ตัว full process (Insrtution+Knowledge Base+Flows+Guadrails+Conversation) แล้วยังช่วยในการปรับปรุง prompt และพัฒนา behavior ในการ response

ส่งท้าย

จริงๆแล้วเฟินไม่มีความรู้เรื่อง RAG เลยค่ะ แต่พอฟังในส่วน experience เลยเห็นภาพชัดเลยว่าคืออะไร หวังว่าข้อมูลนี้จะมีประโยชน์แก่ Gen AI Beginner ท่านอื่นๆนะคะ

สำหรับท่านที่สนใจเนื้อหาของ RAG evaluation on Amazon Bedrock Knowledge Base สามารถดูเพิ่มเติมได้ที่บทความของทาง AWS ด้านล่างนี้ได้เลยค่า

https://aws.amazon.com/th/blogs/machine-learning/evaluating-rag-applications-with-amazon-bedrock-knowledge-base-evaluation/

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.