การสร้าง data foundation เพื่อเป็นรากฐานให้กับ generative AI จากงาน AWS Summit Bangkok 2024

บทความนี้ผมจะมาบรรยายการประชุมภายในงาน AWS Summit Bangkok 2024 โดยหัวข้อการประชุมในครั้งนี้คือ Build a data foundation to fuel generative AI

Patarapong Armuttaporn

2024.06.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

การประชุมนี้บรรยายโดย คุณ Chatchai Komrangded ซึ่งเป็น Senior Solutions Architect Manager, AWS ว่าทำไมการสร้าง data foundation ถึงสำคัญกับ generative AI โดยเป้าหมายคือเพื่อให้ AI มีเอกลักษณ์และเหมาะสมกับหน้าที่ในองกรณ์ของเรา

ในอดีต AI นำมาใช้เพื่อทำการคาดการณ์อนาคตโดยอิงจากข้อมูลเดิมที่เป็นรูปแบบ แต่ในระยะเวลา 2 ปีที่ผ่านมามี use case มากมายที่ใช้ AI ในการสร้าง content ทั้งในรูปแบบข้อความ รูปภาพหรือวิดีโอคลิป ซึ่งทำให้เกิด use case ใหม่ๆ เช่น ทางด้านของ healthcare สามารถใช้ AI เพื่อสร้างแผนการรักษาแบบเฉพาะบุคคลนั้นๆได้

Generative AI ก็คือ data driven application ซึ่งยังคงต้องการการจัดการ resource ต่างๆอยู่ทั้ง storage, operational databases, analytics and data lakes, data integration และ data governance ดังนั้นโครงสร้างของ data foundation จึงมีความสำคัญมากๆ

เทคนิคการปรับ foundation model

เราสามารถปรับแต่ง foundation model ได้โดยใช้ 3 เทคนิคนี้

Retrieval Augmented Generation (RAG) เป็นการเปลี่ยนข้อมูล(ซึ่งอาจจะเก็บไว้ใน data base, data lake, data warehouse หรือ vector engine )ที่ใช้สำหรับ generative AI ก่อนที่ generative AI จะสร้างบางอย่างออกมา
Fine-tune a pre-trained model ทำให้ model มีความเจาะจงในงานนั้นๆมากขึ้น โดยการป้อน small rebel dataset เข้าไป เช่น ชุดที่มีทั้งคำถามและคำตอบที่มี transformationแล้ว เพื่อให้ model สามารถเข้าใจและตอบตาม pattern ที่เราต้องการโดยไม่ต้องเขียน prompt
Continued pre-training นำ model มาเรียนรู้กับข้อมูลขนาดใหญ่ที่ไม่ได้ถูก rebel เช่น ใช้ Research Article ให้ model มีความเจาะจงในด้านนั้นๆเพื่อให้เข้าใจคำศัพท์ที่ใช้เฉพาะด้าน

หมายเหตุ ในการบรรยายนี้จะเน้นไปที่เทคนิคแบบ RAG เป็นหลัก

ขั้นตอนการทำงานของ RAG

จาก prompt user ส่งไปยัง listening engine เพื่อ extract สิ่งที่ user ต้องการผ่าน key words
แยกประเภทการดึง context โดย Situation context ดึงข้อมูลมาจาก data base และ Semantic context ดึงข้อมูลจาก vector store
รวม context ไว้ใน prompt ก่อนส่งไปที่ LLM generative AI
LLM generative AI ส่งข้อมูลกลับไปหา user

Vector embedding

ข้อมูลที่อยู่ใน vector store เรียกว่า vector embedding(tokenization) ซึ่งก็คือ การแปลงจากข้อมูลต่างๆที่เราเข้าใจ เช่น ข้อความ รูปภาพหรือวิดีโอคลิป ให้เป็นตัวเลขซึ่งเก็บไว้ใน data base ที่มีไทป์เฉพาะซึ่งก็คือ vector store

โครงสร้างของ RAG

2 ส่วนใหญ่ๆในการสร้าง data foundation เพื่อสร้าง generative AI application สำหรับ RAG มีดังนี้

End user critical path เป็น interface ที่ต่อกับระบบ

ขั้นตอนการทำงานมีดังนี้

User ถามคำถาม
จากนั้นรับ conversation state/history มาจาก data base
รับข้อมูลที่เป็น fact-base information
ทำการ tokenize หรือ vector embedding จากนั้นจึงนำไปให้ LLM
รัน similarity search เพื่อให้ได้ input ที่เป็น semantic แล้วรวมกันเป็น prompt
เรียก LLM model เพื่อสร้างข้อมูล
อัพเดท conversation state/history
ส่งข้อมูลกลับไปที่ user

Behind the scenes เป็น data pipeline องค์ประกอบหลักๆมีดังนี้

Ingestion/processing
conversation state/history ใช้เป็น data base สำหรับเก็บ conversation
Data base สำหรับ situational context
Vector สำหรับ semantic context
Data integration การจัดการข้อมูลและ ETL

ในส่วนโครงสร้างของ Fine-tune a pre-trained model และ Continued pre-training จะมีความคล้ายกันโดยสิ่งที่แตกต่างจาก architect ของ RAG คือไม่มี vector เพราะ semantic ถูกใส่ไปใน model แล้ว

สรุป

จะเห็นได้ว่าการเตรียมข้อมูลและการสร้างโครงสร้างของ data foundation มีความสำคัญมากๆในการสร้าง generative AI หากพื้นฐานเหล่านี้มีความบกพร่อง generative AI ที่เราสร้างก็จะไม่สามารถนำมาใช้ประโยชน์ได้เลย

อ้างอิง

บทความนี้เขียนมาจากการบรรยายภายในงาน AWS Summit Bangkok 2024 หัวข้อ Build a data foundation to fuel generative AI
สามารถรับชมเนื้อหาที่ครบถ้วนได้ใน Build a data foundation to fuel generative AI

การสร้าง data foundation เพื่อเป็นรากฐานให้กับ generative AI จากงาน AWS Summit Bangkok 2024

เทคนิคการปรับ foundation model

ขั้นตอนการทำงานของ RAG

Vector embedding

โครงสร้างของ RAG

สรุป

อ้างอิง

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS