เปิดตัว GPT-4 การพัฒนาของ AI ตัวใหม่จาก OpenAI
สวัสดีครับ
ผมปิยชาติ จาก classmethod thailand ครับ
ครั้งนี้จะมาแนะนำรายละเอียดเกี่ยวกับ GPT-4 ที่เปิดตัวไปเมื่อวันที่ 15 มีนาคม 2023 ที่ผ่านมาครับ
มาดูกันว่ามีการพัฒนาจากเวอร์ชั่นก่อนอย่างไร และ มีอะไรที่น่าสนใจขึ้นมาบ้างครับ
รายละเอียดอย่างเป็นทางการ
รายละเอียดภาพรวมของ GPT-4
สามารถดูรายละเอียดเพิ่มเติมของข้อมูลการวิจัยตามลิ้งค์ด้านล่างนี้ครับ
นอกจากนี้ยังมีปล่อยตัวอย่างการสาธิตสำหรับนักพัฒนาด้วย
ภาพรวม
GPT-4 เปิดตัวในรูปแบบ multimodal model ขนาดใหญ่ตามข่าวลือที่ออกมาก่อนหน้านี้ครับ
โดยเป็นโมเดลที่รองรับการป้อนข้อมูลทั้งภาพและข้อความ เพื่อแสดงผลลัพธ์ออกมาในรูปแบบข้อความครับ
(การป้อนข้อมูลด้วยภาพอยู่ในขั้นตอนการวิจัยและเป็นเพียงเป็นตัวอย่างเท่านั้น ยังไม่เปิดใช้งานในปัจจุบัน)
GPT-4 ได้ทำการทดสอบในระดับเดียวกับมนุษย์ในหลายๆรูปแบบ ตัวอย่างเช่น การผ่านเกณฑ์การสอบเนติบัณฑิตจำลองที่มีคะแนนประมาณ 10% ของผู้สอบที่คะแนนสูงสุด (ในขณะที่ GPT-3.5 ได้คะแนนต่ำกว่าประมาณ 10% ของผู้สอบที่คะแนนต่ำสุดในแบบทดสอบเดียวกัน )
โดยจะมีความยาวของ token สูงสุดอยู่ 2 เวอร์ชั่นคือ 8,192 และ 32,768 โดยเป็นการพัฒนาจากเดิมที่มีความยาวของ token สูงสุดเพียง 4,096 เท่านั้น หรือเป็น 2 เท่า และ 8 เท่าของ GPT-3.5 เลยทีเดียว (รายละเอียดเพิ่มเติมตรวจสอบได้ที่ Models - OpenAI API (english) )
โดยข้อมูลการเรียนรู้ยังไม่มีการเปลี่ยนแปลงคือใช้ข้อมูลจนถึงเดือนกันยายน ปี 2021 เหมือนเดิม
นอกจากนี้ GPT-4 ยังมีการปรับปรุงด้านความปลอดภัยและความสอดคล้องกันของข้อมูลเพิ่มขึ้นอีกด้วย
- การตอบสนองคำขอเนื้อหาที่ไม่ได้รับอนุญาตลดลงถึง 82%
- การให้คำตอบที่เชื่อถือได้จากความเป็นจริงเพิ่มขึ้นถึง 40%
ฟีเจอร์การป้อนข้อความของ GPT-4 สามารถใช้งานได้กับ ChatGPT Plus (มีขีดจำกัด) และในส่วนของ API สามารถลงทะเบียนได้ที่ GPT-4 API waitlist (english)
นอกจากนี้ ยังได้เปิด Open Source ที่เป็น framework สำหรับประเมินประสิทธิภาพของโมเดล AI ในชื่อ OpenAI Evals (english) โดยมีการให้ข้อมูลเพิ่มเติมว่าจะมีการเปิดการเข้าถึง API ในเร็วๆนี้ด้วย
รายละเอียด
ChatGPT Plus
ผู้ใช้งาน ChatGPT Plus จะได้รับสิทธิ์ในการเข้าถึง GPT-4 โดยจะมีการกำหนดขีดจำกัดในการใช้งานให้เหมาะสมกับความต้องการและประสิทธิภาพของระบบ
อย่างไรก็ตาม ระบบมีแผนที่จะ Scale up และปรับปรุงให้เหมาะสมภายในอีกไม่กี่เดือนต่อจากนี้
นอกจากนี้ยังมีแผนที่จะให้บริการ GPT-4 โดยไม่คิดค่าบริการเพื่อให้ผู้ที่ยังไม่ได้ใช้ GPT-4 ได้ลองใช้งานกันอีกด้วย
API
สำหรับการใช้งา่น GPT-4 API สามารถลงทะเบียน Waitlist ได้จากลิ้งค์ทางด้านล่างนี้
โดยจะเริ่มทำการเชิญนักพัฒนาบางส่วนและมีแผนที่ขยายเพิ่มขึ้นเรื่อยๆในอนาคต
และในเอกสารเกี่ยวกับ API มีการระบุโมเดลไว้แล้ว สามารถดูรายละเอียดได้ทางด้านล่าง
ตามที่ระบุในรายละเอียด จะมีโมเดล 2 ชนิดซึ่งแบ่งตามความยาวของ token ใน Context เหมือนกับ gpt-3.5-turbo ที่จะมี snapshot และโมเดลที่อัปเดตเป็นโมเดลแนะนำที่เสถียรขึ้นโดยอัตโนมัติ
gpt-4
: Version ความยาว 8K tokens (อัพเดทอัตโนมัติ)gpt-4-0314
: Version ความยาว 8K tokens (เป็น snapshot ของ 0314 โดยจะสนับสนุนถึงวันที่ 14 มิถุนายน)gpt-4-32k
: Version ความยาว 32K tokens (อัพเดทอัตโนมัติ)gpt-4-32k-0314
: Version ความยาว 32K tokens (เป็น snapshot ของ 0314 โดยจะสนับสนุนถึงวันที่ 14 มิถุนายน)
ซึ่งใน GPT-3.5 จะมี 4k token หมายความว่าสามารถใช้ความยาว context ได้มากขึ้น 2 เท่าหรือ 8 เท่าเลยทีเดียว
สามารถรับเข้าและส่งออก context ที่ค่อนข้างยาวได้โดยสามารถคาดหวังผลจากการปรับปรุงด้านประสิทธิภาพในการสรุปข้อมูลหรือขอบเขตในการค้นหา
โดยค่าบริการจะแตกต่างจากวิธีการคำนวณ และความแตกต่างระหว่าง token ขาเข้า (prompt) และ token ขาออก (Completion)
- token ขาเข้า(prompt) : $0.03 / 1k tokens
- token ขาออก(Completion) : $0.06 / 1k tokens
gpt-3.5-turbo
มี token เข้าออกเป็นราคาเดียวกันอยู่ที่ 1k token ต่อ 0.002$
อัตราจำกัดเริ่มต้นอยู่ที่ 40k token ต่อนาที และ 200 คำขอต่อนาที
ตรวจสอบรายละเอียดค่าบริการได้ทางด้านล่าง
เปรียบเทียบ GPT-3.5 และ GPT-4
แม้ว่า GPT-3.5 และ GPT-4 จะมีความคล้ายคลึงกัน แต่ GPT-4 จะมีความน่าเชื่อถือสูงกว่าและมีความสร้างสรรค์มากกว่า รวมถึงยังสามารถจัดการคำสั่งที่ซับซ้อนกว่าได้
โดยจะมีการเปรียบเทียบกับหลายๆ benchmark โดยทางด้านล่างจะเป็นผลลัพธ์ที่ได้จากการจำลองการทดสอบที่ออกแบบมาเพื่อทดสอบความสามารถของมนุษย์แต่ในโมเดลการประมวลผลข้อความ (GPT-4 ที่ไม่มี Vision) ก็ยังเหนือกว่า GPT-3.5 อย่างมาก
GPT-4 ไม่เพียงสามารถประมวลผลภาพได้เท่านั้น แต่ยังมีการพัฒนาประสิทธิภาพพื้นฐานขึ้นอีกด้วย
ถึงจะเป็น benchmark ที่ออกแบบมาสำหรับโมเดลการเรียนรู้ ไม่ว่าจะเป็นโมเดลภาษาขนาดใหญ่ที่มีอยู่แล้ว โมเดลที่ปรับแต่งมาเพื่อใช้กับ benchmark เป็นต้น ล้วนแล้วแต่มีประสิทธิภาพเหนือกว่าโมเดลที่ทันสมัยที่สุด (SOTA) ส่วนใหญ่อย่างเห็นได้ชัด
และ GPT-4 ยังมีประสิทธิภาพในการใช้งานกับหลายภาษาอีกด้วย
เนื่องจากมี benchmark การเรียนรู้หลายๆตัวจะเขียนด้วยภาษาอังกฤษ ดังนั้นเพื่อทดสอบความสามารถในการใช้งานหลายภาษาจะใช้ Azure Translate แปล benchmark MMLU แล้วทำการประเมินผล
ซึ่งผลที่ได้พบว่าใน 24 จาก 26 ภาษารวมถึงภาษาไทยด้วย มีประสิทธิภาพทางด้านภาษาเพิ่มขึ้นมากกว่า GPT-3.5 ที่เป็นภาษาอังกฤษอีกด้วย
การป้อนข้อมูลรูปภาพ
GPT-4 สามารถรับข้อมูลทั้งข้อความและรูปภาพได้ และยังสามารถสร้างข้อความจากข้อมูลที่นำเข้ามาจากข้อความหรือรูปภาพได้ แต่การป้อนข้อมูลด้วยภาพยังอยู่ในขั้นตอนการวิจัยและยังไม่เปิดตัวอย่างเป็นทางการ
การประเมินผลของการป้อนข้อมูลรูปภาพจะถูกประเมินโดยใช้ benchmark ที่เป็นมาตรฐานทางวิชาการเพื่อการประเมินในช่วงพรีวิว และในอนาคตจะมีการเปิดเผยผลการประเมินและการวิเคราะห์เพิ่มเติม รวมถึงมีแผนที่จะดำเนินการทดสอบผลกระทบของเทคนิคเวลาอย่างละเอียดเพื่อค้นหาประสิทธิภาพในอนาคต
ด้านล่างนี้คือประสิทธิภาพของ benchmark ในปัจจุบัน
Steerability(ความสามารถในการควบคุม)
GPT-4 กำลังได้รับการพัฒนาเรื่องคุณสมบัติ Steerability (ความสามารถในการควบคุม) โดยนักพัฒนา (รวมถึงผู้ใช้ ChatGPT ในเร็วๆ นี้) ซึ่งสามารถกำหนดบทบาทและงานของ AI ได้โดยใช้ข้อความ "ระบบ" เพื่อกำหนดทิศทางการทำงานของ AI
ด้วยข้อความระบบ ผู้ใช้งาน API จะสามารถปรับแต่งการใช้งานได้ตามขอบเขตที่กำหนดไว้
ความสอดคล้องของข้อมูล
GPT-4 มีประสิทธิภาพที่ดีขึ้นจากรุ่นก่อนๆ อย่างไรก็ตามมันยังมีข้อจำกัดเดียวกับกับโมเดล GPT ก่อนๆเกี่ยวกับความเชื่อในข้อมูลของตนแบบสุดโต่ง และยังมีความเสี่ยงที่จะเกิด "ภาพหลอน" หรือความผิดพลาดในการให้ข้อมูลได้
ถ้าจะใช้ผลลัพธ์จาก GPT-4 โดยเฉพาะในบริบทที่เกี่ยวข้องกับบุคคลที่มีส่วนได้เสียกับข้อมูลนั้นๆจะต้องใช้โปรโตคอลที่เหมาะสมเพื่อตรวจสอบความถูกต้อง (เช่น การตรวจสอบโดยมนุษย์ ,การรับรองด้วยหลักฐานจากบริบทเพิ่มเติม หรือการหลีกเลี่ยงการใช้งานในกรณีที่มีความเสี่ยง) เพื่อระวังในบริบทดังกล่าว
และถึงแม้ GPT-4 จะยังมีปัญหาเรื่องนี้อยู่ แต่ในเรื่องของความสอดคล้องของข้อมูลแล้ว GPT-4 มีการปรับปรุงจาก GPT-3.5 มาพอสมควรแล้ว โดย OpenAI ได้ทำการประเมินความถูกต้องของข้อมูลเป็นการภายในแล้ว โดยได้รับคะแนนสูงกว่า GPT-3.5 เวอร์ชั่นใหม่ถึง 40%
และเมื่อทำการทดสอบโดยใช้ benchmark ภายนอก เช่น TruthfulQA พบว่า GPT-4 มีการปรับปรุงที่ดีขึ้นอย่างมีนัยสำคัญ จากการทดสอบการแยกข้อเท็จจริงจากข้อเท็จจริงที่ไม่ถูกต้องจากฝ่ายตรงข้าม
ความปลอดภัย
ใน GPT-4 เพื่อทำให้เกิดความปลอดภัยและสอดคล้องกันมากขึ้นตั้งแต่ขั้นต้นของการทดสอบจะมีการดำเนินการเลือกและกรองข้อมูลก่อนการทดสอบ และประเมินโดยให้ผู้เชี่ยวชาญมีส่วนร่วม รวมถึงการปรับปรุงความปลอดภัยอย่างต่อเนื่องซ้ำไปซ้ำมา
โดยจะมีการเก็บรวบรวมข้อมูลเพิ่มเติมจากคำแนะนำจากผู้เชี่ยวชาญ อย่างเช่น การพัฒนา GPT-4 ให้ปฏิเสธคำขอเกี่ยวกับวิธีการสังเคราะห์สารเคมีที่เป็นอันตราย
ใน GPT-4 ได้เพิ่มสัญญาณที่เกี่ยวกับความปลอดภัยในกระบวนกาทดสอบ RLHF ซึ่งทำให้โมเดลมีความสามารถในการลดเอาท์พุตที่เป็นอันตรายได้โดยจะปฏิเสธความต้องการของเนื้อหาที่เกี่ยวข้อง
ในด้านผลลัพธ์เมื่อเปรียบเทียบกับ GPT-3.5 แล้ว GPT-4 มีการปรับปรุงด้านความปลอดภัยเป็นอย่างมาก
- เมื่อเปรียบเทียบกับ GPT-3.5 มีแนวโน้มลดลงถึง 82% ในการตอบสนองคำขอเนื้อหาที่ไม่ได้รับอนุญาต
- ใน GPT-4 มีการเพิ่มความถี่ในการตอบสนองตามนโยบายของบริษัทที่เกี่ยวข้องกับการปรึกษาทางการแพทย์หรือพฤติกรรมที่สุ่มเสี่ยงต่อการทำร้ายตนเองขึ้นถึง 29%
ขั้นตอนการทดสอบ
โมเดล GPT-4 มีพื้นฐานแบบเดียวกับโมเดล GPT ก่อนหน้านี้ ซึ่งเป็นโมเดลที่ทำนายคำถัดไปจากประโยค ซึ่งจะใช้การเรียนรู้จากข้อมูลต่างๆ เช่น ข้อมูลที่เปิดเผยสาธารณะ (บนอินเทอร์เน็ต เป็นต้น) และ ข้อมูลที่ได้รับอนุญาตจากทางบริษัท
ด้วยข้อมูลที่มีหลากหลายอาจจะแสดงคำตอบที่ถูกต้องและไม่ถูกต้องในปัญหาทางคณิตศาสตร์, การคาดการณ์แม่นยำและไม่แม่นยำ, คำพูดที่ขัดแย้งในตัวเองและที่สอดคล้องกัน หรือจะเป็น ความคิดเห็นและความเชื่อที่หลากหลาย ดังนั้นอาจมีการตอบสนองที่แตกต่างกันตามความต้องการของผู้ใช้งาน
เพื่อให้การทำงานเป็นไปตามความต้องการของผู้ใช้งาน จึงมีใช้การเรียนรู้จากคำแนะนำของมนุษย์ (RLHF) ซึ่งจะช่วยในการปรับปรุงการทำงานของโมเดลได้อย่างละเอียด
โดยเนื้อหาในส่วนนี้ส่วนใหญ่จะคล้ายๆกับ GPT-3.5
คาดการณ์การปรับขนาดได้ (Scailing)
นอกจากนี้ ยังได้มีการร่วมมือกับ Azure เพื่อออกแบบเครื่องคอมพิวเตอร์ตั้งแต่ระดับเริ่มต้นไปจนถึง super cpmputer เพื่อรองรับการโหลดงานจำนวนมาก และได้มีการทดสอบเบื้องต้นใน GPT-3.5 หลังจากนั้นจึงทำการแก้ไขบั๊กต่างๆ และปรับปรุงพื้นฐานของระบบให้ดียิ่งขึ้น ผลที่ได้คือ GPT-4 สามารถทดสอบได้อย่างมั่นคงต่อเนื่อง และเป็นครั้งแรกที่โมเดลขนาดใหญ่สามารถทำนายประสิทธิภาพได้ล่วงหน้าและแม่นยำ
ในการทดสอบที่มีขนาดใหญ่อย่างเช่น GPT-4 เนื่องจากการปรับแต่งโมเดลที่ใหญ่ขนาดนี้เป็นสิ่งที่เป็นไปไม่ได้ด้วยขนาดของโมเดลและการทดสอบที่ซับซ้อน ด้วยเหตุนี้ ความสามารถในการคาดการณ์การปรับขนาด (Scailing) จึงเป็นสิ่งสำคัญอย่างยิ่ง
และ GPT-4 ประสบความสำเร็จในการทำนายการสูญเสียขั้นสุดท้ายได้ล่วงหน้าอย่างแม่นยำด้วยการประมาณค่าโดยลดความซับซ้อนในการคำนวณของแบบจำลองที่ฝึกด้วยวิธีการเดียวกันถึง 10,000 เท่า
ด้วยการสนับสนุนนี้จะช่วยให้สามารถทำนายดัชนีเพื่อเพิ่มประสิทธิภาพในระหว่างการเรียนรู้ได้อย่างแม่นยำ และเริ่มพัฒนาวิธีการทำนายดัชนีที่ง่ายต่อการตีความขึ้นไปอีก
OpenAI Evals
ได้มีการเปิด OpenAI Evals และ Software framework ที่เป็น open source สำหรับสร้างและทดสอบ benchmark เพื่อประเมินประสิทธิภาพของตัวอย่างแต่ละรายการสำหรับโมเดลอย่างเช่น GPT-4
เนื่องจากโค้ดทั้งหมดของ OpenAI Evals เป็น open source ซึ่งจะเปิดโอกาสให้สร้างคลาสใหม่ๆเพื่อปรับปรุงโลจิกในการประเมินที่กำหนดเองได้ อย่างไรก็ตาม มักพบว่า benchmark บางส่วนจะเป็นไปตาม "template" หนึ่งในหลายๆแบบ ดังนั้นจึงมีการรวบรวม template ที่มีประโยชน์ที่สุดไว้ใน open source นี้
เมื่อทำการสร้างการประเมินใหม่ก็จะสร้าง instance ของ template ตัวใดตัวนึงขึ้นมาและสามารถแชร์ข้อมูลได้
รายละเอียดเพิ่มเติมตรวจสอบทางด้านล่าง
Bing คือ GPT-4 ที่เน้นการค้นหา
มีการประกาศผ่านบล็อกของ Microsoft Bing
และปัจจุบันสามารถใช้งาน GPT-4 ผ่าน Bing กันได้แล้ว
บทความที่เกี่ยวข้อง (English)
สรุป
เป็นยังไงกันบ้างครับ กับข้อมูลที่นำมาให้ได้ดูกัน ดูจากความสามารถที่เพิ่มขึ้นแล้วในอนาคต GPT-4 น่าจะเข้ามามีบทบาทสำคัญในชีวิตของพวกเราเพิ่มขึ้นไม่มากก็น้อยเลยล่ะครับ หวังว่าบทความนี้จะเป็นประโยชน์ต่อผู้ที่ต้องการใช้งาน GPT-4 กันนะครับ