เปิดตัว GPT-4 การพัฒนาของ AI ตัวใหม่จาก OpenAI

2023.06.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

สวัสดีครับ

ผมปิยชาติ จาก classmethod thailand ครับ

ครั้งนี้จะมาแนะนำรายละเอียดเกี่ยวกับ GPT-4 ที่เปิดตัวไปเมื่อวันที่ 15 มีนาคม 2023 ที่ผ่านมาครับ
มาดูกันว่ามีการพัฒนาจากเวอร์ชั่นก่อนอย่างไร และ มีอะไรที่น่าสนใจขึ้นมาบ้างครับ

รายละเอียดอย่างเป็นทางการ

รายละเอียดภาพรวมของ GPT-4

สามารถดูรายละเอียดเพิ่มเติมของข้อมูลการวิจัยตามลิ้งค์ด้านล่างนี้ครับ

นอกจากนี้ยังมีปล่อยตัวอย่างการสาธิตสำหรับนักพัฒนาด้วย

ภาพรวม

GPT-4 เปิดตัวในรูปแบบ multimodal model ขนาดใหญ่ตามข่าวลือที่ออกมาก่อนหน้านี้ครับ

โดยเป็นโมเดลที่รองรับการป้อนข้อมูลทั้งภาพและข้อความ เพื่อแสดงผลลัพธ์ออกมาในรูปแบบข้อความครับ

(การป้อนข้อมูลด้วยภาพอยู่ในขั้นตอนการวิจัยและเป็นเพียงเป็นตัวอย่างเท่านั้น ยังไม่เปิดใช้งานในปัจจุบัน)

GPT-4 ได้ทำการทดสอบในระดับเดียวกับมนุษย์ในหลายๆรูปแบบ ตัวอย่างเช่น การผ่านเกณฑ์การสอบเนติบัณฑิตจำลองที่มีคะแนนประมาณ 10% ของผู้สอบที่คะแนนสูงสุด (ในขณะที่ GPT-3.5 ได้คะแนนต่ำกว่าประมาณ 10% ของผู้สอบที่คะแนนต่ำสุดในแบบทดสอบเดียวกัน )

โดยจะมีความยาวของ token สูงสุดอยู่ 2 เวอร์ชั่นคือ 8,192 และ 32,768 โดยเป็นการพัฒนาจากเดิมที่มีความยาวของ token สูงสุดเพียง 4,096 เท่านั้น หรือเป็น 2 เท่า และ 8 เท่าของ GPT-3.5 เลยทีเดียว （รายละเอียดเพิ่มเติมตรวจสอบได้ที่ Models - OpenAI API (english) ）

โดยข้อมูลการเรียนรู้ยังไม่มีการเปลี่ยนแปลงคือใช้ข้อมูลจนถึงเดือนกันยายน ปี 2021 เหมือนเดิม

นอกจากนี้ GPT-4 ยังมีการปรับปรุงด้านความปลอดภัยและความสอดคล้องกันของข้อมูลเพิ่มขึ้นอีกด้วย

การตอบสนองคำขอเนื้อหาที่ไม่ได้รับอนุญาตลดลงถึง 82%
การให้คำตอบที่เชื่อถือได้จากความเป็นจริงเพิ่มขึ้นถึง 40%

ฟีเจอร์การป้อนข้อความของ GPT-4 สามารถใช้งานได้กับ ChatGPT Plus (มีขีดจำกัด) และในส่วนของ API สามารถลงทะเบียนได้ที่ GPT-4 API waitlist (english)

นอกจากนี้ ยังได้เปิด Open Source ที่เป็น framework สำหรับประเมินประสิทธิภาพของโมเดล AI ในชื่อ OpenAI Evals (english) โดยมีการให้ข้อมูลเพิ่มเติมว่าจะมีการเปิดการเข้าถึง API ในเร็วๆนี้ด้วย

รายละเอียด

ChatGPT Plus

ผู้ใช้งาน ChatGPT Plus จะได้รับสิทธิ์ในการเข้าถึง GPT-4 โดยจะมีการกำหนดขีดจำกัดในการใช้งานให้เหมาะสมกับความต้องการและประสิทธิภาพของระบบ

อย่างไรก็ตาม ระบบมีแผนที่จะ Scale up และปรับปรุงให้เหมาะสมภายในอีกไม่กี่เดือนต่อจากนี้

นอกจากนี้ยังมีแผนที่จะให้บริการ GPT-4 โดยไม่คิดค่าบริการเพื่อให้ผู้ที่ยังไม่ได้ใช้ GPT-4 ได้ลองใช้งานกันอีกด้วย

API

สำหรับการใช้งา่น GPT-4 API สามารถลงทะเบียน Waitlist ได้จากลิ้งค์ทางด้านล่างนี้

โดยจะเริ่มทำการเชิญนักพัฒนาบางส่วนและมีแผนที่ขยายเพิ่มขึ้นเรื่อยๆในอนาคต

และในเอกสารเกี่ยวกับ API มีการระบุโมเดลไว้แล้ว สามารถดูรายละเอียดได้ทางด้านล่าง

ตามที่ระบุในรายละเอียด จะมีโมเดล 2 ชนิดซึ่งแบ่งตามความยาวของ token ใน Context เหมือนกับ gpt-3.5-turbo ที่จะมี snapshot และโมเดลที่อัปเดตเป็นโมเดลแนะนำที่เสถียรขึ้นโดยอัตโนมัติ

gpt-4 : Version ความยาว 8K tokens (อัพเดทอัตโนมัติ)
gpt-4-0314 : Version ความยาว 8K tokens (เป็น snapshot ของ 0314 โดยจะสนับสนุนถึงวันที่ 14 มิถุนายน)
gpt-4-32k : Version ความยาว 32K tokens (อัพเดทอัตโนมัติ)
gpt-4-32k-0314 : Version ความยาว 32K tokens (เป็น snapshot ของ 0314 โดยจะสนับสนุนถึงวันที่ 14 มิถุนายน)

ซึ่งใน GPT-3.5 จะมี 4k token หมายความว่าสามารถใช้ความยาว context ได้มากขึ้น 2 เท่าหรือ 8 เท่าเลยทีเดียว

สามารถรับเข้าและส่งออก context ที่ค่อนข้างยาวได้โดยสามารถคาดหวังผลจากการปรับปรุงด้านประสิทธิภาพในการสรุปข้อมูลหรือขอบเขตในการค้นหา

โดยค่าบริการจะแตกต่างจากวิธีการคำนวณ และความแตกต่างระหว่าง token ขาเข้า (prompt) และ token ขาออก (Completion)

token ขาเข้า（prompt） : $0.03 / 1k tokens
token ขาออก（Completion） : $0.06 / 1k tokens

gpt-3.5-turbo มี token เข้าออกเป็นราคาเดียวกันอยู่ที่ 1k token ต่อ 0.002$

อัตราจำกัดเริ่มต้นอยู่ที่ 40k token ต่อนาที และ 200 คำขอต่อนาที

ตรวจสอบรายละเอียดค่าบริการได้ทางด้านล่าง

เปรียบเทียบ GPT-3.5 และ GPT-4

แม้ว่า GPT-3.5 และ GPT-4 จะมีความคล้ายคลึงกัน แต่ GPT-4 จะมีความน่าเชื่อถือสูงกว่าและมีความสร้างสรรค์มากกว่า รวมถึงยังสามารถจัดการคำสั่งที่ซับซ้อนกว่าได้

โดยจะมีการเปรียบเทียบกับหลายๆ benchmark โดยทางด้านล่างจะเป็นผลลัพธ์ที่ได้จากการจำลองการทดสอบที่ออกแบบมาเพื่อทดสอบความสามารถของมนุษย์แต่ในโมเดลการประมวลผลข้อความ (GPT-4 ที่ไม่มี Vision) ก็ยังเหนือกว่า GPT-3.5 อย่างมาก

GPT-4 ไม่เพียงสามารถประมวลผลภาพได้เท่านั้น แต่ยังมีการพัฒนาประสิทธิภาพพื้นฐานขึ้นอีกด้วย

ถึงจะเป็น benchmark ที่ออกแบบมาสำหรับโมเดลการเรียนรู้ ไม่ว่าจะเป็นโมเดลภาษาขนาดใหญ่ที่มีอยู่แล้ว โมเดลที่ปรับแต่งมาเพื่อใช้กับ benchmark เป็นต้น ล้วนแล้วแต่มีประสิทธิภาพเหนือกว่าโมเดลที่ทันสมัยที่สุด (SOTA) ส่วนใหญ่อย่างเห็นได้ชัด

และ GPT-4 ยังมีประสิทธิภาพในการใช้งานกับหลายภาษาอีกด้วย

เนื่องจากมี benchmark การเรียนรู้หลายๆตัวจะเขียนด้วยภาษาอังกฤษ ดังนั้นเพื่อทดสอบความสามารถในการใช้งานหลายภาษาจะใช้ Azure Translate แปล benchmark MMLU แล้วทำการประเมินผล

ซึ่งผลที่ได้พบว่าใน 24 จาก 26 ภาษารวมถึงภาษาไทยด้วย มีประสิทธิภาพทางด้านภาษาเพิ่มขึ้นมากกว่า GPT-3.5 ที่เป็นภาษาอังกฤษอีกด้วย

การป้อนข้อมูลรูปภาพ

GPT-4 สามารถรับข้อมูลทั้งข้อความและรูปภาพได้ และยังสามารถสร้างข้อความจากข้อมูลที่นำเข้ามาจากข้อความหรือรูปภาพได้ แต่การป้อนข้อมูลด้วยภาพยังอยู่ในขั้นตอนการวิจัยและยังไม่เปิดตัวอย่างเป็นทางการ

การประเมินผลของการป้อนข้อมูลรูปภาพจะถูกประเมินโดยใช้ benchmark ที่เป็นมาตรฐานทางวิชาการเพื่อการประเมินในช่วงพรีวิว และในอนาคตจะมีการเปิดเผยผลการประเมินและการวิเคราะห์เพิ่มเติม รวมถึงมีแผนที่จะดำเนินการทดสอบผลกระทบของเทคนิคเวลาอย่างละเอียดเพื่อค้นหาประสิทธิภาพในอนาคต

ด้านล่างนี้คือประสิทธิภาพของ benchmark ในปัจจุบัน

Steerability（ความสามารถในการควบคุม）

GPT-4 กำลังได้รับการพัฒนาเรื่องคุณสมบัติ Steerability (ความสามารถในการควบคุม) โดยนักพัฒนา (รวมถึงผู้ใช้ ChatGPT ในเร็วๆ นี้) ซึ่งสามารถกำหนดบทบาทและงานของ AI ได้โดยใช้ข้อความ "ระบบ" เพื่อกำหนดทิศทางการทำงานของ AI

ด้วยข้อความระบบ ผู้ใช้งาน API จะสามารถปรับแต่งการใช้งานได้ตามขอบเขตที่กำหนดไว้

ความสอดคล้องของข้อมูล

GPT-4 มีประสิทธิภาพที่ดีขึ้นจากรุ่นก่อนๆ อย่างไรก็ตามมันยังมีข้อจำกัดเดียวกับกับโมเดล GPT ก่อนๆเกี่ยวกับความเชื่อในข้อมูลของตนแบบสุดโต่ง และยังมีความเสี่ยงที่จะเกิด "ภาพหลอน" หรือความผิดพลาดในการให้ข้อมูลได้

ถ้าจะใช้ผลลัพธ์จาก GPT-4 โดยเฉพาะในบริบทที่เกี่ยวข้องกับบุคคลที่มีส่วนได้เสียกับข้อมูลนั้นๆจะต้องใช้โปรโตคอลที่เหมาะสมเพื่อตรวจสอบความถูกต้อง (เช่น การตรวจสอบโดยมนุษย์ ,การรับรองด้วยหลักฐานจากบริบทเพิ่มเติม หรือการหลีกเลี่ยงการใช้งานในกรณีที่มีความเสี่ยง) เพื่อระวังในบริบทดังกล่าว

และถึงแม้ GPT-4 จะยังมีปัญหาเรื่องนี้อยู่ แต่ในเรื่องของความสอดคล้องของข้อมูลแล้ว GPT-4 มีการปรับปรุงจาก GPT-3.5 มาพอสมควรแล้ว โดย OpenAI ได้ทำการประเมินความถูกต้องของข้อมูลเป็นการภายในแล้ว โดยได้รับคะแนนสูงกว่า GPT-3.5 เวอร์ชั่นใหม่ถึง 40% 　

และเมื่อทำการทดสอบโดยใช้ benchmark ภายนอก เช่น TruthfulQA พบว่า GPT-4 มีการปรับปรุงที่ดีขึ้นอย่างมีนัยสำคัญ จากการทดสอบการแยกข้อเท็จจริงจากข้อเท็จจริงที่ไม่ถูกต้องจากฝ่ายตรงข้าม

ความปลอดภัย

ใน GPT-4 เพื่อทำให้เกิดความปลอดภัยและสอดคล้องกันมากขึ้นตั้งแต่ขั้นต้นของการทดสอบจะมีการดำเนินการเลือกและกรองข้อมูลก่อนการทดสอบ และประเมินโดยให้ผู้เชี่ยวชาญมีส่วนร่วม รวมถึงการปรับปรุงความปลอดภัยอย่างต่อเนื่องซ้ำไปซ้ำมา

โดยจะมีการเก็บรวบรวมข้อมูลเพิ่มเติมจากคำแนะนำจากผู้เชี่ยวชาญ อย่างเช่น การพัฒนา GPT-4 ให้ปฏิเสธคำขอเกี่ยวกับวิธีการสังเคราะห์สารเคมีที่เป็นอันตราย

ใน GPT-4 ได้เพิ่มสัญญาณที่เกี่ยวกับความปลอดภัยในกระบวนกาทดสอบ RLHF ซึ่งทำให้โมเดลมีความสามารถในการลดเอาท์พุตที่เป็นอันตรายได้โดยจะปฏิเสธความต้องการของเนื้อหาที่เกี่ยวข้อง

ในด้านผลลัพธ์เมื่อเปรียบเทียบกับ GPT-3.5 แล้ว GPT-4 มีการปรับปรุงด้านความปลอดภัยเป็นอย่างมาก

เมื่อเปรียบเทียบกับ GPT-3.5 มีแนวโน้มลดลงถึง 82% ในการตอบสนองคำขอเนื้อหาที่ไม่ได้รับอนุญาต
ใน GPT-4 มีการเพิ่มความถี่ในการตอบสนองตามนโยบายของบริษัทที่เกี่ยวข้องกับการปรึกษาทางการแพทย์หรือพฤติกรรมที่สุ่มเสี่ยงต่อการทำร้ายตนเองขึ้นถึง 29%

ขั้นตอนการทดสอบ

โมเดล GPT-4 มีพื้นฐานแบบเดียวกับโมเดล GPT ก่อนหน้านี้ ซึ่งเป็นโมเดลที่ทำนายคำถัดไปจากประโยค ซึ่งจะใช้การเรียนรู้จากข้อมูลต่างๆ เช่น ข้อมูลที่เปิดเผยสาธารณะ (บนอินเทอร์เน็ต เป็นต้น) และ ข้อมูลที่ได้รับอนุญาตจากทางบริษัท

ด้วยข้อมูลที่มีหลากหลายอาจจะแสดงคำตอบที่ถูกต้องและไม่ถูกต้องในปัญหาทางคณิตศาสตร์, การคาดการณ์แม่นยำและไม่แม่นยำ, คำพูดที่ขัดแย้งในตัวเองและที่สอดคล้องกัน หรือจะเป็น ความคิดเห็นและความเชื่อที่หลากหลาย ดังนั้นอาจมีการตอบสนองที่แตกต่างกันตามความต้องการของผู้ใช้งาน

เพื่อให้การทำงานเป็นไปตามความต้องการของผู้ใช้งาน จึงมีใช้การเรียนรู้จากคำแนะนำของมนุษย์ (RLHF) ซึ่งจะช่วยในการปรับปรุงการทำงานของโมเดลได้อย่างละเอียด

โดยเนื้อหาในส่วนนี้ส่วนใหญ่จะคล้ายๆกับ GPT-3.5

คาดการณ์การปรับขนาดได้ (Scailing)

นอกจากนี้ ยังได้มีการร่วมมือกับ Azure เพื่อออกแบบเครื่องคอมพิวเตอร์ตั้งแต่ระดับเริ่มต้นไปจนถึง super cpmputer เพื่อรองรับการโหลดงานจำนวนมาก และได้มีการทดสอบเบื้องต้นใน GPT-3.5 หลังจากนั้นจึงทำการแก้ไขบั๊กต่างๆ และปรับปรุงพื้นฐานของระบบให้ดียิ่งขึ้น ผลที่ได้คือ GPT-4 สามารถทดสอบได้อย่างมั่นคงต่อเนื่อง และเป็นครั้งแรกที่โมเดลขนาดใหญ่สามารถทำนายประสิทธิภาพได้ล่วงหน้าและแม่นยำ

ในการทดสอบที่มีขนาดใหญ่อย่างเช่น GPT-4 เนื่องจากการปรับแต่งโมเดลที่ใหญ่ขนาดนี้เป็นสิ่งที่เป็นไปไม่ได้ด้วยขนาดของโมเดลและการทดสอบที่ซับซ้อน ด้วยเหตุนี้ ความสามารถในการคาดการณ์การปรับขนาด (Scailing) จึงเป็นสิ่งสำคัญอย่างยิ่ง

และ GPT-4 ประสบความสำเร็จในการทำนายการสูญเสียขั้นสุดท้ายได้ล่วงหน้าอย่างแม่นยำด้วยการประมาณค่าโดยลดความซับซ้อนในการคำนวณของแบบจำลองที่ฝึกด้วยวิธีการเดียวกันถึง 10,000 เท่า

ด้วยการสนับสนุนนี้จะช่วยให้สามารถทำนายดัชนีเพื่อเพิ่มประสิทธิภาพในระหว่างการเรียนรู้ได้อย่างแม่นยำ และเริ่มพัฒนาวิธีการทำนายดัชนีที่ง่ายต่อการตีความขึ้นไปอีก

OpenAI Evals

ได้มีการเปิด OpenAI Evals และ Software framework ที่เป็น open source สำหรับสร้างและทดสอบ benchmark เพื่อประเมินประสิทธิภาพของตัวอย่างแต่ละรายการสำหรับโมเดลอย่างเช่น GPT-4

เนื่องจากโค้ดทั้งหมดของ OpenAI Evals เป็น open source ซึ่งจะเปิดโอกาสให้สร้างคลาสใหม่ๆเพื่อปรับปรุงโลจิกในการประเมินที่กำหนดเองได้ อย่างไรก็ตาม มักพบว่า benchmark บางส่วนจะเป็นไปตาม "template" หนึ่งในหลายๆแบบ ดังนั้นจึงมีการรวบรวม template ที่มีประโยชน์ที่สุดไว้ใน open source นี้

เมื่อทำการสร้างการประเมินใหม่ก็จะสร้าง instance ของ template ตัวใดตัวนึงขึ้นมาและสามารถแชร์ข้อมูลได้

รายละเอียดเพิ่มเติมตรวจสอบทางด้านล่าง

Bing คือ GPT-4 ที่เน้นการค้นหา

มีการประกาศผ่านบล็อกของ Microsoft Bing

และปัจจุบันสามารถใช้งาน GPT-4 ผ่าน Bing กันได้แล้ว

บทความที่เกี่ยวข้อง (English)

Duolingo: GPT-4 deepens the conversation on Duolingo.(English)

Be My Eyes: Be My Eyes uses GPT-4 to transform visual accessibility.(English)

Stripe: Stripe leverages GPT-4 to streamline user experience and combat fraud.(English)

Morgan Stanley: Morgan Stanley wealth management deploys GPT-4 to organize its vast knowledge base.(English)

Khan Academy: Khan Academy explores the potential for GPT-4 in a limited pilot program.(English)

Government of Iceland: How Iceland is using GPT-4 to preserve its language.(English)

【GPT-4が発表！】コンテキスト長が2倍・8倍に　事実の整合性や安全性も向上【Waitlist登録を急げ！】(Japanese)

สรุป

เป็นยังไงกันบ้างครับ กับข้อมูลที่นำมาให้ได้ดูกัน ดูจากความสามารถที่เพิ่มขึ้นแล้วในอนาคต GPT-4 น่าจะเข้ามามีบทบาทสำคัญในชีวิตของพวกเราเพิ่มขึ้นไม่มากก็น้อยเลยล่ะครับ หวังว่าบทความนี้จะเป็นประโยชน์ต่อผู้ที่ต้องการใช้งาน GPT-4 กันนะครับ