ทดสอบ LLM 3 รุ่นบน RTX 4070 Ti พบว่า Phi-3-mini เป็นตัวเลือกที่ดีที่สุดสำหรับงานจริง

การทดสอบ โมเดลภาษา (LLM) ที่ทำงานบนเครื่องคอมพิวเตอร์ส่วนบุคคล ด้วยการใช้กราฟิกการ์ด RTX 4070 Ti ของผู้เขียนเผยให้เห็นว่า แม้จะมีโมเดลหลายรุ่นที่โฆษณาว่าสามารถทำงานได้แบบ “ออฟไลน์” แต่จริง ๆ แล้วในสภาพแวดล้อมการทำงานจริงเพียงหนึ่งเดียวเท่านั้นที่ให้ผลลัพธ์ที่น่าเชื่อถือพอที่จะใช้เป็นเครื่องมือหลักต่อไป

Overview

การทดลองนี้เป็นส่วนหนึ่งของกระบวนการทดลองหลายปีของผู้เขียนที่พยายามหาทางใช้ LLM บนเครื่องเล่นเกมส่วนบุคคลโดยไม่พึ่งพา คลาวด์ บริการของผู้ให้บริการใหญ่ ๆ ตามที่ระบุในบทความของ XDA‑Developers ผู้เขียนได้เลือก สามโมเดล ที่ได้รับความนิยมในชุมชนโอเพ่นซอร์ส ได้แก่ LLaMA 2 7B‑Instruct, Mistral‑7B‑Instruct, และ Phi‑3‑mini‑4k‑instruct ทั้งหมดถูกปรับให้ทำงานแบบ quantized (int8 หรือ q4) เพื่อให้พอดีกับหน่วยความจำของ RTX 4070 Ti (ประมาณ 12 GB VRAM)

Test Setup

สภาพแวดล้อมการทดสอบใช้ระบบปฏิบัติการ Windows 11 พร้อม Python 3.11, PyTorch 2.2, และ HuggingFace Transformers รุ่นล่าสุด ผู้เขียนตั้งค่าให้แต่ละโมเดลทำงานในโหมด “offline” ผ่าน text-generation-webui โดยกำหนด max_new_tokens = 256 และใช้ prompt ที่ครอบคลุมหลายด้าน ได้แก่ การสรุปบทความ, การเขียนโค้ดพื้นฐาน, การแปลภาษา, และการตอบคำถามเชิงเทคนิค

Performance & Quality

ผลการทดสอบพบว่า Phi‑3‑mini‑4k‑instruct มีความสมดุลที่ดีที่สุดระหว่าง ความเร็ว (ประมาณ 12‑15 token/s) กับ คุณภาพของผลลัพธ์ – โดยเฉพาะในงานสรุปและการให้คำอธิบายโค้ดสั้น ๆ ส่วน LLaMA 2 7B‑Instruct แม้จะให้ผลลัพธ์ที่ค่อนข้างแม่นยำในงานเชิงความรู้ แต่ต้องใช้ VRAM เกือบเต็ม (≈11 GB) ทำให้ระบบต้องรันในโหมด swap บ่อยครั้ง ส่งผลให้ latency เพิ่มขึ้นอย่างชัดเจน ส่วน Mistral‑7B‑Instruct พบว่ามี การตอบสนองช้า (≈5 token/s) และในหลายกรณีให้ข้อความที่ซ้ำซ้อนหรือขาดความต่อเนื่อง ทำให้ไม่เหมาะกับการทำงานต่อเนื่อง

Phi‑3‑mini‑4k‑instruct – VRAM ใช้ประมาณ 4‑5 GB, ความเร็ว 12‑15 token/s, ผลลัพธ์ค่อนข้างสอดคล้องกับความคาดหวัง
LLaMA 2 7B‑Instruct – VRAM ใช้ประมาณ 10‑11 GB, ความเร็ว 8‑10 token/s, ความแม่นยำดีแต่ต้องการหน่วยความจำสูง
Mistral‑7B‑Instruct – VRAM ใช้ประมาณ 6‑7 GB, ความเร็ว 4‑6 token/s, คุณภาพผลลัพธ์ต่ำกว่าที่คาดหวัง

Usability in Real Work

จากมุมมองของผู้ใช้ที่ต้องการ เครื่องมือสนับสนุนการทำงานประจำวัน เช่น การเขียนเอกสาร, การทำโค้ด, หรือการสื่อสารภายในทีม การเลือกโมเดลที่ให้ latency ต่ำ และ การใช้ทรัพยากรที่เหมาะสม เป็นสิ่งสำคัญที่สุด ผู้เขียนสรุปว่า Phi‑3‑mini‑4k‑instruct สามารถทำงานได้โดยไม่ทำให้ระบบหยุดชะงัก หรือทำให้ต้องเปิดแอปพลิเคชันอื่น ๆ ลดลง ในขณะที่ LLaMA 2 แม้จะให้ผลลัพธ์ค่อนข้างดี แต่ต้องการการจัดการหน่วยความจำที่ซับซ้อน เช่น การตั้งค่า CPU‑offload ซึ่งเพิ่มความซับซ้อนให้กับผู้ใช้ทั่วไป ส่วน Mistral ไม่สามารถตอบสนองต่อความต้องการของผู้ใช้ในด้าน ความเร็ว และ ความต่อเนื่องของข้อความ ทำให้ไม่เหมาะสำหรับการทำงานต่อเนื่อง

Analysis & Future Outlook

บทวิเคราะห์ของ XDA‑Developers ชี้ให้เห็นว่า ขนาดโมเดลที่เล็กกว่า (เช่น Phi‑3‑mini) ไม่ได้หมายความว่าจะเสียคุณภาพเสมอไป หากมีการฝึกฝนด้วยข้อมูลที่หลากหลายและเทคนิคการ quantization ที่เหมาะสม การพัฒนาของ Intel‑Optimized OpenVINO และ NVIDIA‑TensorRT‑LLM จะทำให้การรันโมเดลขนาดกลางบน GPU แบบ consumer‑grade มีประสิทธิภาพมากขึ้นในอนาคต อย่างไรก็ตาม ผู้เขียนยังคงมองว่าการใช้ คลาวด์ ยังคงเป็นทางเลือกที่เหนือกว่าในแง่ของ ความหลากหลายของโมเดล, อัพเดตล่าสุด, และ การสเกล สำหรับองค์กรที่ต้องการความเสถียรและประสิทธิภาพสูง

Impact

ผลการทดสอบนี้ให้ข้อมูลเชิงปฏิบัติสำหรับผู้ที่สนใจ นำ LLM มาใช้บนเครื่องคอมพิวเตอร์ส่วนบุคคล โดยเฉพาะผู้ที่มี GPU ระดับ RTX 4000 ซีรีส์ 12 GB การตัดสินใจเลือกโมเดลที่เหมาะสมอาจส่งผลต่อ ประสิทธิภาพการทำงาน, ค่าไฟ, และ อายุการใช้งานของฮาร์ดแวร์ นอกจากนี้ ความสำเร็จของ Phi‑3‑mini‑4k‑instruct ในการทำงาน “ออฟไลน์” ยังเป็นสัญญาณว่าตลาด LLM รุ่นเล็ก กำลังเติบโตและอาจกลายเป็นมาตรฐานใหม่สำหรับผู้ใช้ระดับบุคคลและ SMEs ที่ต้องการลดการพึ่งพาโครงสร้างคลาวด์

Summary

การทดลองบน RTX 4070 Ti พบว่า Phi‑3‑mini‑4k‑instruct เป็นโมเดลเดียวที่ให้ความสมดุลระหว่าง ประสิทธิภาพ, คุณภาพผลลัพธ์, และ การใช้ทรัพยากร อย่างพอเพียงเพื่อทำงานต่อเนื่องได้จริง ส่วน LLaMA 2 และ Mistral แม้มีจุดเด่นแต่ยังไม่พร้อมสำหรับการใช้งานประจำวันบนเครื่องส่วนบุคคล.