Google เปิดตัว DiffusionGemma โมเดลภาษาเปิดน้ำหนักใช้เทคน…

Google เปิดตัวโมเดลภาษาแบบเปิดน้ำหนักใหม่ที่ชื่อ DiffusionGemma ซึ่งนำเทคนิคจากโมเดลสร้างภาพมาปรับใช้กับการสร้างข้อความ ทำให้ความเร็วการประมวลผลเพิ่มขึ้นหลายเท่าบนฮาร์ดแวร์ผู้บริโภคที่มีข้อจำกัดของทรัพยากร โมเดลนี้สามารถดาวน์โหลดและรันได้ด้วยหน่วยความจำ 18 GB ของ DRAM หรือ VRAM เท่านั้น

Overview

โมเดล DiffusionGemma เป็นส่วนหนึ่งของตระกูลโมเดลเปิดน้ำหนักของ Google ที่ออกแบบมาเพื่อทำงานบนเครื่องส่วนบุคคล ทีม DeepMind ของ Google เปิดเผยว่าโมเดลนี้มี 26 billion‑parameter และใช้สถาปัตยกรรม **Mixture‑of‑Experts (MoE) ซึ่งแตกต่างจากโมเดลภาษาแบบดั้งเดิมที่ทำงานแบบออโต้รีเกรสซีฟ การสร้างข้อความของ DiffusionGemma จะทำการสร้างชุดโทเคนทั้งหมดของย่อหน้าในครั้งเดียวคล้ายกระบวนการของโมเดล diffusion ที่สร้างภาพจากการลบสัญญาณรบกวนหลายขั้นตอน

โดยโมเดลนี้ไม่ได้มุ่งเน้นเป็น LLM ขนาดใหญ่ตามแบบทั่วไป แต่ใกล้เคียงกับโมเดลภาพเช่น Stable Diffusion หรือ Flux มากกว่า การทำงานโดยวาง “ผืนผ้าใบ” ของโทเคนแบบสุ่มแล้วค่อย ๆ ปรับให้เป็นผลลัพธ์ที่ต้องการ ทำให้กระบวนการส่วนใหญ่เปลี่ยนเป็นการคำนวณ (compute‑bound) มากกว่าการดึงข้อมูลจากหน่วยความจำ (memory‑bandwidth bound)

Technical Approach

เทคนิค diffusion ที่นำมาใช้ใน DiffusionGemma ทำให้การสร้างข้อความไม่ต้องรอการประมวลผลต่อเนื่องของโทเคนแต่ละตัว ซึ่งเป็นข้อจำกัดสำคัญของโมเดลออโต้รีเกรสซีฟแบบดั้งเดิม การสร้างโทเคนหลาย ๆ ตัวพร้อมกันทำให้การใช้หน่วยประมวลผลกราฟิก (GPU) มีประสิทธิภาพสูงกว่าเดิมโดยเฉพาะบนกราฟิกการ์ดระดับไฮเอนด์ที่มักมีพลังการประมวลผลเหลือเฟือ

โมเดลนี้ถูกออกแบบให้ทำงานได้บนเครื่องที่มี 18 GB ของหน่วยความจำ ซึ่งถือว่าต่ำกว่าข้อกำหนดของหลาย LLM ขนาดใหญ่ในตลาด การที่โมเดลทำงานเป็นงานคำนวณมากกว่าการดึงข้อมูลทำให้ข้อจำกัดด้านแบนด์วิดท์ของหน่วยความจำไม่เป็นอุปสรรคสำคัญอีกต่อไป

Performance & Benchmarks

Google ระบุว่า DiffusionGemma มีความเร็วในการสร้างข้อความดีกว่าโมเดล LLM ขนาด 12 B ที่เปิดใช้เทคนิค speculative decode อยู่ 2.25 เท่า และเมื่อรันบน Nvidia H100 เพียงเครื่องเดียว ความเร็วเพิ่มขึ้นใกล้ 4 เท่า เมื่อเทียบกับ Gemma 4 26B‑A4B อย่างไรก็ตาม ในการทดสอบเกณฑ์ GPQA‑Diamond โมเดลนี้ยังทำคะแนนได้แค่ระดับเดียวกับ Gemma 4 12B ซึ่งแสดงว่าประสิทธิภาพด้านคุณภาพยังไม่เหนือกว่าโมเดลที่มีขนาดเล็กกว่า

ก่อนหน้า Google เคยทดลองโมเดลเช่น DREAM หรือ Mercury 2 ที่ให้ความเร็วสูงแต่คะแนนการทดสอบโดยรวมต่ำกว่าโมเดลเดียวกันในขนาดเดียวกัน DiffusionGemma ดูเหมือนจะยังคงมีช่องว่างเดียวกัน – ความเร็วเป็นจุดแข็งหลัก ส่วนคุณภาพอาจต้องพัฒนาเพิ่มเติม

ขนาดโมเดล: 26 billion‑parameter MoE
ความต้องการหน่วยความจำ: 18 GB DRAM/VRAM
ความเร็วเพิ่ม: 2.25 × (เมื่อเทียบกับ 12 B LLM) / ~4 × (เมื่อเทียบกับ Gemma 4 26B‑A4B บน H100)
ประสิทธิภาพเบนช์มาร์ค: อยู่หลัง Gemma 4 12B ใน GPQA‑Diamond

Availability & Ecosystem

Google ปล่อย DiffusionGemma ในรูปแบบโมเดลทดลอง (experimental) ภายใต้สัญญาอนุญาต Apache 2.0 ที่ค่อนข้างเปิดกว้าง โมเดลนี้สามารถดาวน์โหลดได้จากแหล่งเก็บโมเดลยอดนิยมเช่น Hugging Face พร้อมกับการสนับสนุนจากเครื่องยนต์การสรุปผล (inference engines) ที่เป็นที่ยอมรับ ได้แก่ vLLM, MLX, และ HF Transformers ส่วนการสนับสนุนจาก Llama.cpp ก็กำลังอยู่ในขั้นตอนการพัฒนา

การเปิดตัวในลักษณะนี้สอดคล้องกับแนวโน้มของ Google ที่ต้องการกระตุ้นการใช้โมเดลบนอุปกรณ์ท้องถิ่น เพื่อลดค่าใช้จ่ายในการประมวลผลบนคลาวด์ ตัวอย่างเช่น Google ได้ปล่อย LLM เล็ก ๆ ไปกับเว็บเบราว์เซอร์ Chrome ตั้งแต่เดือนพฤษภาคมที่ผ่านมา ซึ่งเป็นส่วนหนึ่งของกลยุทธ์ลดภาระคลาวด์โดยใช้เทคโนโลยีบนอุปกรณ์ผู้ใช้

Implications

การนำเทคนิค diffusion มาใช้ในงานสร้างข้อความอาจเป็นจุดเริ่มต้นของการเปลี่ยนแปลงรูปแบบการพัฒนาโมเดลภาษาในอนาคต หากสามารถปรับปรุงคุณภาพให้สอดคล้องกับความเร็วที่เพิ่มขึ้น โมเดลแบบนี้จะทำให้ผู้ใช้ทั่วไปและนักพัฒนาสามารถรันแอปพลิเคชัน AI บนเครื่องส่วนบุคคลได้อย่างมีประสิทธิภาพ ลดการพึ่งพาเซิร์ฟเวอร์คลาวด์และค่าใช้จ่ายที่เกี่ยวข้อง

อย่างไรก็ตาม คำวิจารณ์จากการทดสอบเบนช์มาร์คยังชี้ให้เห็นว่าความแม่นยำและความเข้าใจเชิงลึกของ DiffusionGemma ยังตามไม่ไหวกับโมเดลที่มุ่งเน้นคุณภาพเป็นหลัก ดังนั้นในระยะสั้นอาจเห็นการใช้งานที่จำกัดเฉพาะงานที่ต้องการความเร็วสูงเป็นหลัก เช่น การสรุปข้อความแบบเร็ว ๆ หรือการสร้างข้อความร่างเบื้องต้น ก่อนที่จะพัฒนาต่อยอดให้ครอบคลุมการใช้งานที่ซับซ้อนมากขึ้น

Summary

Google เปิดตัว DiffusionGemma โมเดลภาษา 26 billion‑parameter ที่ใช้เทคนิค diffusion เพื่อเพิ่มความเร็วในการสร้างข้อความหลายเท่า บนเครื่องผู้ใช้ที่มี 18 GB หน่วยความจำ โมเดลนี้เป็นโครงการเปิดน้ำหนักที่พร้อมให้ดาวน์โหลดและสนับสนุนโดยเครื่องยนต์ inference หลักหลายตัว แม้จะเร็วกว่าโมเดลเดิม แต่ยังต้องพัฒนาคุณภาพเพื่อให้เป็นทางเลือกที่สมบูรณ์สำหรับการใช้งานทั่วไป.

Google เปิดตัว DiffusionGemma โมเดลภาษาเปิดน้ำหนักใช้เทคน…

Overview

Technical Approach

Performance & Benchmarks

Availability & Ecosystem

Implications

Summary

แหล่งข่าวต้นฉบับ

บทความที่เกี่ยวข้อง

นักพัฒนาจำลองพฤติกรรม Fable 5 ด้วยโมเดล Opus และ Agent Loops อย่างใกล้เคียง

Gemini แทน Google Assistant ช่วยให้ระบบ Google Home และอุปกรณ์ Nest ทำงานได้เต็มที่

Sony เปิดเผยการใช้ AI ในการพัฒนาเกมผ่านเอกสารต่อ SEC

เครื่องมือวิจัย AI แบบ self‑hosted ที่ทำหน้าที่เทียบเท่า NotebookLM โดยไม่มีขีดจำกัดรายวัน

Overview

Technical Approach

Performance & Benchmarks

Availability & Ecosystem

Implications

Summary

แหล่งข่าวต้นฉบับ

บทความที่เกี่ยวข้อง

นักพัฒนาจำลองพฤติกรรม Fable 5 ด้วยโมเดล Opus และ Agent Loops อย่างใกล้เคียง

Gemini แทน Google Assistant ช่วยให้ระบบ Google Home และอุปกรณ์ Nest ทำงานได้เต็มที่

Sony เปิดเผยการใช้ AI ในการพัฒนาเกมผ่านเอกสารต่อ SEC

เครื่องมือวิจัย AI แบบ self‑hosted ที่ทำหน้าที่เทียบเท่า NotebookLM โดยไม่มีขีดจำกัดรายวัน

นักพัฒนาจำลองพฤติกรรม Fable 5 ด้วยโมเดล Opus และ Agent Loops อย่างใกล้เคียง