Thanawat Wongchai

Posted on Jun 23 • Originally published at apidog.com

วิธีติดตั้งและใช้งาน Google Gemma 3n LLM บน Android ฉบับสมบูรณ์

การรันโมเดลภาษาขนาดใหญ่ (LLMs) บนอุปกรณ์มือถือโดยตรงกำลังเปลี่ยนวิธีสร้างแอป AI บน Android โมเดล Gemma 3n ของ Google เมื่อใช้ร่วมกับ AI Edge Gallery ช่วยให้นักพัฒนาทดลองอนุมานผลลัพธ์แบบ local ได้เร็วขึ้น ลดการพึ่งพาคลาวด์ และช่วยรักษาความเป็นส่วนตัวของผู้ใช้ บทความนี้สรุปขั้นตอนติดตั้ง ดาวน์โหลดโมเดล ทดสอบ และเพิ่มประสิทธิภาพ Gemma 3n บน Android สำหรับนักพัฒนา API และแบ็กเอนด์

ลองใช้ Apidog วันนี้

💡 หากคุณต้องการตรวจสอบ endpoint ที่เชื่อมกับ Gemma 3n ให้ใช้ Apidog เพื่อทดสอบ API ตรวจสอบ response schema วัด latency และจำลอง workflow ที่เชื่อม AI บนอุปกรณ์ Android กับ backend

Google Gemma 3n และ AI Edge Gallery คืออะไร?

Gemma 3n คือโมเดลภาษาขนาดเล็กของ Google ที่ออกแบบมาสำหรับการประมวลผลแบบ Edge แทนที่จะส่งข้อมูลไปประมวลผลบนคลาวด์ทั้งหมด โมเดลสามารถทำงานบนอุปกรณ์ได้โดยตรง จึงช่วยลด latency และลดการส่งข้อมูลผู้ใช้ออกนอกเครื่อง

Google AI Edge Gallery คือชุดเครื่องมือ ตัวอย่างโปรเจกต์ และเอกสารสำหรับนำโมเดล AI เช่น Gemma 3n ไปใช้งานบนอุปกรณ์ Edge โดยมีองค์ประกอบหลัก เช่น:

โซลูชัน LLM และ Vision Model ที่เตรียมไว้ล่วงหน้า
แนวทางเพิ่มประสิทธิภาพสำหรับฮาร์ดแวร์มือถือ
แนวปฏิบัติสำหรับสภาพแวดล้อมที่มีทรัพยากรจำกัด

ทำไมต้องใช้ AI Edge Gallery สำหรับ LLM บนอุปกรณ์?

AI Edge Gallery ไม่ได้เป็นเพียงแอป demo แต่เป็นสภาพแวดล้อมสำหรับทดลองและ validate โมเดล AI บน Android ได้โดยตรง จุดที่มีประโยชน์สำหรับนักพัฒนา ได้แก่:

inference engine ที่ปรับให้เหมาะกับการรันบนเครื่อง
การจัดการและสลับโมเดลได้สะดวก
UI สำหรับทดสอบ text, image และ multimodal prompt
เหมาะกับการ prototype ก่อนนำ logic ไปผสานในแอปจริง

สถาปัตยกรรมของ AI Edge Gallery รวม runtime, memory management และ interface สำหรับทดลองใช้งานโมเดลใน workflow ที่ใกล้เคียงกับ production มากขึ้น

ข้อกำหนดของระบบ: อุปกรณ์ของคุณสามารถรัน Gemma 3n ได้หรือไม่?

ก่อนติดตั้ง ให้ตรวจสอบอุปกรณ์ Android ตาม checklist นี้:

Android: 8.0 หรือใหม่กว่า หรือ API level 26+
RAM: อย่างน้อย 4GB
Storage: พื้นที่ว่างประมาณ 2GB สำหรับไฟล์โมเดล
CPU: แนะนำ ARM64
Hardware acceleration: อุปกรณ์ที่มี NPU/GPU จะช่วยให้ inference เร็วขึ้น

หากอุปกรณ์มี RAM จำกัด ให้เริ่มจากโมเดลขนาดเล็กก่อน เพื่อหลีกเลี่ยงปัญหาแอปค้างหรือถูกระบบปิดระหว่าง inference

ขั้นตอนที่ 1: ติดตั้ง Google AI Edge Gallery APK

หมายเหตุ: AI Edge Gallery ยังไม่มีใน Google Play จึงต้องติดตั้งแบบ sideload จาก GitHub

วิธีติดตั้ง

เปิดสิทธิ์ติดตั้งแอปจากแหล่งภายนอก

ไปที่:

   Settings > Security > Unknown Sources

บน Android รุ่นใหม่ การอนุญาตนี้มักถูกกำหนดแยกตามแอป เช่น Chrome หรือ Files

ดาวน์โหลด APK

เปิดหน้า AI Edge Gallery GitHub releases แล้วดาวน์โหลด APK เวอร์ชันล่าสุด

โอน APK ไปยังอุปกรณ์

เลือกวิธีใดวิธีหนึ่ง:

ดาวน์โหลดผ่าน browser บนอุปกรณ์โดยตรง
ส่งไฟล์ผ่าน USB
ใช้ cloud storage

ติดตั้ง APK

เปิดไฟล์ APK จาก file manager
ทำตามขั้นตอนของระบบ
อนุญาต permission ที่จำเป็น เช่น storage และ network

เปิดแอปครั้งแรก

หลังเปิดแอปครั้งแรก ระบบอาจใช้เวลาสักครู่เพื่อกำหนดค่าเริ่มต้นและดาวน์โหลด asset ที่จำเป็น

ขั้นตอนที่ 2: กำหนดค่าและดาวน์โหลดโมเดล Gemma 3n

เมื่อติดตั้ง AI Edge Gallery แล้ว ให้เพิ่มโมเดล Gemma 3n เข้าไปในแอป

เปิด AI Edge Gallery
ไปที่หน้าจัดการโมเดล
ดาวน์โหลดไฟล์โมเดล .task จาก Hugging Face หรือแหล่งที่เชื่อถือได้
เลือกไฟล์โมเดลที่เหมาะกับอุปกรณ์
รอให้ดาวน์โหลดและ import โมเดลเสร็จ

เลือก variant ของโมเดลอย่างไร?

ให้เลือกตามข้อจำกัดของเครื่องและ use case:

โมเดลขนาดเล็ก
- ใช้ RAM และ CPU น้อยกว่า
- inference เร็วกว่า
- เหมาะกับอุปกรณ์ทั่วไปหรือการทดสอบเบื้องต้น
- ความสามารถอาจลดลงเมื่อเทียบกับโมเดลใหญ่
โมเดลขนาดใหญ่
- ให้ผลลัพธ์แม่นยำหรือครอบคลุมกว่า
- ใช้ทรัพยากรมากกว่า
- เหมาะกับอุปกรณ์ที่มี RAM สูงและมี hardware acceleration

ระหว่างดาวน์โหลด แอปจะแสดง progress และเวลาประมาณการ

ขั้นตอนที่ 3: ทดสอบและตรวจสอบการปรับใช้ Gemma 3n

หลัง import โมเดลแล้ว ให้ทดสอบ behavior ก่อนนำไปเชื่อมกับแอปหรือ backend จริง

1. ทดสอบ text chat

ลอง prompt แบบสั้นและแบบมีบริบท เช่น:

สรุปข้อความนี้เป็น bullet points:
[ใส่ข้อความทดสอบ]

ตรวจสอบสิ่งต่อไปนี้:

response มีความสมเหตุสมผลหรือไม่
โมเดลเข้าใจบริบทหรือไม่
latency อยู่ในช่วงที่ยอมรับได้หรือไม่
มีการตอบผิดรูปแบบที่แอปต้อง handle หรือไม่

โดยทั่วไปอาจคาดหวัง latency ประมาณ 1–5 วินาที ขึ้นอยู่กับอุปกรณ์และขนาดโมเดล

2. ตรวจสอบการใช้ทรัพยากร

ระหว่าง inference ให้ดูพฤติกรรมของเครื่อง:

memory usage เพิ่มขึ้นมากเกินไปหรือไม่
CPU usage สูงต่อเนื่องหรือไม่
เครื่องร้อนหรือ battery drain เร็วผิดปกติหรือไม่
แอปถูก kill เมื่อสลับหน้าจอหรือไม่

3. ทดสอบ image และ multimodal workflow

ใช้ feature เช่น:

ถามคำถามจากรูปภาพ
ทดลอง prompt แบบครั้งเดียวใน Prompt Lab
ทดลองสนทนาหลายรอบใน AI Chat

เคล็ดลับ: สำหรับ production ให้ทดสอบ edge cases เช่น input ยาวผิดปกติ, prompt ว่าง, ภาษาไทย/อังกฤษผสมกัน, network ขาดช่วง และสถานการณ์ที่เครื่องมี memory ต่ำ

ขั้นตอนที่ 4: เพิ่มประสิทธิภาพ Gemma 3n สำหรับการใช้งานจริง

เมื่อโมเดลทำงานได้แล้ว ให้ปรับปรุง performance และ stability ก่อนนำไปใช้ในแอปจริง

1. จัดการ memory ให้ชัดเจน

โหลดโมเดลเมื่อจำเป็น และ unload เมื่อไม่ใช้งาน เพื่อลดโอกาสเกิด memory pressure

แนวทางทั่วไป:

App start
  -> ยังไม่โหลดโมเดล

User เปิดฟีเจอร์ AI
  -> โหลดโมเดล

User ออกจากฟีเจอร์ AI
  -> ปล่อย resource ถ้าจำเป็น

Low memory warning
  -> หยุด inference หรือ unload โมเดล

2. ใช้โมเดลที่ quantized

หากมีตัวเลือก ให้ใช้โมเดลที่ลด precision เช่น INT8 เพื่อประหยัด memory และช่วยให้ inference เร็วขึ้น โดยต้องทดสอบว่าคุณภาพผลลัพธ์ยังยอมรับได้สำหรับ use case ของคุณ

3. จัดลำดับงาน inference

อย่าให้ inference block UI thread ควรแยกงานหนักออกจาก flow หลักของแอป เช่น:

// แนวคิดตัวอย่าง: รัน inference นอก main thread
viewModelScope.launch(Dispatchers.Default) {
    val result = runInference(prompt)

    withContext(Dispatchers.Main) {
        updateUi(result)
    }
}

4. จัดการความร้อนและ battery

สำหรับ task ที่ต้องรันหลายครั้ง:

จำกัดจำนวน request ต่อช่วงเวลา
หยุดหรือชะลอ inference เมื่อเครื่องร้อน
แจ้งผู้ใช้เมื่อฟีเจอร์ AI ใช้ทรัพยากรสูง
หลีกเลี่ยงการรัน background inference นานเกินไป

ขั้นตอนที่ 5: ผสานรวมและทดสอบกับ Apidog

เมื่อแอปของคุณเริ่มมี API layer เช่น sync ข้อมูล, fallback ไปยัง cloud model หรือส่ง telemetry ไป backend คุณควรทดสอบ endpoint อย่างเป็นระบบด้วย Apidog

Apidog ช่วยใน workflow ต่อไปนี้:

ทดสอบ endpoint ของโมเดล AI หรือ backend ที่รับ prompt/result
ตรวจสอบ response schema และ error handling
จำลอง request จากแอป Android
วัด latency ของ API ภายใต้เงื่อนไขต่าง ๆ
ใช้ Mock Server เพื่อจำลอง backend ก่อนระบบจริงพร้อมใช้งาน

ตัวอย่าง endpoint ที่ควรทดสอบ:

POST /api/ai/result
Content-Type: application/json

ตัวอย่าง request body:

{
  "device_id": "android-test-device",
  "model": "gemma-3n",
  "prompt": "สรุปข้อความนี้",
  "latency_ms": 1840,
  "output": "..."
}

ตัวอย่างสิ่งที่ควร validate:

{
  "required": ["device_id", "model", "prompt", "latency_ms", "output"],
  "properties": {
    "device_id": { "type": "string" },
    "model": { "type": "string" },
    "prompt": { "type": "string" },
    "latency_ms": { "type": "number" },
    "output": { "type": "string" }
  }
}

หากแอปใช้ workflow แบบ hybrid เช่น inference บนอุปกรณ์ก่อน แล้ว fallback ไป cloud เมื่อเครื่องไม่พร้อม คุณสามารถใช้ Mock Server ของ Apidog เพื่อจำลอง response จาก cloud endpoint และทดสอบ logic ฝั่ง Android ได้ก่อน

อะไรจะเกิดขึ้นต่อไปสำหรับ Gemma 3n และ Edge Gallery?

ระบบนิเวศของ Gemma 3n และ AI Edge Gallery ยังพัฒนาอย่างต่อเนื่อง สิ่งที่ควรติดตาม ได้แก่:

การรองรับ iOS: Google ได้ประกาศว่าจะพร้อมใช้งานสำหรับ iOS ในอนาคต
การบีบอัดโมเดลที่ดีขึ้น: โมเดลขนาดเล็กลงและเร็วขึ้นโดยไม่ลดคุณภาพมากเกินไป
multimodal ที่สมบูรณ์ขึ้น: รองรับข้อความ รูปภาพ เสียง และวิดีโอได้ดีขึ้น
custom fine-tuning: workflow สำหรับปรับโมเดลให้เหมาะกับ domain เฉพาะ

การพัฒนาเหล่านี้จะช่วยให้นักพัฒนาสร้างแอป AI ที่เน้นความเป็นส่วนตัว ทำงานเร็ว และพึ่งพาคลาวด์น้อยลง

สรุป: ปลดล็อก AI บนอุปกรณ์ด้วย Gemma 3n

การใช้ Google Gemma 3n บน Android ผ่าน AI Edge Gallery ช่วยให้นักพัฒนาทดลอง LLM บนอุปกรณ์จริงได้สะดวกขึ้น โดยได้ประโยชน์ด้าน latency, privacy และ offline capability ขั้นตอนหลักคือ:

ตรวจสอบสเปกอุปกรณ์
ติดตั้ง AI Edge Gallery APK
ดาวน์โหลดและ import โมเดล Gemma 3n
ทดสอบ text, image และ multimodal prompt
ปรับ memory, scheduling, quantization และ thermal behavior
ใช้ Apidog ทดสอบ API และ workflow ที่เชื่อมกับ backend

หากคุณกำลังสร้างแอป AI บน Android สำหรับใช้งานจริง ให้เริ่มจากการ validate โมเดลบนอุปกรณ์ จากนั้นทดสอบ API, latency และ error cases ให้ครบก่อนปล่อยให้ผู้ใช้ใช้งานจริง.

DEV Community