Running LLM Inference Locally: iGPU VRAM Ceiling & Intel Core Ultra

#intelcoreultra #llm #ollama #inference

Running LLM Inference Locally — iGPU VRAM ceiling

Năm 2026, dòng chip Intel Core Ultra đã chiếm phần lớn phân khúc laptop từ 20 triệu trở lên tại Việt Nam. Khi muốn chạy LLM inference cục bộ với Ollama hoặc LM Studio, câu hỏi thường gặp là: Intel Core Ultra so với Core i cũ: có đáng nâng cấp không? Bài viết này tổng hợp thực tế về giới hạn VRAM của iGPU tích hợp (đồ họa Intel Arc), cấu hình quantization và các lệnh monitor cần thiết.

Cấu hình thực tế — Context, Quantization và TPS đo được

Về mặt kiến trúc, Core Ultra dùng tile ghép mô-đun với GPU tile tích hợp Intel Arc. Với các dòng như Core Ultra 7 155H hoặc Core Ultra 9 288V (Lunar Lake), VRAM iGPU không phải là bộ nhớ riêng biệt mà được chia sẻ từ RAM hệ thống (LPDDR5x on-package hoặc UMA). Giới hạn thực tế cho VRAM iGPU thường dao động trong khoảng 6-16GB tùy cấu hình RAM của máy và phần cấp phát tối đa cho đồ họa tích hợp.

Khi sử dụng Ollama, bạn có thể chạy các model với quantization Q4/Q5/Q8. Ví dụ:

ollama run llama3.2:3b-q4_0

Trong LM Studio, cấu hình VRAM cần được thiết lập trong phần GPU Offload để tận dụng tối đa khả năng của Intel Arc Graphics 140V (nếu có) hoặc iGPU chung. Bạn nên chọn quantization Q4_K_M hoặc Q5_K_M cho model cỡ 3B-7B để đảm bảo fit vào VRAM giới hạn.

Để monitor VRAM usage, lệnh ollama ps giúp bạn xem model đang chạy và mức tiêu thụ tài nguyên:

ollama ps

Về hiệu năng, với context length khoảng 4096 tokens và quantization Q4, tốc độ TPS (tokens per second) trên iGPU thường dao động trong ngưỡng 5-15 TPS tùy model size và lượng RAM hệ thống. Đây là giới hạn chung cho dòng chip tích hợp đồ họa Arc mà không có VRAM riêng biệt.

Giới hạn: Model nào không chạy được trên iGPU này?

Các model lớn như Llama 3 70B hoặc các model 13B/34B ở định dạng FP16/Q8 thường không thể chạy hoàn toàn trên iGPU do giới hạn VRAM chia sẻ và kiến trúc tile. Chúng đòi hỏi GPU rời với VRAM >= 24GB hoặc RAM hệ thống cực lớn với offload không hiệu quả. NPU (ví dụ 11-48 TOPS tùy thế hệ) có thể hỗ trợ một số tác vụ AI nhẹ, nhưng inference LLM nặng vẫn phụ thuộc vào CPU + iGPU và lượng RAM tổng.

Nếu bạn quan tâm đến việc nâng cấp phần cứng để tối ưu hóa trải nghiệm này, hãy xem xét ReviewLaptop để so sánh chi tiết giữa Intel Core Ultra và Core i cũ.

Bài viết này là bản tóm tắt kỹ thuật — canonical URL trỏ về bài gốc.

Tags: intelcoreultra, llm, ollama, inference, laptop