DEV Community

Review Laptop
Review Laptop

Posted on • Originally published at reviewlaptop.vn

Chạy LLM trên iGPU: Giới hạn VRAM của Intel Arc và Radeon 780M

Khi chạy các mô hình ngôn ngữ lớn (LLM) cục bộ, rào cản lớn nhất không phải là tốc độ xử lý thuần túy mà là VRAM ceiling (ngưỡng giới hạn bộ nhớ đồ họa). Với các dòng iGPU mạnh mẽ như Intel Arc GraphicsAMD Radeon 780M, việc tận dụng VRAM để chạy inference qua Ollama hoặc LM Studio là một bài toán cân não về tối ưu hóa.

Thực tế VRAM trên iGPU và giới hạn Model Size

Khác với GPU rời có bộ nhớ riêng, iGPU sử dụng Shared Memory (lấy từ RAM hệ thống). Điều này có nghĩa là dung lượng VRAM thực tế phụ thuộc vào cấu hình BIOS và lượng RAM trống của máy.

  • Intel Arc Graphics (Core Ultra 7 255H): Với kiến trúc Xe-LPG+ mới, nó hỗ trợ xử lý tensor tốt nhưng bị giới hạn bởi băng thông RAM hệ thống.
  • AMD Radeon 780M: Dù sở hữu 12 CU mạnh mẽ, việc chạy LLM vẫn phụ thuộc vào tốc độ truy xuất của bộ nhớ LPDDR5x/DDR5.

Với cấu hình thực tế từ các dòng laptop cao cấp như ReviewLaptop, bạn có thể chạy tốt các model nhỏ đến trung bình với kỹ thuật Quantization (định lượng).

Cấu hình thực tế: Quantization và TPS đo được

Để chạy mượt mà trên iGPU, việc chọn đúng mức độ nén (quantization) là bắt buộc:

  • Model Q4_K_M: Là điểm cân bằng tốt nhất. Ví dụ, Llama 3 8B bản Q4 có thể chiếm khoảng 5GB VRAM/RAM.
  • Model Q8_0: Sẽ đẩy giới hạn lên rất cao, dễ gây tràn bộ nhớ hoặc làm chậm hệ thống do thiếu băng thông.\n Giới hạn thực tế: Bạn khó có thể chạy các model lớn như Llama 3 70B trên iGPU này vì chúng yêu cầu tối thiểu 40GB+ VRAM. Các model từ 7B đến 14B là "sweet spot" cho Intel Arc và Radeon 780M.

Hướng dẫn triển khai với Ollama & LM Studio

Để kiểm soát việc sử dụng tài nguyên, bạn nên sử dụng các lệnh sau:

Sử dụng Ollama để chạy model Q4:

ollama run llama3:8b-instruct-q4_0
Enter fullscreen mode Exit fullscreen mode

Giám sát VRAM thực tế bằng Ollama:

ollama ps
Enter fullscreen mode Exit fullscreen mode

Cấu hình trong LM Studio:
Khi sử dụng LM Studio, hãy vào phần GPU Offload, giới hạn số lượng layers đẩy vào GPU để tránh chiếm dụng quá mức RAM hệ thống khiến máy bị treo.\n
Bài viết này là bản tóm tắt kỹ thuật. Xem chi tiết tại bài gốc.

Top comments (0)