matias yoon

Posted on May 24

로컬 LLM 셋업 가이드 (v8)

#ai #llm #developers #tutorial

로컬 LLM 셋업 가이드 (v8)

로컬에서 LLM을 실행하는 것은 빠른 추론, 데이터 프라이버시, 비용 절감, 그리고 모델 접근의 자유도를 제공합니다. 이 가이드는 개발자들이 실용적으로 로컬 LLM 환경을 구축하고 운영하는 방법을 단계별로 안내합니다.

1. 개요 & 사전 요구사항

하드웨어 요구사항:

CPU: 최소 Intel i5-12600K 또는 AMD Ryzen 5 5600X
GPU: NVIDIA RTX 3060 이상 (CUDA 지원 필요)
RAM: 최소 16GB (32GB 이상 권장)
저장공간: 최소 20GB (모델 파일에 따라 더 필요할 수 있음)

운영체제:

Ubuntu 22.04 LTS 이상
또는 Arch Linux / Fedora

소프트웨어 요구사항:

git
Docker (선택, Ollama는 필요 없음)
Python 3.10 이상
CUDA 12.x (GPU 사용 시)
cuDNN 및 cuBLAS (GPU 사용 시)

설치 전 확인:

nvidia-smi
free -h
lscpu

2. 프레임워크 비교: llama.cpp vs Ollama vs vLLM vs LocalAI

프레임워크	장점	단점	사용 예
llama.cpp	빠른 추론, GPU/CPY 지원, 가볍고 직접적인 구현	모델 변환 필요, API 없음	개발용, 최적화된 추론
Ollama	쉬운 설치, Docker 기반, API 제공	느린 추론 속도, 모델 커스터마이징 어려움	테스트용, 간단한 API 연동
vLLM	초고속 추론, 대규모 모델 처리 가능	복잡한 설정, 높은 메모리 요구사항	빠른 배치 추론
LocalAI	RESTful API, 다양한 모델 지원, Docker 기반	추가 의존성 필요, 배포 복잡

📌 권장: 초보자 및 프로토타입 개발에는 llama.cpp 사용. 생산 환경에는 Ollama 또는 vLLM 고려.

3. 권장 설정 설치: llama.cpp

1. llama.cpp 클론

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

2. CUDA 지원 빌드

make clean
make -j$(nproc) LLAMA_CUDA=1

3. 모델 다운로드 및 변환

mkdir models
cd models
wget https://huggingface.co/TheBloke/Mistral-7B-v0.1-GGUF/resolve/main/mistral-7b-v0.1.Q5_K_M.gguf

4. 추론 테스트

./llama.cpp -m ./models/mistral-7b-v0.1.Q5_K_M.gguf -p "Hello, how are you?" --temp 0.2

4. 모델 선택 가이드

모델	크기	추론 속도	추천 사용 사례
Mistral-7B-v0.1	7B	빠름	일반적인 추론, 개발
Llama-2-7B	7B	보통	높은 품질 추론
TinyLlama-1.1B	1.1B	빠름	빠른 테스트
Gemma-2B	2B	빠름	리소스 제한 환경
OpenHermes-2.5-Mistral-7B	7B	보통	코드 및 대화 추론

5. 양자화 종류 설명 (Q4_K_M, Q5_K_M 등)

양자화	품질	크기	추론 속도
Q4_K_M	100%	4.5GB	빠름
Q5_K_M	99%	5.5GB	빠름
Q6_K	97%	6.5GB	보통
Q8_0	95%	8.0GB	느림

📌 Q4_K_M: 일반 사용자에게 가장 적절한 균형. 품질과 속도 모두 만족.

6. API 설정 및 기존 도구 통합

1. REST API용 서버 실행 (llama.cpp)

./server -m ./models/mistral-7b-v0.1.Q5_K_M.gguf --host 0.0.0.0 --port 8080 --threads 8

2. 클라이언트 예제 (Python)

import requests

response = requests.post("http://localhost:8080/completion", json={
    "prompt": "Write a short story about a robot learning to paint.",
    "max_tokens": 100,
    "temperature": 0.7
})

print(response.json())

7. Systemd 서비스로 24/7 운영

1. 서비스 파일 생성

sudo nano /etc/systemd/system/llama.service

2. 내용 추가:

[Unit]
Description=Local LLM Server
After=network.target

[Service]
User=your_user
WorkingDirectory=/home/your_user/llama.cpp
ExecStart=/home/your_user/llama.cpp/server -m /home/your_user/models/mistral-7b-v0.1.Q5_K_M.gguf --host 0.0.0.0 --port 8080 --threads 8
Restart=always
RestartSec=10

[Install]
WantedBy=multi-user.target

3. 서비스 활성화:

sudo systemctl daemon-reload
sudo systemctl enable llama.service
sudo systemctl start llama.service

4. 상태 확인:

sudo systemctl status llama.service

8. 모니터링 및 성능 튜닝

1. GPU 모니터링

nvidia-smi -l 1

2. CPU 사용량 체크

htop

3. 추론 성능 확인 (llama.cpp)

./llama.cpp -m ./models/mistral-7b-v0.1.Q5_K_M.gguf --temp 0.2 -n 100 -p "Hello, how are you today?"

4. 메모리 사용 최적화

# 메모리 절약을 위한 스레드 수 조정
./llama.cpp -m ./models/mistral-7b-v0.1.Q5_K_M.gguf --threads 4 -n 100

9. 실용적인 커맨드 예시

목적	명령어
모델 다운로드	`wget https://huggingface.co/TheBloke/Mistral-7B-v0.1-GGUF/resolve/main/mistral-7b-v0.1.Q5_K_M.gguf`
추론 테스트	`./llama.cpp -m ./models/mistral-7b-v0.1.Q5_K_M.gguf -p "Hello!" --temp 0.2`
서버 실행	`./server -m ./models/mistral-7b-v0.1.Q5_K_M.gguf --host 0.0.0.0 --port 8080`
시스템 서비스 등록	`sudo systemctl enable llama.service`
GPU 상태 확인	`nvidia-smi -l 1`

결론

로컬 LLM 설정은 개발자에게 강력한 도구가 됩니다. 이 가이드는 llama.cpp 기반 설정을 중심으로, 모델 선택, API 연동, 성능 튜닝까지 실질적인 실

📥 Get the full guide on Gumroad: https://gumroad.com/l/auto ($7)

DEV Community

로컬 LLM 셋업 가이드 (v8)

로컬 LLM 셋업 가이드 (v8)

1. 개요 & 사전 요구사항

하드웨어 요구사항:

운영체제:

소프트웨어 요구사항:

설치 전 확인:

2. 프레임워크 비교: llama.cpp vs Ollama vs vLLM vs LocalAI

3. 권장 설정 설치: llama.cpp

1. llama.cpp 클론

2. CUDA 지원 빌드

3. 모델 다운로드 및 변환

4. 추론 테스트

4. 모델 선택 가이드

추천 모델 및 사용 사례

추천 커맨드:

5. 양자화 종류 설명 (Q4_K_M, Q5_K_M 등)

6. API 설정 및 기존 도구 통합

1. REST API용 서버 실행 (llama.cpp)

2. 클라이언트 예제 (Python)

7. Systemd 서비스로 24/7 운영

1. 서비스 파일 생성

2. 내용 추가:

3. 서비스 활성화:

4. 상태 확인:

8. 모니터링 및 성능 튜닝

1. GPU 모니터링

2. CPU 사용량 체크

3. 추론 성능 확인 (llama.cpp)

4. 메모리 사용 최적화

9. 실용적인 커맨드 예시

결론

Top comments (0)