# 모델별 테스트 명령어
./main -m /opt/llm/models/mistral-7b-v0.1.Q4_K_M.gguf -p"Hello, how are you?"-n 128
5. 양자화 타입 설명
타입
품질
크기
추천 사용 사례
Q4_K_M
높음
4.5GB
대부분의 경우
Q5_K_M
매우 높음
5.5GB
정확도가 중요한 경우
Q6_K
높음
6.5GB
최대 성능 요구
Q8_0
최대
8GB
최고 품질 필요 (RAM 부족 시 사용 X)
6. API 설정 및 통합
6.1 llama.cpp REST API 사용
# llama.cpp API 서버 실행
./main -m /opt/llm/models/mistral-7b-v0.1.Q4_K_M.gguf --port 11434 -ngl 33
6.2 curl 테스트
curl http://localhost:11434/api/generate \-H"Content-Type: application/json"\-d'{
"model": "/opt/llm/models/mistral-7b-v0.1.Q4_K_M.gguf",
"prompt": "Write a Python function to reverse a string.",
"stream": false
}'
6.3 Python 통합 예제
importrequestsdefcall_llm(prompt):response=requests.post('http://localhost:11434/api/generate',json={'model':'/opt/llm/models/mistral-7b-v0.1.Q4_K_M.gguf','prompt':prompt,'stream':False})returnresponse.json()['response']# 사용 예시
result=call_llm("Explain quantum computing in simple terms.")print(result)
# CPU 및 메모리 사용량 모니터링
htop
nvidia-smi # GPU 사용량 (NVIDIA만 해당)# 성능 테스트
./main -m /opt/llm/models/mistral-7b-v0.1.Q4_K_M.gguf -p"Test prompt"-n 100 --timing
8.2 GPU 최적화 (NVIDIA만 해당)
# GPU 메모리 사용량 확인
nvidia-smi
# GPU 드라이버 설정 (고급 사용자용)sudo nvidia-smi -pl 150 # 파워 제한 설정
8.3 CPU 최적화
# CPU 코어 수 확인nproc# 성능 최적화 옵션
./main -m /opt/llm/models/mistral-7b-v0.1.Q4_K_M.gguf -c 2048 -n 128 --threads 8
9. 실제 성능 벤치마크
9.1 기본 테스트
# 기본 성능 테스트time ./main -m /opt/llm/models/mistral-7b-v0.1.Q4_K_M.gguf -p"Explain the concept of neural networks in one paragraph."-n 128
# 응답 속도 테스트
./main -m /opt/llm/models/mistral-7b-v0.1.Q4_K_M.gguf -p"What is 2+2?"-n 1
Top comments (0)