DEV Community

Cover image for 2026년 Gemma 4 12B 무료 사용법: 6가지 유용한 방법
Rihpig
Rihpig

Posted on • Originally published at apidog.com

2026년 Gemma 4 12B 무료 사용법: 6가지 유용한 방법

Gemma 4 12B는 오픈 웨이트(open-weights) 모델이며 Apache 2.0 라이선스가 적용됩니다. 여기서 “무료”는 API 사용료나 구독료 없이 모델을 다운로드해 직접 실행할 수 있다는 뜻입니다. 비용은 모델을 실행하는 로컬 하드웨어 또는 사용자가 선택한 클라우드 리소스뿐입니다.

오늘 Apidog를 사용해 보세요

먼저 알아둘 점이 있습니다. 12B 모델은 로컬 및 온디바이스 실행을 목표로 만들어졌습니다. 더 큰 31B와 26B 모델은 Google AI Studio에서 무료 채팅용으로 호스팅됩니다. 12B의 핵심은 16GB급 노트북에서도 실행할 수 있다는 점입니다. 모델 사양이 궁금하다면 Gemma 4 12B란 무엇인가요를 참고하십시오.

Gemma 4 12B

아래는 브라우저 데모부터 로컬 OpenAI 호환 API까지, Gemma 4 12B를 무료로 실행하는 6가지 방법입니다.

빠른 요약

방법 얻을 수 있는 것 가장 적합한 용도
Hugging Face Space 브라우저 채팅, 설치 불필요 1분 안에 테스트
Ollama 로컬 모델 + OpenAI 호환 API 개발자, 빠른 로컬 API
LM Studio GUI 기반 로컬 데스크톱 앱 터미널 없이 실행
llama.cpp 경량 로컬 API 서버 고급 설정, 저사양 하드웨어
HF Transformers Python 제어, Colab GPU 활용 노트북, 실험, 미세 조정
Google AI Edge 온디바이스 및 모바일 실행 휴대폰, 엣지 디바이스

방법 1: 브라우저에서 바로 테스트하기

가장 빠른 방법은 Hugging Face의 공식 데모 Space를 사용하는 것입니다. 설치, 계정, 로컬 GPU가 필요 없습니다.

Hugging Face Space

  1. Gemma 4 12B 데모 Space를 엽니다.
  2. 프롬프트를 입력합니다.
  3. 필요한 경우 이미지 또는 오디오 클립을 업로드합니다.
  4. 응답을 확인합니다.

이 방법은 모델의 출력 품질과 멀티모달 입력을 빠르게 확인할 때 적합합니다. 실제 애플리케이션에 연결하려면 아래 로컬 실행 방식 중 하나를 선택하는 것이 좋습니다.

방법 2: Ollama로 로컬 API 실행하기

Ollama는 Gemma 4 12B를 로컬에서 실행하고 OpenAI 호환 API까지 얻는 가장 간단한 방법입니다.

Ollama

1. Ollama 설치

macOS 또는 Linux:

curl -fsSL https://ollama.com/install.sh | sh
Enter fullscreen mode Exit fullscreen mode

Windows에서는 ollama.com에서 설치 프로그램을 다운로드해 실행합니다.

2. 모델 다운로드 및 실행

ollama pull gemma4:12b
ollama run gemma4:12b
Enter fullscreen mode Exit fullscreen mode

첫 번째 명령은 모델을 다운로드합니다. 기본적으로 4비트 Q4_K_M 빌드를 사용하며 크기는 약 8GB입니다.

두 번째 명령은 대화형 채팅을 시작합니다. 종료하려면 다음을 입력합니다.

/bye
Enter fullscreen mode Exit fullscreen mode

3. 로컬 OpenAI 호환 API 호출

Ollama는 기본적으로 다음 주소에서 API를 제공합니다.

http://localhost:11434
Enter fullscreen mode Exit fullscreen mode

예시 요청:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {
        "role": "user",
        "content": "Explain how transformers work in two sentences."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

OpenAI 호환 SDK나 도구를 사용한다면 base URL만 다음으로 바꾸면 됩니다.

http://localhost:11434/v1
Enter fullscreen mode Exit fullscreen mode

IDE나 에이전트 도구에 연결하는 패턴은 Cursor에서 DeepSeek V4 사용법 안내와 유사합니다. 모델 이름만 gemma4:12b로 지정하면 됩니다.

자주 쓰는 Ollama 명령:

ollama list
ollama ps
ollama show gemma4:12b
Enter fullscreen mode Exit fullscreen mode
  • ollama list: 다운로드된 모델 확인
  • ollama ps: 실행 중인 모델 확인
  • ollama show gemma4:12b: 모델 세부 정보 확인

방법 3: LM Studio로 GUI에서 실행하기

터미널을 사용하고 싶지 않다면 LM Studio를 사용하십시오. Windows, macOS, Linux에서 실행되는 데스크톱 앱입니다.

  1. LM Studio를 다운로드하고 설치합니다.
  2. 모델 카탈로그에서 Gemma 4 12B를 검색합니다.
  3. RAM에 맞는 양자화 버전을 선택합니다.
  4. 모델을 다운로드합니다.
  5. Chat 탭에서 프롬프트를 입력합니다.

LM Studio는 로컬 서버도 실행할 수 있으며, 일반적으로 다음 주소에서 OpenAI 호환 엔드포인트를 제공합니다.

http://localhost:1234/v1
Enter fullscreen mode Exit fullscreen mode

GUI로 모델을 테스트하면서 동시에 API 엔드포인트도 확보하고 싶을 때 적합합니다.

방법 4: llama.cpp로 경량 서버 실행하기

llama.cpp는 GGUF 모델을 낮은 오버헤드로 실행할 수 있는 경량 런타임입니다. OpenAI 호환 서버도 제공합니다.

1. 설치

macOS:

brew install llama.cpp
Enter fullscreen mode Exit fullscreen mode

Windows:

winget install llama.cpp
Enter fullscreen mode Exit fullscreen mode

2. 서버 실행

Hugging Face에서 ggml-org/gemma-4 컬렉션을 확인한 뒤, 사용할 GGUF 리포지토리를 llama-server에 전달합니다.

llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Enter fullscreen mode Exit fullscreen mode

서버는 기본적으로 다음 주소에서 OpenAI 호환 API를 노출합니다.

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

llama.cpp는 다음 상황에 적합합니다.

  • 의존성을 최소화하고 싶을 때
  • 저사양 하드웨어에서 실행할 때
  • 런타임 옵션을 세밀하게 조정하고 싶을 때
  • Ollama보다 더 직접적으로 GGUF 모델을 다루고 싶을 때

방법 5: Hugging Face Transformers로 Python에서 실행하기

노트북, Python 스크립트, 실험, 미세 조정 흐름이 필요하다면 Hugging Face Transformers를 사용하십시오. 로컬 GPU가 없다면 무료 Google Colab 환경을 사용할 수 있습니다.

1. 라이브러리 설치

pip install transformers torch accelerate torchvision
pip install librosa
Enter fullscreen mode Exit fullscreen mode

librosa는 오디오 입력을 사용할 때 필요합니다.

2. 모델 로드 및 생성

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(
    **inputs,
    max_new_tokens=1024,
)

response = processor.decode(
    outputs[0][input_len:],
    skip_special_tokens=False,
)

print(processor.parse_response(response))
Enter fullscreen mode Exit fullscreen mode

단계별 추론 모드를 사용하려면 다음 값을 바꿉니다.

enable_thinking=True
Enter fullscreen mode Exit fullscreen mode

이미지 또는 오디오 입력을 사용하려면 메시지의 content를 텍스트 문자열이 아니라 콘텐츠 목록으로 구성합니다.

  • 이미지: 텍스트 앞에 {"type": "image", ...} 추가
  • 오디오: 텍스트 뒤에 {"type": "audio", ...} 추가

Kaggle에서 가중치를 받는 방식도 사용할 수 있습니다. 전체 코드 패턴은 개발자 가이드를 참고하십시오.

방법 6: Google AI Edge로 온디바이스 실행하기

휴대폰 또는 엣지 디바이스에서 Gemma 4 12B를 실행하려면 Google AI Edge 스택을 사용할 수 있습니다.

Google AI Edge Gallery 앱과 LiteRT-LM CLI는 모두 12B 모델의 온디바이스 실행을 지원합니다.

LiteRT-LM으로 로컬 서버를 준비하는 예시는 다음과 같습니다.

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

litert-lm serve
Enter fullscreen mode Exit fullscreen mode

이 방식은 다음과 같은 앱에 적합합니다.

  • 오프라인 모바일 어시스턴트
  • 온디바이스 챗봇
  • 데이터가 장치를 벗어나면 안 되는 앱
  • 임베디드 또는 엣지 하드웨어 기반 기능

Apidog로 로컬 Gemma 4 12B API 테스트하기

Ollama 또는 llama.cpp로 Gemma 4 12B를 실행하면 로컬 머신에 HTTP API가 생깁니다. 애플리케이션 코드에 바로 연결하기 전에 요청과 응답 형식을 API 클라이언트에서 먼저 검증하는 것이 좋습니다. Apidog를 사용하면 이 과정을 빠르게 확인할 수 있습니다.

Apidog

1. 프로젝트 만들기

  1. Apidog를 다운로드합니다.
  2. 새 HTTP 프로젝트를 생성합니다.
  3. POST 요청을 추가합니다.

Ollama를 사용하는 경우 URL은 다음과 같습니다.

http://localhost:11434/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode

llama.cpp를 사용하는 경우 base URL은 다음과 같습니다.

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

2. 요청 본문 추가

Body를 JSON으로 설정하고 다음 페이로드를 입력합니다.

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Return a JSON object with two fields: city and country."
    }
  ],
  "stream": false
}
Enter fullscreen mode Exit fullscreen mode

3. 환경 변수로 서버 전환하기

Apidog 환경 변수에 base URL을 저장하면 Ollama와 llama.cpp를 쉽게 전환할 수 있습니다.

예시:

OLLAMA_BASE_URL=http://localhost:11434/v1
LLAMA_CPP_BASE_URL=http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

요청 URL은 다음처럼 관리할 수 있습니다.

{{OLLAMA_BASE_URL}}/chat/completions
Enter fullscreen mode Exit fullscreen mode

또는:

{{LLAMA_CPP_BASE_URL}}/chat/completions
Enter fullscreen mode Exit fullscreen mode

4. 응답 검증하기

다음 항목을 확인합니다.

  • HTTP 상태 코드가 성공인지
  • choices 배열이 존재하는지
  • 응답의 content 필드가 있는지
  • JSON 출력을 요구한 경우 실제로 유효한 JSON인지

스트리밍 응답도 확인하려면 요청 본문을 다음처럼 바꿉니다.

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Write a short explanation of local LLM APIs."
    }
  ],
  "stream": true
}
Enter fullscreen mode Exit fullscreen mode

이렇게 하면 UI를 구현하기 전에 스트리밍 토큰이 정상적으로 내려오는지 확인할 수 있습니다.

API 클라이언트를 비교하고 있다면 무료 온라인 API 테스트 도구최고의 Postman 대안을 참고하십시오. 같은 테스트 흐름은 OpenAI 호환 엔드포인트 전반에 적용되며, Postman으로 API 테스트하는 방법과도 유사합니다.

어떤 양자화를 선택해야 할까요?

Gemma 4 12B는 압축 강도에 따라 필요한 메모리가 달라집니다.

빌드 필요한 메모리 장단점
풀 정밀도 약 16GB 최고 품질
8비트 약 14GB 거의 풀 품질
4비트 Q4_K_M 약 8GB 약간의 품질 저하, 더 넓은 하드웨어에서 실행 가능

Ollama는 기본적으로 4비트 빌드를 사용합니다. 그래서 8GB GPU 또는 16GB 통합 메모리 MacBook에서도 실행할 수 있습니다.

선택 기준은 간단합니다.

  • 메모리가 제한적이면 4비트
  • 품질을 조금 더 우선하면 8비트
  • 충분한 메모리와 GPU가 있으면 풀 정밀도

모델이 디스크로 스왑되기 시작하면 응답 속도가 크게 느려집니다. 메모리에 안정적으로 올라가는 빌드를 선택하는 것이 중요합니다.

어떤 무료 방법을 선택해야 할까요?

상황별 추천은 다음과 같습니다.

  • 빠르게 체험만 하고 싶다면: Hugging Face Space
  • 앱을 개발한다면: Ollama
  • 터미널 없이 쓰고 싶다면: LM Studio
  • 가볍고 세밀한 실행 환경이 필요하다면: llama.cpp
  • Python 노트북 또는 실험이 목적이라면: Hugging Face Transformers
  • 모바일 또는 엣지 디바이스가 목표라면: Google AI Edge

대부분의 개발자에게는 다음 조합이 현실적입니다.

  1. Ollama로 로컬 API 실행
  2. Apidog에서 요청과 응답 검증
  3. 필요한 경우 Transformers로 더 깊은 실험 진행

무료 로컬 Gemma를 더 잘 사용하는 팁

  • 양자화를 RAM에 맞추십시오. 메모리가 부족해 스왑이 발생하면 모델이 매우 느려집니다.
  • 기본값은 4비트로 시작하십시오. 대부분의 로컬 개발 환경에서 가장 안전합니다.
  • 복잡한 문제에는 사고 모드를 사용하십시오. Transformers에서는 enable_thinking=True를 설정할 수 있습니다.
  • 간단한 채팅에는 사고 모드를 끄십시오. 빠른 응답이 필요하면 enable_thinking=False가 더 적합합니다.
  • 프롬프트를 컨텍스트 창 안에 유지하십시오. 256K 창이 크더라도 긴 코드베이스나 로그는 빠르게 누적됩니다.
  • 앱에 붙이기 전에 Apidog에서 요청을 검증하십시오. 필드 이름, JSON 구조, 스트리밍 응답을 먼저 확인할 수 있습니다.
  • 다른 무료 모델과 같은 방식으로 비교하십시오. 동일한 로컬 실행 패턴은 Qwen 3.7, MiniMax M3, Claude Opus 4.8 접근 방식에도 적용됩니다.

자주 묻는 질문

Gemma 4 12B는 정말 무료인가요?

네. Apache 2.0 오픈 웨이트 모델이며, 상업적 용도를 포함해 무료로 다운로드하고 실행할 수 있습니다. 단, 모델을 실행하는 하드웨어 또는 클라우드 비용은 사용자가 부담합니다.

GPU가 필요한가요?

필수는 아닙니다. 하지만 GPU가 있으면 훨씬 빠릅니다. 4비트 빌드는 8GB GPU 또는 16GB 통합 메모리 Mac에서 실행할 수 있습니다. CPU만으로도 실행은 가능하지만 속도는 느립니다.

Google AI Studio에서 Gemma 4 12B를 사용할 수 있나요?

현재는 사용할 수 없습니다. Google AI Studio는 31B와 26B 모델을 무료 브라우저 채팅용으로 호스팅합니다. 12B는 로컬 및 온디바이스 실행을 목표로 하므로 직접 실행해야 합니다.

로컬 API에 API 키가 필요한가요?

아니요. Ollama와 llama.cpp는 localhost에서 키 없이 모델을 제공합니다. 사용하는 도구가 API 키 입력을 요구한다면 임의의 문자열을 넣어도 됩니다. 로컬 서버는 이를 무시합니다.

기존 OpenAI 코드에서 호출할 수 있나요?

네. Ollama와 llama.cpp는 OpenAI 호환 엔드포인트를 제공합니다.

Ollama:

http://localhost:11434/v1
Enter fullscreen mode Exit fullscreen mode

llama.cpp:

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

기존 코드에서 base URL과 모델 이름만 바꾸면 됩니다.

이미지 및 오디오 기능은 어떻게 실행하나요?

멀티모달 입력을 지원하는 Transformers, LM Studio 또는 AI Edge 앱을 사용하십시오. 일반적으로 이미지 콘텐츠는 텍스트 프롬프트 앞에, 오디오 콘텐츠는 텍스트 프롬프트 뒤에 추가합니다.

Ollama와 llama.cpp 중 어느 쪽이 더 빠른가요?

둘 다 유사한 기반 엔진을 사용합니다. llama.cpp는 오버헤드가 적고 튜닝 옵션이 더 많습니다. Ollama는 설정이 더 쉽습니다. 대부분의 일반 개발 환경에서는 설정 편의성 때문에 Ollama부터 시작하는 것이 좋습니다.

Top comments (0)