RAG 챗봇·LLM 에이전트가 운영에 들어가면 한 번 평가하고 끝이 아닙니다. 모델 버전이 바뀌고, 프롬프트가 다듬어지고, 새 컨텍스트가 추가될 때마다 품질이 흔들립니다. evaluation harness는 분기마다 자동으로 모든 변화를 점검하는 공장이고, 사내 챗봇 품질의 운영 안정성을 결정합니다.
마케터가 이 글을 읽어야 하는 이유: 사내 RAG 챗봇·자동화 에이전트가 점점 늘어나는데, 그 품질이 분기마다 어떻게 변하는지 추적이 안 되면 사고가 사용자 보고로만 발견됩니다. evaluation harness는 그 사고를 사전 알림으로 잡는 표준 도구이고, 마케터·운영자가 도구의 골격을 알면 어떤 자리에 도입해야 할지 결정 가능.

모델·프롬프트가 바뀔 때마다 자동으로 50개 골든셋이 돌아간다 — 사고를 사용자보다 먼저 잡는 공장.
1. Evaluation harness의 한 줄 직관
골든셋(질문·기대 답변 묶음)을 입력으로, 여러 LLM 설정(모델·프롬프트·컨텍스트)을 자동 실행하고, 결과 점수를 비교 가능한 형태로 저장하는 시스템.
수동 평가의 한계:
- 사람이 매번 50개 답변을 읽어 점수 매기기 → 분기 1회도 어려움
- 모델·프롬프트 변경마다 처음부터 다시 → 비교 불가능
- 결과가 한 번 보고 사라짐 → 추세 추적 불가
harness는 이 세 가지를 자동화합니다.
📌 이 글의 전제
독자가 RAG 챗봇·LLM 에이전트 단어를 일상으로 쓰는 마케터·운영자·분석가를 가정합니다. RAG 평가 글의 4가지 지표를 이미 알고 있다고 가정합니다.
2. 4가지 핵심 컴포넌트
2-1. 골든셋(golden set)
질문·기대 답변·컨텍스트의 묶음. 50-200개가 표준. 분기마다 갱신.
| 필드 | 의미 |
|---|---|
| question | 사용자 질문 |
| expected_answer | 기대 답변 또는 핵심 fact |
| context_docs | 답변에 필요한 문서 ID |
| difficulty | easy/medium/hard |
| category | 도메인 분류 (FAQ, 데이터 조회, 액션 등) |
2-2. 실행 엔진(runner)
여러 LLM 설정을 병렬로 실행. 같은 골든셋을 GPT-5 vs Claude Sonnet에 동시 투입해 비교.
2-3. 점수 매기기(scorer)
Ragas 같은 라이브러리로 4개 지표 자동 계산:
- Context relevance
- Context recall
- Faithfulness
- Answer relevance
2-4. 결과 저장·비교(tracker)
각 실행의 결과를 SQL·JSON·MLflow에 저장. 분기 추세·configuration 비교가 자동.
3. 데이터 플로우 표준 흐름
골든셋 (50-200개 질문)
│
▼
실행 엔진 — N개 configuration 병렬
├ GPT-5 + 프롬프트 v1
├ GPT-5 + 프롬프트 v2
├ Claude Sonnet + 프롬프트 v1
└ Claude Sonnet + 프롬프트 v2
│
▼
점수 매기기 — 4지표 × N config
│
▼
결과 비교 표
config × 지표 매트릭스
│
▼
회귀 비교 — 지난 분기 결과 vs 이번 분기
│
▼
보고 생성 (자동)
이 한 흐름이 마케팅 챗봇의 분기 품질 보고를 자동화.
4. 코드 한 묶음 — Pytest 스타일 harness
이게 글에 박는 유일한 코드입니다.
python
Top comments (0)