HyunSeok Jeong

Posted on Jun 6 • Originally published at blog.trysitely.com

세 가지 측정이 서로 다른 숫자를 내는 이유 — MTA·MMM·Lift 비교

#attribution #mmm #incrementality #measurement

들어가며

월요일 마케팅 회의에서 ROAS 슬라이드가 세 개 떴습니다. Meta Ads Manager는 Meta 캠페인이 ROAS 1.8x라고 했고, 분기마다 돌리는 MMM은 같은 채널을 0.9x로 잡았으며, 지난주 끝난 Geo-Lift 실험은 1.3x를 답했습니다. 어느 숫자를 믿고 다음 분기 예산을 짤지 모두가 묻습니다. 이 글은 세 측정이 왜 다른 숫자를 내는지, 그리고 그 차이를 의사결정에 어떻게 합칠지를 정리합니다.

같은 캠페인, 세 가지 측정, 세 개의 ROAS — 마케터가 매 분기 마주하는 풍경

세 측정의 가정이 다르다

세 프레임은 같은 질문을 하지 않습니다. 정확히 무엇을 묻는지가 다르고, 그래서 답도 다릅니다.

📌 이 글의 전제

독자가 ROAS·전환·어트리뷰션이라는 단어를 일상 업무에서 쓴다고 가정합니다. 인과추론의 수학 디테일은 모르더라도, 채널 기여도·예산 재배분 의사결정을 매 분기 한다고 가정합니다.

MTA가 묻는 것 — "이 전환에 어떤 터치가 관여했나"

Multi-Touch Attribution은 한 명의 유저 단위로 본 데이터입니다. 쿠키·디바이스 ID·픽셀 매칭으로 같은 사람의 광고 노출과 전환을 이어 붙인 다음, 마지막 클릭(last-click)·선형(linear)·시간감쇠(time-decay)·데이터 기반(data-driven) 같은 규칙으로 크레딧을 나눕니다.

핵심 가정은 두 가지입니다. 첫째, 유저를 추적할 수 있다(identifiers exist). 둘째, 광고에 노출되지 않았다면 전환도 없었다고 암묵적으로 가정합니다. 둘 다 깨지기 쉽습니다.

MMM이 묻는 것 — "주간 매출이 채널 지출에 어떻게 반응하나"

Marketing Mix Modeling은 주·월 단위 집계 데이터입니다. 유저 ID 없이 시계열 회귀로 "Meta에 X원, Google에 Y원, TV에 Z원 썼더니 매출이 얼마"라는 관계를 추정합니다. 채널별 adstock(광고 효과 잔향)과 saturation(포화 곡선)을 모델에 넣고, 외생 변수(가격·날씨·계절)를 통제합니다.

핵심 가정은 모델 명세가 옳다는 것입니다. adstock 형태를 잘못 잡거나, 누락된 교란 변수가 있으면 채널 계수가 휘어집니다.

Lift가 묻는 것 — "광고를 안 봤다면 어떻게 됐을까"

Geo-Lift·Conversion Lift·Holdout 실험은 실제로 광고를 끈 집단을 만듭니다. 일부 도시에서 캠페인을 빼고, 다른 비슷한 도시와 매출을 비교합니다. 이게 인과추론에서 가장 가까운 답입니다 — 반사실(counterfactual)을 실제로 관측합니다.

핵심 가정은 control 집단이 진짜로 비슷하다는 것, 그리고 spillover가 작다는 것입니다.

왜 결과가 다른가 — 같은 캠페인, 다른 질문

세 프레임이 다른 숫자를 내는 건 버그가 아닙니다. 서로 다른 정의의 ROAS를 측정하기 때문입니다.

프레임	데이터 단위	답하는 질문	인과적 강도
MTA	유저별 터치	어떤 터치에 크레딧을 줄까	약함 (관찰)
MMM	주·월 집계	채널 지출이 매출에 미치는 평균 효과	중간 (모델)
Lift	실험군 vs 대조군	이 광고가 없었다면 매출은 얼마일까	강함 (실험)

같은 Meta 캠페인을 놓고 보면:

MTA가 1.8x인 이유는 클릭한 유저의 전환을 다 Meta에 잡아주기 때문입니다. 그 유저가 광고를 안 봐도 어차피 살 사람이었는지는 묻지 않습니다.
MMM이 0.9x인 이유는 시계열에서 Meta 지출과 매출의 부분상관을 추정하는데, TV·검색·할인행사가 같은 시기에 움직였다면 그쪽으로 크레딧이 빠지기 때문입니다.
Lift가 1.3x인 이유는 도시 단위로 광고를 끄고 매출 차이를 본 결과인데, 이건 진짜 incremental impact에 가장 가깝습니다.

\text{ROAS}_\text{MTA} = \frac{\text{conversions credited to channel}}{\text{channel spend}}

\text{ROAS}_\text{Lift} = \frac{\mathbb{E}[\text{revenue} \mid \text{ad on}] - \mathbb{E}[\text{revenue} \mid \text{ad off}]}{\text{channel spend}}

분자가 다른 양을 측정하고 있습니다. MTA의 분자는 "크레딧"이고, Lift의 분자는 "차이"입니다.

각 프레임이 깨지는 자리

세 측정 모두 가정이 깨지면 숫자가 휘어집니다. 그 위치를 알아두면 회의에서 "이 숫자 왜 이래?" 질문에 답할 수 있습니다.

MTA — 자기잠식과 추적 한계

MTA가 가장 흔히 깨지는 자리는 자기잠식(cannibalization)입니다. 검색 광고로 잡힌 전환의 상당수는 광고 없이도 organic 검색으로 도달했을 사람들이고, MTA는 그걸 분리하지 못합니다.

iOS 14.5 이후 IDFA 동의율이 떨어지면서 추적 자체가 끊긴 영역이 늘어, MTA 숫자는 채널마다 측정 가능 범위가 달라졌습니다. Meta는 자기 플랫폼 안의 데이터만 보고, Google도 마찬가지입니다. 같은 유저의 여정이 두 플랫폼 보고서에 모두 잡혀 ROAS를 합치면 100%를 넘는 일이 생깁니다.

⚠️ MTA 더블카운팅

Meta·Google·TikTok 보고서의 ROAS를 단순 합산하면 전환이 채널 수만큼 곱해져 카운트됩니다. 같은 유저의 같은 구매가 세 보고서에 동시에 나타나는 경우가 일상입니다.

MMM — 다중공선성과 명세 오류

MMM이 깨지는 자리는 채널 간 상관(다중공선성)입니다. 회사가 분기마다 비슷한 비율로 모든 채널을 같이 늘리면, 모델은 어떤 채널이 매출을 끌었는지 분리하기 어렵습니다. 관측 데이터에 변동이 부족합니다.

또한 adstock·saturation의 함수 형태를 어떻게 잡느냐에 따라 채널 계수가 휙휙 바뀝니다. 같은 데이터에 대해 두 분석가가 다른 모델을 잡으면 다른 채널 기여도가 나옵니다 — 이걸 운영팀이 "MMM은 못 믿을 숫자"로 받아들이는 흔한 오해의 출처입니다.

Lift — 비용·spillover·외부 충격

Lift는 가장 신뢰할 수 있지만 비싸고 느립니다. 도시 일부에서 광고를 꺼야 하므로 매출 손실이 생기고, 통계적 power를 얻으려면 보통 4~8주가 걸립니다. 매주 캠페인을 돌리는 마케터에게 매주 lift를 돌리는 건 비현실적입니다.

또한 spillover가 큰 채널 — 온라인 광고처럼 도시 경계를 넘는 채널 — 에서는 control 도시도 노출되어 효과가 희석되어 보입니다. 인플루언서·PR처럼 전국 단위 채널은 Geo-Lift가 거의 안 됩니다.

합치는 법 — Triangulation 프레임

세 프레임을 어느 하나로 일원화하려는 시도는 대체로 실패합니다. 더 좋은 접근은 각 프레임을 다른 의사결정 층에 쓰는 것입니다.

의사결정 층	시간 단위	주력 측정
캠페인 운영	일·주	MTA (방향성, 빠른 피드백)
분기 예산 재배분	분기·반기	MMM (채널 비중)
신규 채널 검증	불정기	Lift (incrementality)

이 구조의 핵심 통찰은 셋이 서로를 보정하는 데 쓰인다는 점입니다.

💡 실무 보정 룰

1) Lift 결과로 MMM의 prior를 잡습니다. 예컨대 "Meta의 incrementality가 약 30%"라는 lift 결과를 MMM의 채널 계수 prior 분포에 녹입니다.

2) MTA 보고서에 MMM 기반 incrementality 보정 계수를 곱해 표시합니다. Meta의 reported ROAS가 1.8x인데 MMM·Lift가 0.6 보정을 권하면, 운영 회의 ROAS는 1.08x로 통합 표기합니다.

3) 한 채널의 세 숫자가 30% 이상 어긋나면 alert. 어느 가정이 깨졌는지를 우선 확인합니다.

실무 예시 — Meta 캠페인 의사결정

다음 분기 Meta 예산을 늘릴까 줄일까를 정해야 한다고 합시다.

MTA만 본다면: 1.8x니까 늘립니다.
MMM만 본다면: 0.9x니까 줄입니다.
Lift만 본다면: 1.3x니까 유지·소폭 증액입니다.

세 숫자가 한 방향이 아니므로 단일 결론은 위험합니다. 더 좋은 답은:

Lift 1.3x를 가장 신뢰합니다 (인과 강도가 가장 높음).
MMM 0.9x가 lift보다 낮은 이유는 모델에서 검색·organic이 같이 움직여 크레딧이 빠진 가능성을 의심합니다.
MTA 1.8x와 lift 1.3x의 차이가 약 30%인데, 이건 MTA가 자기잠식·중복카운트로 부풀려진 양이라고 해석합니다.
결정: Meta는 약간 증액(예: +10%)하되, 동시에 "Meta 끄기 lift 실험"을 한 번 더 다음 분기 초에 돌려 1.3x가 안정적인지 확인합니다.

이 결정 프로세스는 한 숫자를 의심하지 않고 셋을 같이 보면 자동으로 따라옵니다.

의사결정 프레임 — 누구에게 뭘 보고할까

조직에서 이 세 숫자를 어떻게 분배할지가 운영의 절반입니다.

청자	주력 지표	보조 지표	보고 주기
캠페인 운영자	MTA(보정 후)	일별 CTR·CVR	일·주
마케팅 헤드	MMM 채널 기여도	Lift 결과	분기
C-level	Lift 기반 incremental ROAS	MMM	반기·연

운영자에게 MMM만 던지면 매일 행동할 수 없습니다. C-level에게 MTA만 던지면 채널 비중 의사결정을 할 수 없습니다. 청자별로 다른 추상화 층을 가져가야 합니다.

📌 조직 차원의 함정

세 숫자를 모두 운영하려면 데이터·분석 팀의 시간이 들어갑니다. MTA는 광고 플랫폼이 무료로 제공하지만, MMM은 분기당 며칠~몇 주의 분석 작업이고, Lift는 매번 실험 설계가 필요합니다. {/* TODO_HUNY: 우리 팀에서 세 측정을 운영하는 데 드는 실제 인적 비용 — 분기당 몇 인일이 빠지는지 한 줄로 */}

마치며

같은 캠페인을 놓고 세 측정이 다른 숫자를 내는 건 어느 하나가 틀려서가 아니라, 서로 다른 질문을 묻기 때문입니다. MTA는 크레딧을 나누고, MMM은 평균 효과를 추정하며, Lift는 반사실을 관측합니다. 셋 중 하나만 운영하면 의사결정 한 층이 비고, 셋을 단순 합산하면 가정 충돌로 숫자가 부풀려집니다.

다음 분기에 한 번만 시도해 볼 만한 것은 가장 큰 채널 하나를 골라 lift 실험을 분기당 1회 운영하고, 그 결과를 MMM 채널 prior와 MTA 보정 계수로 연결하는 작은 파이프라인입니다. 그것만으로도 회의실에서 "어떤 숫자를 믿어야 하나"의 70%가 정리됩니다.

{/* TODO_HUNY: 우리 팀에서 실제로 세 측정 중 어느 것이 가장 신뢰받고 있는지, 그 이유가 무엇인지 한 단락 */}

참고

Google, "Marketing Mix Modeling — Meridian": https://developers.google.com/meridian
Meta, "Conversion Lift Tests": https://www.facebook.com/business/help/1693381447650068
Recast, "MMM vs MTA — When to use which": https://getrecast.com/mmm-vs-mta/
"Geo-experiments at scale" (Google Research): https://research.google/pubs/pub38355/
"Bias-corrected attribution" (Wager & Athey): https://arxiv.org/abs/1902.10709

DEV Community