Rihpig

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus 대 Max: 어떤 Qwen 3.7 모델을 선택해야 할까

알리바바는 2주 안에 Qwen 3.7 라인의 두 플래그십 모델을 출시했습니다: 텍스트 전용 추론 모델 Qwen3.7-Max와 이미지/비디오 입력을 지원하는 멀티모달 모델 Qwen3.7-Plus입니다. 두 모델 모두 1M 토큰 컨텍스트와 35시간 자율 작동 한도를 제공하므로, 실제 선택은 성능, 비용, 입력 형태, 지연 시간 기준으로 나눠야 합니다.

지금 Apidog를 사용해 보세요

이 글에서는 벤치마크, 가격, 속도, 실제 워크로드 기준으로 두 모델을 비교합니다. 각 모델의 배경이 필요하다면 Qwen 3.7 Plus 개요와 Qwen 3.7이란 무엇인가를 먼저 참고하세요. 어떤 모델을 선택하든 API 호출, 응답 비교, 비용 검증이 필요하며, 이 과정에서는 Apidog를 사용할 수 있습니다.

빠른 결론

대부분의 경우 Qwen 3.7 Plus를 기본값으로 선택하는 것이 합리적입니다.

Plus는 다음 조건에서 유리합니다.

도구 사용 성능이 Max와 동등함
터미널 작업 벤치마크에서 Max보다 약간 높음
이미지, 스크린샷, 비디오 입력 지원
입력 기준 약 6배 저렴함

반대로 Qwen 3.7 Max는 텍스트 전용 최적화가 필요한 경우에만 고려하세요. Max는 순수 텍스트 리더보드에서 약간 앞서고, 텍스트 전용 콜드 스타트에서 더 빠릅니다. 하지만 스크린샷, 문서 이미지, 비디오 입력이 조금이라도 필요하다면 Plus가 유일한 선택입니다.

핵심 차이점

두 모델의 차이는 입력 형태와 비용에서 가장 크게 나타납니다.

항목	Qwen 3.7 Plus	Qwen 3.7 Max
입력	텍스트, 이미지, 비디오	텍스트 전용
주요 용도	멀티모달 에이전트, GUI 이해, 문서 이미지 처리	텍스트 추론, 코딩, 긴 텍스트 작업
비용	저렴함	비쌈
자체 호스팅	불가	불가

Max는 순수 텍스트 플래그십입니다. 텍스트 입력만으로 추론하고, 코드를 작성하며, 긴 에이전트 체인을 실행하는 데 초점을 둡니다.

Plus는 같은 계열의 백본에 시각 입력을 추가한 모델입니다. 이미지와 비디오를 받아들이고, 스크린샷 기반 GUI 이해도 지원합니다. 예를 들어 에이전트가 화면을 보고 버튼 위치나 클릭 좌표를 판단해야 한다면 Plus가 필요합니다.

실제 선택 기준은 간단합니다.

텍스트만 처리하고 지연 시간이 매우 중요하다면 Max
비용, 이미지, 비디오, GUI 이해가 중요하다면 Plus

벤치마크 비교

벤치마크를 보면 Plus는 순수 텍스트에서는 Max보다 약간 뒤처지지만, 도구 사용에서는 동등하고, 시각 입력이 필요한 작업에서는 Max가 비교 대상이 되지 않습니다.

벤치마크	Qwen 3.7 Plus	Qwen 3.7 Max
LM 아레나 (텍스트)	#15	#13
LM 아레나 (코딩)	#12	#10
비전 아레나	#16	해당 없음
SWE-벤치 프로	~60%	60.6%
터미널 벤치 (2.0 터미너스)	70.3	69.7
스크린스팟 프로 (GUI 이해)	79.0	없음
MCP-아틀라스 (도구 사용)	76.4	76.4

1. SWE-Bench Pro는 사실상 동점

Plus는 약 60%, Max는 60.6%입니다. 실제 소프트웨어 엔지니어링 작업에서 Plus의 멀티모달 기능이 코딩 성능을 크게 희생시키지는 않습니다.

서구 플래그십 모델과의 위치가 궁금하다면 Qwen 3.7 vs GPT-5.5 vs Opus 4.7 비교를 참고하세요.

2. 터미널 작업에서는 Plus가 약간 앞섬

Terminal Bench 결과는 Plus 70.3, Max 69.7입니다. 셸 명령 실행, 파일 수정, 터미널 중심 에이전트 워크플로에서는 더 저렴한 Plus가 오히려 약간 더 좋은 결과를 보입니다.

3. GUI 이해는 Plus만 가능

ScreenSpot Pro에서 Plus는 79.0을 기록합니다. Max는 텍스트 전용 모델이므로 이 작업을 수행할 수 없습니다.

다음과 같은 작업은 Plus를 선택해야 합니다.

웹 페이지 스크린샷 분석
UI 버튼 위치 추론
시각적 회귀 테스트
GUI 에이전트
이미지 기반 문서 추출

벤치마크 수치는 방향성으로 봐야 합니다. 각 스위트가 무엇을 측정하는지는 SWE-bench에서 확인할 수 있습니다.

가격 비교

가격 차이는 두 모델 선택에서 가장 강력한 변수입니다.

	Qwen 3.7 Plus	Qwen 3.7 Max
입력 / 100만 토큰	$0.40	$2.50
출력 / 100만 토큰	$1.60	$7.50
캐시된 입력 / 100만 토큰	$0.08	$0.25

Plus는 다음과 같이 저렴합니다.

입력 기준 약 6배 저렴
출력 기준 거의 5배 저렴
캐시된 입력도 더 저렴

대량 분류, 긴 컨텍스트 요약, 장시간 에이전트 실행처럼 토큰 사용량이 큰 작업에서는 이 차이가 바로 운영 비용 차이로 이어집니다.

다만 Plus에서 이미지와 비디오는 토큰화되어 동일한 1M 컨텍스트 예산을 사용합니다. 따라서 멀티모달 요청에서는 다음을 적용하세요.

스크린샷 해상도를 필요한 수준으로 축소
비디오는 전체 입력 대신 핵심 프레임만 샘플링
반복 이미지 입력은 캐싱 전략 검토
동일 프롬프트로 Plus와 Max 비용을 샘플링해 비교

토큰 비용 최적화가 필요하다면 에이전트 토큰 비용 절감과 2026년 중국 LLM 가격 전쟁을 참고하세요. 공식 요율은 모델 스튜디오 가격 페이지에서 확인할 수 있습니다.

사양 및 속도

	Qwen 3.7 Plus	Qwen 3.7 Max
입력 양식	텍스트, 이미지, 비디오	텍스트 전용
컨텍스트 창	1M (시각 기능과 공유)	1M
자율 실행 한도	35시간	35시간
텍스트 전용 지연 시간	기준선	콜드 경로에서 약 7–15% 더 빠름
가중치	독점, API 전용	독점, API 전용

Max의 장점은 지연 시간입니다. 텍스트 전용 콜드 스타트에서 약 7~15% 더 빠르게 응답합니다. 사용자에게 첫 토큰까지의 시간이 직접 보이는 고객 지원 챗봇이나 대화형 제품에서는 이 차이가 중요할 수 있습니다.

속도와 지능의 절충점은 독립적인 분석에서도 확인할 수 있습니다.

중요한 제한도 있습니다.

두 모델 모두 폐쇄형 가중치
Alibaba Cloud Model Studio를 통해서만 실행
가중치 다운로드 불가
자체 호스팅 불가

따라서 온프레미스 배포나 자체 호스팅이 필수라면 두 모델 모두 적합하지 않습니다.

어떤 모델을 선택해야 할까요?

Qwen 3.7 Plus를 선택할 때

다음 조건 중 하나라도 해당하면 Plus를 먼저 테스트하세요.

이미지, 스크린샷, PDF, 비디오 입력이 있음
GUI 에이전트 또는 컴퓨터 사용 에이전트를 구축함
대량 요청으로 토큰 비용이 중요함
도구 호출 기반 에이전트 워크플로를 실행함
코딩 성능은 필요하지만 Max의 미세한 텍스트 우위가 필수는 아님

Qwen 3.7 Max를 선택할 때

다음 조건에서는 Max를 고려할 수 있습니다.

입력이 100% 텍스트임
텍스트 전용 SWE-Bench Pro 점수를 최대화해야 함
사용자 경험에서 콜드 스타트 지연 시간이 매우 중요함
이미지나 비디오 입력이 전혀 없음
더 높은 비용을 감수할 만한 텍스트 품질 우위가 필요함

대부분의 팀에게는 Plus가 기본값이고, Max는 특수한 텍스트 전용 워크로드용입니다.

워크로드별 선택표

워크로드	선택	이유
스크린샷 QA 또는 시각적 회귀 에이전트	Plus	GUI 이해 필요; Plus만 화면을 볼 수 있음
송장, 영수증 또는 스캔된 PDF 추출	Plus	문서 이미지는 시각 입력이 필요함
대량 텍스트 분류	Plus	충분한 텍스트 품질과 훨씬 낮은 비용
저지연 고객 지원 챗봇	Max	텍스트 전용 콜드 스타트가 더 빠름
긴 자율 코딩 실행	둘 중 하나	SWE-Bench Pro가 거의 동점이므로 비용으로 결정

실무에서는 다음 순서로 결정하면 됩니다.

이미지, 비디오, 스크린샷이 필요한가?
- 예: Plus
- 아니오: 다음 단계
비용이 중요한가?
- 예: Plus
- 아니오: 다음 단계
텍스트 전용 지연 시간이 중요한가?
- 예: Max
- 아니오: Plus부터 테스트

Apidog로 두 모델 테스트하기

두 모델은 동일한 OpenAI 호환 Model Studio 엔드포인트를 공유합니다. 따라서 요청 구조를 유지하고 모델 ID만 바꾸면 두 모델을 직접 비교할 수 있습니다.

예를 들어 같은 프롬프트를 다음 두 모델에 각각 보낼 수 있습니다.

{
  "model": "qwen3.7-plus",
  "messages": [
    {
      "role": "user",
      "content": "이 API 응답 스키마의 문제점을 분석해줘."
    }
  ]
}

{
  "model": "qwen3.7-max",
  "messages": [
    {
      "role": "user",
      "content": "이 API 응답 스키마의 문제점을 분석해줘."
    }
  ]
}

비교할 때는 다음 항목을 기록하세요.

첫 토큰까지의 시간
전체 응답 시간
출력 토큰 수
정답 품질
도구 호출 정확도
비용
멀티모달 입력 필요 여부

Apidog를 사용하면 이 비교 루프를 더 쉽게 구성할 수 있습니다.

실무 테스트 절차는 다음과 같습니다.

Model Studio API 키를 Apidog 환경 변수에 저장합니다.
동일한 엔드포인트 요청을 생성합니다.
model 값만 qwen3.7-plus와 qwen3.7-max로 바꿉니다.
동일 프롬프트로 요청을 반복 실행합니다.
원시 JSON 응답을 나란히 비교합니다.
필요한 경우 Mock 엔드포인트로 앱 개발을 계속 진행합니다.
에이전트 도구 호출 흐름이 있다면 전체 시퀀스를 디버깅합니다.

멀티모달 Plus 요청의 페이로드 형식은 Qwen 3.7 Plus API 가이드에서 확인할 수 있습니다. 텍스트 경로는 기본 Qwen 3.7 API 가이드를 참고하세요. 에이전트 실행에서 도구 호출을 연결한다면 Apidog의 AI 에이전트 디버거가 전체 호출 순서를 보여줍니다.

프로덕션에 연결하기 전에 두 Qwen 3.7 모델을 테스트하고 비교하려면 Apidog를 다운로드하세요.

자주 묻는 질문

Qwen 3.7 Plus가 Max보다 낫습니까?

대부분의 워크로드에서는 그렇습니다. Plus는 시각 기능을 제공하고, 코딩 및 도구 사용에서 Max와 거의 동등하면서도 비용이 훨씬 저렴합니다. Max는 순수 텍스트 리더보드와 텍스트 전용 지연 시간에서 약간의 우위를 가집니다.

Plus는 얼마나 저렴합니까?

입력 기준 약 6배 저렴합니다. Plus는 $0.40 / 100만 토큰이고, Max는 $2.50 / 100만 토큰입니다. 출력은 Plus가 $1.60, Max가 $7.50으로 거의 5배 차이가 납니다.

두 모델은 동일한 컨텍스트 창을 사용합니까?

네. 둘 다 1M 토큰 컨텍스트 창을 제공합니다. 단, Plus에서는 이미지와 비디오도 같은 컨텍스트 예산을 소비합니다.

Max는 이미지를 처리할 수 있습니까?

아니요. Max는 텍스트 전용 모델입니다. 이미지, 스크린샷, 비디오 입력이 필요하면 Plus를 사용해야 합니다.

두 모델 중 오픈 소스 모델이 있습니까?

아니요. 둘 다 독점 모델이며 Alibaba Cloud Model Studio를 통해서만 실행됩니다. 가중치를 다운로드하거나 자체 호스팅할 수 없습니다.

어느 쪽이 더 빠릅니까?

텍스트 전용 콜드 경로에서는 Max가 약 7~15% 더 빠릅니다. 하지만 이미지나 비디오가 포함된 작업에서는 Plus만 사용할 수 있습니다.

결론

Qwen 3.7 Max와 Plus는 같은 문제를 다른 방식으로 해결합니다.

Max: 텍스트 전용 품질과 지연 시간을 조금 더 중시하는 모델
Plus: 더 저렴하고 멀티모달 입력을 지원하는 범용 모델

대부분의 개발팀은 Plus로 시작하는 것이 좋습니다. 비용이 훨씬 낮고, 코딩 및 도구 사용 성능도 Max와 매우 가깝기 때문입니다. 이후 텍스트 전용 워크로드에서 Max의 지연 시간 또는 품질 우위가 실제 비용을 정당화하는지 테스트하세요.

최종 선택은 벤치마크가 아니라 실제 요청으로 검증해야 합니다. Apidog에서 두 모델의 API 응답, 지연 시간, JSON 구조, 도구 호출 흐름을 비교한 뒤 프로덕션에 배포하세요.

DEV Community