Rihpig

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus: 알리바바 멀티모달 에이전트 모델 벤치마크 및 가격

알리바바는 Qwen3.7-Max 출시 며칠 만에 Qwen 3.7 Plus를 공개했습니다. 핵심은 간단합니다. Plus는 Max의 1백만 토큰 컨텍스트와 에이전트 지향 구조를 유지하면서 이미지와 비디오 입력을 추가한 멀티모달 모델입니다. 가격은 Max보다 훨씬 낮습니다. 텍스트 중심 모델이 궁금하다면 Qwen 3.7이란 무엇인가에 대한 가이드를 먼저 참고하세요. 이 글에서는 Plus를 API로 어떻게 이해하고 테스트할지에 집중합니다.

오늘 Apidog를 사용해 보세요

Qwen 3.7 Plus를 평가할 때 가장 먼저 확인할 점은 배포 방식입니다. 이 모델은 API 전용 독점 모델이며, 오픈 웨이트가 제공되지 않습니다. 따라서 자체 호스팅이나 오프라인 실행이 아니라 Alibaba Cloud Model Studio API를 통해 호출해야 합니다. 실제 개발에서는 요청 구성, 이미지/비디오 페이로드, 응답 디버깅, 환경별 키 관리가 중요해집니다. 이런 작업에는 Apidog 같은 API 테스트 도구를 함께 쓰는 것이 효율적입니다.

간단한 답변

Qwen 3.7 Plus는 Qwen3.7-Max의 저가형 멀티모달 변형입니다. 텍스트뿐 아니라 스크린샷, 디자인 목업, 문서 이미지, 비디오를 입력으로 받아 추론할 수 있습니다.

특히 GUI 기반 에이전트에 적합합니다. 예를 들어 앱 스크린샷을 전달하고 “제출 버튼의 좌표를 알려줘”라고 요청하면, 모델은 화면을 분석해 클릭해야 할 픽셀 좌표를 반환할 수 있습니다.

순수 텍스트 작업에서는 Max가 약간 앞설 수 있습니다. 하지만 스크린샷, 차트, PDF, 비디오처럼 시각 입력이 포함되는 작업에서는 Plus가 더 적합합니다. 단점은 비공개 웨이트와 API 의존성입니다.

Qwen 3.7 Max 대비 새로운 점

Qwen 3.7 Plus에서 실무적으로 중요한 차이는 세 가지입니다.

1. 이미지와 비디오 입력 지원

Max는 텍스트 전용입니다. Plus는 텍스트, 이미지, 비디오를 함께 처리합니다.

활용 예시는 다음과 같습니다.

앱 스크린샷 분석
디자인 목업을 기반으로 UI 코드 생성
문서 이미지 또는 PDF 내용 요약
비디오 장면 이해
차트 또는 대시보드 해석

2. GUI 에이전트 워크플로우 지원

Plus는 브라우저 자동화, GUI 탐색, GUI-CLI 혼합 워크플로우에 사용할 수 있는 멀티모달 에이전트 모델로 포지셔닝됩니다.

예를 들어 다음과 같은 구조화된 실행 계획을 생성할 수 있습니다.

{
  "action": "click",
  "x": 487,
  "y": 232,
  "reason": "로그인 폼의 제출 버튼입니다."
}

이런 응답은 컴퓨터 사용 에이전트, 브라우저 자동화, 테스트 자동화에 직접 연결하기 쉽습니다.

3. 낮은 가격

Plus는 Max보다 낮은 가격대로 제공됩니다. 멀티모달 기능이 필요하지만 비용을 통제해야 하는 팀에 유리합니다.

항목	Qwen 3.7 Plus	Qwen 3.7 Max
입력 모달리티	텍스트, 이미지, 비디오	텍스트 전용
컨텍스트 윈도우	1백만 토큰, 시각 입력과 공유	1백만 토큰
1백만 토큰당 입력 / 출력	$0.40 / $1.60	$2.50 / $7.50
1백만 토큰당 캐시된 입력	$0.08	$0.25
GUI 이해, ScreenSpot Pro	79.0	없음
Terminal-Bench	70.3	69.7
자율 실행 한계	35시간	35시간

벤치마크에서 확인할 점

초기 실습 리뷰와 출시 자료를 보면 패턴은 명확합니다. Plus는 순수 텍스트에서는 Max와 비슷하거나 약간 뒤처지지만, 시각 입력이 포함되면 강점이 드러납니다.

주요 지표는 다음과 같습니다.

ScreenSpot Pro: 79.0

GUI 스크린샷을 보고 정확한 픽셀 좌표를 생성하는 능력을 평가합니다. Max는 텍스트 전용이므로 이 작업을 수행할 수 없습니다.
Terminal-Bench: 70.3

Max의 69.7보다 약간 높습니다. 시각 입력이 추가되었음에도 터미널 작업 성능이 유지됩니다.
SWE-Bench Pro: 약 60%

Max의 60.6%와 비슷한 수준입니다.
MCP-Atlas: 76.4

도구 사용 오케스트레이션에서 Max와 동률입니다.
LM Arena

텍스트와 코딩 순위에서는 Max가 약간 앞섭니다. 순수 텍스트 워크로드만 최적화한다면 Max가 더 적합할 수 있습니다.

정리하면 다음과 같습니다.

스크린샷, 목업, 차트, PDF, 비디오가 포함되면 Plus
텍스트 전용 코딩/추론 성능만 최우선이면 Max

텍스트 중심 비교가 필요하다면 Qwen 3.7 대 GPT-5.5 대 Opus 4.7 비교를 참고하세요. 벤치마크 수치는 공급업체와 초기 리뷰어의 자료를 기반으로 하므로, 절대값보다는 방향성을 보는 것이 좋습니다.

가격: 저가형 멀티모달 등급

Qwen 3.7 Plus의 가격은 다음과 같습니다.

항목	가격
입력 토큰	1백만 토큰당 $0.40
출력 토큰	1백만 토큰당 $1.60
캐시된 입력	1백만 토큰당 $0.08

Max와 비교하면 입력은 약 6배, 출력은 거의 5배 저렴합니다.

다만 비용 계산 시 주의할 점이 있습니다. 이미지와 비디오는 1백만 토큰 컨텍스트 예산을 공유합니다. 고해상도 스크린샷이나 긴 비디오 프레임은 많은 토큰을 사용할 수 있습니다. 따라서 실제 비용을 계산할 때는 텍스트 토큰뿐 아니라 시각 입력 토큰도 함께 추정해야 합니다.

실무에서는 다음 방식으로 비용을 줄일 수 있습니다.

필요한 영역만 캡처한 이미지 사용
고해상도 전체 화면 대신 크롭된 스크린샷 사용
비디오 전체 대신 핵심 프레임만 전달
반복 프롬프트는 캐시 활용
긴 컨텍스트를 무조건 사용하지 않고 단계별 호출로 분리

중국 LLM 가격 경쟁의 배경이 궁금하다면 2026년 중국 LLM 가격 전쟁 분석을 참고하세요.

단점: 독점 모델이며 API 전용

Qwen 제품군은 오픈 웨이트 모델로 많은 개발자와 기업 고객을 확보해 왔습니다. 기존 Qwen 모델 상당수는 Apache 2.0 또는 공개 사용 라이선스로 제공되어, 팀이 직접 다운로드하고 미세 조정하며 사내 인프라에서 실행할 수 있었습니다.

Qwen 3.7 Plus는 다릅니다.

현재 Plus는 Alibaba Cloud Model Studio를 통한 관리형 상업용 API로만 제공됩니다.

즉 다음 작업은 할 수 없습니다.

웨이트 다운로드
자체 호스팅
오프라인 실행
에어갭 데이터 센터 배포

규제 산업, 폐쇄망, 온프레미스 환경에서는 이 제약이 결정적인 단점이 될 수 있습니다. 2026년 3분기에 오픈 웨이트 Plus 변형이 검토되고 있지만 확정된 것은 아닙니다. 오픈 웨이트가 필수라면 현재 Qwen 3.7 Plus는 적합하지 않습니다.

Qwen 3.7 Plus 접근 방법

Qwen 3.7 Plus는 두 가지 방식으로 접근할 수 있습니다.

1. API로 호출

Alibaba Cloud Model Studio를 통해 호출합니다. 엔드포인트는 OpenAI 호환 형식을 사용하므로 기존 OpenAI SDK 패턴을 재사용할 수 있습니다.

인증과 첫 호출 방법은 Qwen 3.7 API 사용 방법 가이드를 참고하세요.

멀티모달 요청에서는 messages.content에 텍스트와 이미지 또는 비디오 파트를 함께 넣습니다.

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Which button submits this form? Give pixel coordinates."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/screenshot.png"
                    }
                },
            ],
        }
    ],
)

print(resp.choices[0].message.content)

모델 식별자와 기본 URL은 리전 또는 계정 유형에 따라 달라질 수 있습니다. 실제 배포 전에는 Model Studio 문서에서 최신 값을 확인하세요.

2. 브라우저에서 먼저 테스트

코드를 작성하기 전에 chat.qwen.ai에서 브라우저로 모델 동작을 확인할 수 있습니다.

무료로 Qwen 제품군을 테스트하는 방법은 무료 Qwen 3.7 가이드를 참고하세요.

멀티모달 API 호출 구현 패턴

개발자가 바로 적용할 수 있는 기본 흐름은 다음과 같습니다.

입력 이미지 또는 비디오 준비
프롬프트에 원하는 출력 형식 명시
API 호출
응답 파싱
도구 실행 또는 UI 자동화에 연결
실패 케이스를 로그로 저장하고 프롬프트 개선

GUI 에이전트용 프롬프트는 자연어 답변보다 구조화된 JSON을 요구하는 것이 좋습니다.

prompt = """
You are controlling a web app from a screenshot.

Return JSON only:
{
  "action": "click" | "type" | "wait",
  "target": "short description",
  "x": number,
  "y": number,
  "text": string | null,
  "reason": "why this action is needed"
}

Find the button that submits the form.
"""

응답 예시는 다음과 같은 형태를 기대할 수 있습니다.

{
  "action": "click",
  "target": "Submit button",
  "x": 812,
  "y": 643,
  "text": null,
  "reason": "This button submits the form."
}

이후 Playwright, Selenium, Puppeteer 같은 자동화 도구와 연결할 수 있습니다.

await page.mouse.click(result.x, result.y);

단, 실제 프로덕션에서는 다음 검증을 추가해야 합니다.

좌표가 화면 범위 안에 있는지 확인
응답이 유효한 JSON인지 확인
클릭 전 현재 화면이 입력 스크린샷과 같은지 확인
실패 시 재시도 또는 사람 검토 단계 추가

누가 사용해야 하는가

Qwen 3.7 Plus는 다음 워크로드에 적합합니다.

컴퓨터 사용 및 GUI 에이전트

스크린샷을 보고 실제 인터페이스를 클릭해야 하는 자동화 작업
스크린샷-투-코드 및 목업-투-UI

모델이 디자인 이미지를 읽고 프런트엔드 코드를 생성하는 작업
문서, PDF, 비디오 이해

텍스트와 시각 입력을 함께 처리해야 하는 분석 작업
장기 에이전트 실행

여러 도구 호출을 연결하고 긴 컨텍스트를 유지해야 하는 작업
비용 민감형 멀티모달 앱

Max보다 낮은 비용으로 시각 입력을 처리해야 하는 서비스

반대로 다음 조건이라면 Max가 더 적합할 수 있습니다.

순수 텍스트 SWE-Bench Pro 점수가 최우선인 경우
텍스트 전용 지연 시간이 가장 중요한 경우
이미지나 비디오 입력이 전혀 필요 없는 경우

다른 저가형 또는 오픈 소스 모델과 비교하고 있다면 MiniMax M3 대 DeepSeek V4 대 Qwen 3.7 비교를 참고하세요.

Apidog로 Qwen 3.7 Plus 테스트하기

Qwen 3.7 Plus는 API 전용이므로, 개발 과정에서 요청과 응답을 정확히 확인해야 합니다. 특히 멀티모달 요청은 일반 텍스트 API보다 디버깅할 요소가 많습니다.

예를 들어 다음을 확인해야 합니다.

이미지 URL 또는 업로드 페이로드가 올바른지
비디오 입력이 예상 형식으로 전달되는지
모델이 반환한 좌표나 JSON이 파싱 가능한지
긴 실행 루프에서 어떤 도구 호출이 실패했는지
환경별 API 키와 base URL이 올바르게 설정되었는지

Apidog를 사용하면 Qwen 3.7 Plus 요청을 구성하고, 이미지 및 비디오 페이로드를 테스트하고, 원시 응답을 확인할 수 있습니다. 또한 여러 환경에서 Model Studio 키를 관리하고, 프롬프트를 조정하는 동안 엔드포인트를 모의해 프런트엔드 또는 백엔드 개발을 계속 진행할 수 있습니다.

GUI-CLI 워크플로우처럼 여러 도구 호출이 이어지는 에이전트를 만들고 있다면 Apidog의 AI 에이전트 디버거를 사용해 전체 호출 시퀀스를 추적할 수 있습니다. 어느 단계에서 입력이 잘못됐는지, 모델 응답이 기대 형식과 달라졌는지 확인하기 쉽습니다.

Qwen 3.7 Plus API를 프로덕션에 배포하기 전에 테스트, 디버그, 모의하려면 Apidog를 다운로드해 워크플로우에 추가하세요.

자주 묻는 질문

Qwen 3.7 Plus는 오픈 소스인가요?

아니요. Qwen 3.7 Plus는 독점 모델이며 Alibaba Cloud Model Studio를 통한 관리형 API로만 제공됩니다. 웨이트를 다운로드하거나 자체 호스팅할 수 없습니다. 2026년 3분기에 오픈 웨이트 변형이 제안되었지만 확정된 것은 아닙니다.

Qwen 3.7 Plus와 Max 중 어떤 것을 사용해야 하나요?

스크린샷, PDF, 비디오 같은 시각 입력이 필요하거나 더 낮은 비용이 중요하다면 Plus를 사용하세요. 순수 텍스트 성능과 텍스트 전용 지연 시간이 최우선이라면 Max를 선택하는 것이 좋습니다.

Qwen 3.7 Plus의 비용은 얼마인가요?

입력 토큰은 1백만 토큰당 $0.40, 출력 토큰은 1백만 토큰당 $1.60, 캐시된 입력은 1백만 토큰당 $0.08입니다. Max보다 훨씬 저렴한 가격대입니다.

Qwen 3.7 Plus는 비디오를 처리할 수 있나요?

예. 텍스트, 이미지, 비디오를 입력으로 받을 수 있습니다. 다만 시각 토큰이 1백만 토큰 컨텍스트 예산을 공유하므로, 큰 미디어 페이로드는 텍스트 여유 공간을 줄일 수 있습니다.

컨텍스트 윈도우는 얼마인가요?

1백만 토큰입니다. 이 예산은 텍스트, 이미지, 비디오 입력에 걸쳐 공유됩니다.

Qwen 3.7 Plus에는 어떻게 접근하나요?

Alibaba Cloud Model Studio API를 통해 접근하거나 chat.qwen.ai에서 브라우저로 먼저 테스트할 수 있습니다.

결론

Qwen 3.7 Plus는 Qwen 3.7 Max의 에이전트 지향 구조에 이미지와 비디오 입력을 추가한 저가형 멀티모달 모델입니다. GUI 에이전트, 스크린샷 기반 코딩, 문서 분석, 비디오 이해를 구현하는 개발자에게 실용적인 선택지가 될 수 있습니다.

다만 비공개 웨이트와 Alibaba Cloud API 의존성은 반드시 고려해야 합니다. 자체 호스팅이나 오프라인 실행이 필수라면 현재 Plus는 적합하지 않습니다.

이 제약을 수용할 수 있다면 다음 단계는 API 테스트입니다. Apidog에서 Qwen 3.7 Plus 호출을 구성하고, 멀티모달 요청을 디버깅하며, 응답을 모의해 실제 서비스에 적용하기 전에 안정성을 확인하세요.

DEV Community