Rihpig

Posted on Jun 1 • Originally published at apidog.com

2026년 최고 오픈소스 코딩 모델: MiniMax M3 vs DeepSeek V4-pro vs Qwen 3.7 비교

지난 2년 동안 “최고의 코딩 모델은 무엇인가?”라는 질문의 답은 대체로 GPT, Claude, Gemini 같은 폐쇄형 모델이었습니다. 하지만 이제 중국 연구소들이 오픈 가중치 모델을 공개하거나 API 가격을 크게 낮추면서, 코딩 에이전트를 설계하고 운영하는 방식이 바뀌고 있습니다.

오늘 Apidog를 사용해 보세요

MiniMax M3는 2026년 6월 1일 출시된 오픈 가중치 코딩 모델입니다. 코딩 및 에이전트 작업을 위해 설계되었고, 1,000,000 토큰 컨텍스트 창과 네이티브 멀티모달 기능을 지원합니다. DeepSeek V4 제품군, Alibaba Qwen 3.7과 함께 최근 몇 주 안에 등장한 주요 경쟁자 중 하나입니다. 오픈 가중치, 낮은 비용, 공급업체 종속 회피가 중요하다면 이제 선택지가 하나가 아닙니다.

세 가지 경쟁자

MiniMax M3

MiniMax M3는 1M 토큰 컨텍스트 창과 네이티브 멀티모달 기능을 갖춘 코딩 모델입니다.

지원 범위는 다음과 같습니다.

텍스트 입력
이미지 입력
비디오 입력
컴퓨터 사용 작업
에이전트 기반 코딩 워크플로

MiniMax는 M3가 새로운 MSA 아키텍처 기반으로 실행된다고 설명합니다. 출시 후 약 10일 이내에 오픈 가중치와 기술 보고서를 공개하겠다고 밝혔으며, 매개변수 수는 아직 공개하지 않았습니다.

자세한 내용은 MiniMax M3는 무엇인가에서 확인할 수 있습니다.

DeepSeek V4-Pro

DeepSeek V4-Pro는 추론 및 코딩에 초점을 맞춘 모델입니다. 최종 답변 전에 reasoning_content를 반환하는 사고 모델이며, 다중 파일 리팩터링이나 의존성 추적 같은 작업에서 강점을 가질 수 있습니다.

DeepSeek은 R1 및 V3 라인에서 오픈 가중치를 공개한 이력이 있으며, V4-Pro와 더 저렴한 비사고형 V4-Flash 변형을 함께 제공합니다.

공식 사이트와 API는 deepseek.com에서 확인할 수 있습니다.

Qwen 3.7

Qwen 3.7은 Alibaba의 주력 모델군이며, Qwen3.7-Max-Preview가 중심입니다. 1M 토큰 컨텍스트 창을 가진 추론 모델로, 장기 에이전트 작업과 도구 사용에 초점을 둡니다.

단, 중요한 차이가 있습니다. 2026년 5월 중순 출시 시점 기준으로 Qwen3.7-Max 주력 모델은 독점 모델이며 폐쇄형 가중치입니다. Alibaba는 이전에도 하위 등급 모델을 오픈 소스화한 이력이 있지만, Qwen3.7-Max의 오픈 가중치는 아직 공개되지 않았습니다.

자세한 내용은 Qwen 3.7은 무엇인가에서 확인할 수 있습니다. Alibaba의 오픈 소스 저장소는 github.com/QwenLM에 있습니다.

사양 비교

사양	MiniMax M3	DeepSeek V4-Pro	Qwen3.7-Max-Preview
제공업체	MiniMax	DeepSeek	Alibaba (Qwen)
출시일	2026년 6월 1일	2026년	2026년 5월 미리 보기
오픈 가중치	예, 약 10일 내 공개 예정	예, DeepSeek의 R1/V3 공개 이력	아직 아님, 주력 모델은 폐쇄형
컨텍스트 창	1,000,000 토큰	여기에 명시되지 않음	1,000,000 토큰
멀티모달	예, 이미지 + 비디오 + 컴퓨터 사용	아니요, 텍스트 + 추론	텍스트 중심 추론
추론 / 사고 모드	예	예, `reasoning_content`	예, 확장된 사고
매개변수 수	미공개	여기에 명시되지 않음	여기에 명시되지 않음
아키텍처	MSA	여기에 명시되지 않음	여기에 명시되지 않음

오픈 가중치가 필수 조건이라면 선택지는 바로 좁아집니다.

MiniMax M3: 가중치 공개 예정
DeepSeek V4-Pro: DeepSeek의 오픈 가중치 공개 이력 기반
Qwen3.7-Max: 현재 주력 모델은 폐쇄형

코딩 및 에이전트 능력

데이터는 모델마다 균일하지 않습니다. 따라서 공개된 수치는 그대로 보고, 직접 비교가 어려운 부분은 구분해야 합니다.

MiniMax M3는 출시 시점에 공급업체 보고 기준의 코딩 및 에이전트 벤치마크를 공개했습니다. 제3자 재현 전까지는 공급업체 주장으로 보는 것이 안전합니다.

벤치마크 (공급업체 보고, MiniMax)	MiniMax M3
SWE-Bench Pro	59.0%
Terminal-Bench 2.1	66.0%
SWE-fficiency	34.8%
KernelBench Hard	28.8%
MCP Atlas	74.2%
PostTrainBench	0.37
SVG-Bench	Opus 4.7보다 높게 보고됨
OmniDocBench	Gemini 3.1 Pro보다 높게 보고됨
Claw-Eval	자체 세트에서 가장 높게 보고됨

SWE-Bench Pro와 Terminal-Bench는 GitHub 이슈 해결, 터미널 작업 등 실제 소프트웨어 엔지니어링 작업을 측정합니다. MCP Atlas는 도구 사용과 에이전트 오케스트레이션을 측정합니다.

SWE-Bench 관련 데이터는 SWE-Bench 리더보드에서 확인할 수 있습니다.

DeepSeek V4-Pro와 Qwen 3.7은 동일한 형식의 에이전트 코딩 수치가 공개되어 있지 않으므로, 셀 단위로 직접 비교하는 것은 적절하지 않습니다.

현재 문서화된 내용은 다음과 같습니다.

DeepSeek V4-Pro는 제3자 비교에서 GPT-5.5와 몇 벤치마크 포인트 이내의 코딩 성능을 보이면서 비용은 훨씬 낮은 것으로 설명됩니다. 다중 파일 리팩터링, 이름 변경, 함수 시그니처 변경 같은 작업에서는 추론 체인이 실용적인 장점이 될 수 있습니다. 설정과 비용 계산은 DeepSeek V4-Pro를 Cursor와 함께 사용하는 방법에서 확인할 수 있습니다.
Qwen 3.7은 Artificial Analysis Intelligence Index에서 57점을 기록했고, 출시 당시 해당 리더보드에서 1위로 보고되었습니다. LM Arena에서는 약 1,475 Elo를 기록하여 코딩 부문 상위권에 들었습니다. Alibaba는 장기 에이전트 실행과 강력한 도구 사용을 강조합니다.

실무 기준으로 정리하면 다음과 같습니다.

작업 수준의 공개 수치가 중요하다면 MiniMax M3를 먼저 테스트합니다.
낮은 비용과 추론 기반 코드 품질이 중요하다면 DeepSeek V4-Pro를 테스트합니다.
장기 에이전트 체인과 종합 지능 점수가 중요하다면 Qwen3.7-Max를 테스트합니다.

Qwen에 대한 더 넓은 비교는 Qwen 3.7 vs GPT-5.5 vs Opus 4.7에서 확인할 수 있습니다.

컨텍스트 창과 장문 컨텍스트 비용

MiniMax M3와 Qwen3.7-Max는 1,000,000 토큰 컨텍스트 창을 광고합니다. DeepSeek V4-Pro의 컨텍스트 창 크기는 여기에 명시되어 있지 않습니다.

100만 토큰은 대략 70만~75만 단어에 해당합니다. 다음과 같은 작업에 유용합니다.

중간 규모 저장소 전체 분석
긴 PDF 묶음 요약 및 질의응답
장기간 대화 기록 기반 에이전트 실행
수동 청킹 없이 전체 코드베이스를 한 번에 전달하는 실험

하지만 큰 컨텍스트 창은 완벽한 기억력을 의미하지 않습니다.

주의할 점은 두 가지입니다.

창이 커질수록 검색과 추론 안정성이 항상 보장되지는 않습니다.
전달한 모든 토큰은 비용으로 이어집니다.

MiniMax는 M3의 MSA 아키텍처를 장문 컨텍스트 효율성을 위해 설계된 구조로 설명합니다. API는 512K 입력 토큰까지 표준 요율을 적용하고, 그 이상에는 별도 장문 컨텍스트 요율을 적용합니다.

실무에서는 다음 규칙을 적용하는 것이 좋습니다.

전체 저장소를 항상 보내지 말 것.
작업에 필요한 파일, 오류 로그, 테스트 결과, 인터페이스 정의만 먼저 보낼 것.
모델이 추가 파일을 요청하면 그때 확장할 것.

에이전트 컨텍스트를 줄이는 전략은 에이전트 토큰 비용을 줄이는 방법에서 확인할 수 있습니다.

가격 및 접근성

가격은 이 비교의 핵심입니다. 서구 주력 모델에서 높은 비용이 드는 코딩 에이전트 워크로드를 더 낮은 비용으로 실행할 수 있기 때문입니다. 이 흐름은 2026년 중국 LLM 가격 전쟁과도 연결됩니다.

DeepSeek V4-Pro 가격

2026년 5월 기준 DeepSeek V4-Pro의 표준 요율은 다음과 같습니다.

토큰 유형	DeepSeek V4-Pro 100만 토큰당 요율
입력, 캐시 미스	$0.435
입력, 캐시 히트	$0.003625
출력	$0.87

출력 요율은 GPT-5.5 출력 비용의 약 1/34로 설명됩니다. 비사고형 V4-Flash 변형은 백만 입력/출력당 $0.14 / $0.28로 더 저렴합니다.

대량 코딩 에이전트 트래픽을 운영한다면 DeepSeek의 가격은 강력한 장점입니다.

MiniMax M3 가격

MiniMax M3는 단일 토큰당 가격 대신 토큰 플랜을 판매합니다.

플랜	가격
Plus	$20
Max	$50
Ultra	$120

API는 512K 토큰까지 표준 요율을 사용하고, 이를 초과하면 장문 컨텍스트 요율을 사용합니다. 정확한 토큰당 수치는 공개되지 않았으므로 여기서는 인용하지 않습니다.

월별 지출 예측 가능성이 중요하다면 이 구조가 더 적합할 수 있습니다.

연결 방법은 MiniMax M3 API 사용 방법에서 확인할 수 있습니다.

Qwen 3.7 가격

Qwen 3.7은 Alibaba Cloud를 통해 토큰당 과금됩니다. Max 미리 보기 모델은 2026년 5월 출시되었습니다. 정확한 요율은 변동될 수 있으므로 최신 수치는 Alibaba Cloud의 현재 모델 문서를 확인해야 합니다.

자체 호스팅 여부

오픈 가중치는 비용 구조를 바꿉니다.

MiniMax M3: 가중치 공개 예정
DeepSeek V4-Pro: 오픈 릴리스 이력
Qwen3.7-Max: 현재 주력 가중치 비공개

자체 호스팅이 가능하면 토큰당 API 과금 대신 하드웨어 비용 중심으로 운영할 수 있습니다. 공급업체 종속을 피하는 것이 목표라면 오픈 가중치 여부는 핵심 기준입니다.

어떤 모델을 선택해야 할까

우선순위	추천 모델	이유
공개 벤치마크가 있는 에이전트 코딩	MiniMax M3	SWE-Bench Pro, Terminal-Bench, MCP Atlas 수치 공개
멀티모달 입력	MiniMax M3	이미지, 비디오, 컴퓨터 사용 지원
고용량 API 트래픽에서 낮은 비용	DeepSeek V4-Pro	낮은 출력 토큰 가격, Flash 변형, 캐시 히트 가격 제공
어려운 리팩터링에서 추론 기반 코드 품질	DeepSeek V4-Pro	`reasoning_content` 기반 사고 체인
공개 보드 기준 높은 종합 지능 점수	Qwen3.7-Max	AA Intelligence Index 57점으로 보고됨
장기 자율 에이전트 실행	Qwen3.7-Max 또는 MiniMax M3	둘 다 긴 컨텍스트와 도구 사용을 강조
자체 호스팅 / 공급업체 종속 회피	MiniMax M3 또는 DeepSeek V4-Pro	오픈 가중치 경로 존재

간단히 정리하면 다음과 같습니다.

오픈 가중치와 에이전트 코딩 근거가 중요하면 MiniMax M3를 우선 검토합니다.
대량 API 트래픽과 낮은 비용이 중요하면 DeepSeek V4-Pro를 우선 검토합니다.
최고 수준의 공개 종합 점수와 호스팅 API 사용이 괜찮다면 Qwen3.7-Max를 검토합니다.

직접 테스트하는 방법

리더보드는 다른 사람의 작업에서 모델이 어떻게 동작했는지를 보여줍니다. 하지만 실제로 중요한 것은 자신의 저장소, 프롬프트, 테스트 케이스에서의 결과입니다.

가장 빠른 비교 방법은 동일한 프롬프트를 세 모델에 보내고 결과를 나란히 확인하는 것입니다.

Apidog를 사용하면 다음과 같이 테스트 벤치를 구성할 수 있습니다.

Apidog 프로젝트를 하나 만듭니다.
모델별 환경을 3개 생성합니다.
- minimax-m3
- deepseek-v4-pro
- qwen-3-7-max
각 환경에 API base URL과 API key를 설정합니다.
OpenAI 호환 Chat Completions 스키마를 기준으로 요청을 만듭니다.
동일한 프롬프트 배치를 각 환경에서 실행합니다.
응답 품질, 비용, 지연시간, JSON 구조 안정성을 비교합니다.

예시 요청 구조는 다음과 같습니다.

{
  "model": "{{model}}",
  "messages": [
    {
      "role": "system",
      "content": "당신은 코드 리뷰와 리팩터링을 지원하는 시니어 소프트웨어 엔지니어입니다."
    },
    {
      "role": "user",
      "content": "다음 코드에서 버그 가능성을 찾고, 테스트 케이스와 수정안을 제안하세요."
    }
  ],
  "temperature": 0.2
}

에이전트 테스트에서는 다음 항목을 반드시 확인하는 것이 좋습니다.

{
  "required_fields": [
    "tool_calls",
    "reasoning_content",
    "final_answer"
  ]
}

Apidog에서 할 수 있는 실무 검증은 다음과 같습니다.

M3, V4-Pro, Qwen3.7-Max에 동일한 프롬프트 배치를 보내기
황금 응답을 저장하고 프롬프트 변경 시 재실행하기
tool_calls 구조 검증하기
reasoning_content 존재 여부 확인하기
JSON 스키마 어설션으로 에이전트 응답 깨짐 감지하기

Apidog를 다운로드하고 세 모델 엔드포인트를 연결하면 비교 벤치를 빠르게 만들 수 있습니다. MiniMax 설정은 MiniMax M3 API 사용 방법을 참고하세요.

자주 묻는 질문

2026년 현재 최고의 오픈 가중치 코딩 모델은 무엇입니까?

출시 시점의 검증 가능한 에이전트 코딩 근거만 보면 MiniMax M3가 강하게 보입니다. SWE-Bench Pro 59.0%, Terminal-Bench 2.1 66.0% 같은 작업 수준 벤치마크를 공개했기 때문입니다. 단, 이 수치는 공급업체 보고입니다.

DeepSeek V4-Pro는 비용 대비 가치가 큽니다. GPT-5.5와 몇 점 차이의 코딩 성능을 훨씬 낮은 출력 가격으로 제공하는 것으로 설명됩니다.

Qwen3.7-Max는 종합 리더보드에서 높은 점수를 기록했지만, 현재 주력 모델은 오픈 가중치가 아닙니다.

결론적으로, 세 모델의 일대일 코딩 수치는 직접 비교하기 어렵습니다. 자신의 워크로드로 직접 테스트하는 것이 가장 안전합니다.

세 모델 모두 진정한 오픈 가중치입니까?

아직 아닙니다.

MiniMax M3: 2026년 6월 1일 출시 후 약 10일 이내에 가중치와 기술 보고서 공개 예정
DeepSeek V4-Pro: DeepSeek의 R1/V3 계열 오픈 가중치 공개 이력 존재
Qwen3.7-Max-Preview: 2026년 5월 중순 기준 폐쇄형 가중치

Qwen 관련 자세한 내용은 Qwen 3.7은 무엇인가에서 확인할 수 있습니다.

가장 큰 컨텍스트 창을 가진 모델은 무엇입니까?

MiniMax M3와 Qwen3.7-Max는 모두 1,000,000 토큰 컨텍스트 창을 광고합니다. 대략 70만~75만 단어에 해당합니다.

DeepSeek V4-Pro의 컨텍스트 창 크기는 여기에 명시되어 있지 않습니다.

단, 큰 컨텍스트 창은 완벽한 기억력이나 정확한 검색을 보장하지 않습니다. 또한 입력한 모든 토큰은 비용으로 이어집니다.

실행 비용이 가장 저렴한 모델은 무엇입니까?

공개된 토큰당 요율 기준으로는 DeepSeek V4-Pro가 가장 명확한 저비용 선택입니다.

V4-Pro 출력: 100만 토큰당 약 $0.87
V4-Flash: 백만 입력/출력당 $0.14 / $0.28

MiniMax M3는 토큰당 공개 가격 대신 월별 플랜을 제공합니다. Qwen3.7-Max는 Alibaba Cloud에서 토큰당 과금됩니다.

가격 흐름은 2026년 중국 LLM 가격 전쟁에서 더 자세히 볼 수 있습니다.

MiniMax M3가 DeepSeek V4-Pro보다 코딩에서 실제로 더 좋습니까?

현재 공개 수치만으로는 단정하기 어렵습니다. M3는 SWE-Bench Pro와 Terminal-Bench 결과를 공개했지만, DeepSeek은 동일한 작업을 동일한 형식으로 보고하지 않았습니다.

오늘 기준 장점은 다음처럼 나뉩니다.

MiniMax M3: 공개된 에이전트 코딩 수치, 멀티모달 기능, 1M 컨텍스트
DeepSeek V4-Pro: 낮은 비용, 추론 체인, 다중 파일 리팩터링에 유리한 구조
Qwen3.7-Max: 높은 종합 지능 점수, 장기 에이전트 작업 강조

공정한 테스트는 자신의 저장소에서 동일한 프롬프트를 실행하는 것입니다.

요약

중국 LLM 경쟁자들은 코딩 모델 선택지를 크게 넓혔습니다.

공개된 에이전트 코딩 벤치마크, 1M 컨텍스트, 멀티모달 기능이 필요하면 MiniMax M3를 검토하세요.
낮은 비용과 추론 기반 코드 품질이 중요하면 DeepSeek V4-Pro를 검토하세요.
높은 종합 지능 점수와 호스팅 API 사용이 괜찮다면 Qwen3.7-Max를 검토하세요.

다만 M3의 여러 수치는 아직 공급업체 보고이며, 세 모델의 벤치마크는 완전히 동일한 조건에서 비교되지 않았습니다.

가장 실용적인 방법은 하나의 Apidog 프로젝트에서 세 API에 동일한 프롬프트를 실행하고, 출력 품질과 비용을 직접 비교하는 것입니다.

DEV Community