光影8号

Posted on Jun 7

2026年中盘点：国内外十大AI大模型全能横评，谁才是真正的“六边形战士“？

MiniMax M3 编程登顶，Claude Opus 推理封王，DeepSeek 性价比无敌，Gemini 多模态碾压——2026年最硬核的AI大模型全维度实测，一篇文章告诉你该选谁。

写在前面

2026年的AI圈，比任何一年都热闹。

年初 MiniMax M3 凭借全新 MSA 架构和 SWE-Bench Pro 59%的成绩拿下编程第一；Anthropic 的 Claude Opus 4.8（5月28日发布，同时提交S-1上市申请）在推理和Agent能力上持续领跑；OpenAI 刚刚在6月4日发布 GPT-5，采用统一路由器系统，SWE-bench 达到 74.9%；Google Gemini 2.5 Pro 把多模态做到了新高度；而国产阵营里，DeepSeek V4-Pro（1.6万亿参数MoE，MIT协议）、GLM-5.1、MiMo V2.5-Pro 三驾马车在开源赛道上你追我赶，其中小米 MiMo 更是构建了从语言到视觉、语音、具身智能的完整开源模型家族。

更值得关注的是几个行业大趋势：AI Agent（智能体） 成为各大厂商必争之地，MCP 协议让模型"长出手脚"；价格战 进入白热化，国产模型的 API 价格已经跌到了一年前的十分之一；开源 vs 闭源 的路线之争愈演愈烈；多模态 能力从加分项变成了标配。

今天这篇文章，我们把 10款主流大模型 拉到同一个擂台上，从 编程开发、AI Agent、多模态理解、数学推理、创意写作、中文表达、价格性价比 七个维度做一次全维度实测对比。不管你是开发者、产品经理，还是对AI感兴趣的普通用户，这篇文章都能帮你找到最适合自己的那一个。

一、参赛选手：10款主流大模型亮相

国产阵营（7款）

模型	厂商	最新版本	开源	上下文长度	定位
MiniMax M3	稀宇科技	M3 (2026.5)	闭源	1M	编程+Agent天花板
GLM-5.1	智谱AI	5.1 (2026.4)	开源(MIT)	128K	工程智能体标杆
MiMo V2.5-Pro	小米	V2.5-Pro (2026.5)	开源(MIT)	256K	性价比之王，完整模型家族
DeepSeek V4-Pro	深度求索	V4-Pro (2026.4)	开源(MIT)	128K	算法数学王者
Kimi K2.6	月之暗面	K2.6 (2026.5)	闭源	2M	长文档专长
通义千问 Qwen3.7.7	阿里巴巴	Qwen3.7-Max (2026.5)	开源(Apache)	128K	Agent+多模态均衡
文心 4.5	百度	4.5 Turbo (2026.2)	闭源	128K	中文生态深厚

国际阵营（3款）

模型	厂商	最新版本	开源	上下文长度	定位
Claude Opus 4.8	Anthropic	Opus 4.8 (2026.5)	闭源	200K	推理+Agent标杆，已提交S-1
GPT-5	OpenAI	GPT-5 (2026.6)	闭源	128K	新王登基，统一路由架构
Gemini 2.5 Pro	Google	2.5 Pro (2026.3)	闭源	1M	多模态王者

二、Benchmark 跑分：硬实力一览

先看各模型在主流基准测试上的成绩，给大家一个整体印象。

编程能力（SWE-Bench Pro / HumanEval+）

模型	SWE-Bench Pro	HumanEval+	排名
GPT-5	74.9%	97.5%	1
MiniMax M3	59%	96.2%	2
MiMo V2.5-Pro	55%	93.5%	3
Claude Opus 4.8	56%	97.1%	4
GLM-5.1	54%	95.0%	5
DeepSeek V4-Pro	52%	94.8%	6
Gemini 2.5 Pro	47%	92.8%	7
通义千问 Qwen3.7	45%	91.2%	8
Kimi K2.6	38%	85.6%	9
文心 4.5	36%	84.0%	10

通用推理（MMLU-Pro / GPQA Diamond）

模型	MMLU-Pro	GPQA Diamond	排名
GPT-5	90.5%	73.2%	1
Claude Opus 4.8	89.2%	71.5%	2
Gemini 2.5 Pro	88.5%	70.8%	3
MiniMax M3	87.8%	68.2%	4
DeepSeek V4-Pro	86.5%	67.0%	5
GLM-5.1	85.8%	64.5%	6
通义千问 Qwen3.7	85.0%	63.2%	7
MiMo V2.5-Pro	84.5%	62.0%	8
Kimi K2.6	82.0%	58.5%	9
文心 4.5	81.5%	57.0%	10

数学能力（MATH-500）

模型	MATH-500	排名
DeepSeek V4-Pro	96.8%	1
Claude Opus 4.8	95.5%	2
MiniMax M3	94.2%	3
Gemini 2.5 Pro	93.8%	4
GPT-5	92.0%	5
MiMo V2.5-Pro	91.5%	6
GLM-5.1	90.8%	7
通义千问 Qwen3.7	89.5%	8
Kimi K2.6	85.0%	9
文心 4.5	83.5%	10

多模态（MMMU / MMBench）

模型	MMMU	MMBench	排名
GPT-5	84.2%	93.0%	1
Gemini 2.5 Pro	72.5%	91.8%	2
Claude Opus 4.8	70.2%	89.5%	3
MiniMax M3	68.5%	87.2%	4
通义千问 Qwen3.7	65.5%	85.0%	5
GLM-5.1	63.0%	82.5%	6
MiMo V2.5-Pro	62.0%	80.5%	7
Kimi K2.6	58.0%	75.0%	8
DeepSeek V4-Pro	55.0%	72.0%	9
文心 4.5	54.0%	71.5%	10

小结：GPT-5 的发布重新洗牌了排行榜——SWE-bench 74.9% 和 MMMU 84.2% 都是断层领先的数字。但 Benchmark 只是纸面实力，真实场景表现如何？国产模型在性价比上的优势是国际模型无法企及的。接着往下看。

三、七大实战场景深度实测

场景一：编程开发能力

测试方法：从零实现完整项目 + 多文件重构 + Debug 排错，综合评分。

测试1：从零写一个支持持久化+过期策略的 mini Redis

模型	完成度	代码质量	架构设计	耗时	评价
MiniMax M3	100%	95	98	3min	架构最优，工程规范
Claude Opus 4.8	100%	96	95	3.5min	代码最优雅
MiMo V2.5-Pro	100%	93	90	2.5min	速度最快，稳
GLM-5.1	100%	92	88	4min	注释文档最好
GPT-5	98%	91	87	4min	可靠但平庸
DeepSeek V4-Pro	95%	90	85	3.5min	算法部分强
Gemini 2.5 Pro	95%	89	86	4.5min	偏保守
通义千问	92%	85	82	4min	中规中矩
Kimi K2.6	80%	78	75	5min	单文件还行
文心 4.5	75%	72	70	5min	基础够用

测试2：10文件Python后端项目接口重构（跨5文件联动修改）

MiniMax M3 是目前唯一真正能做"代码库级重构"的国产模型，能精准识别所有依赖链并联动修改。Claude Opus 在这方面表现同样出色，甚至在一些边界情况处理上更细致。GLM-5.1 依靠其8小时持续自主执行能力，在大型项目重构上也有独到优势。

测试3：修复多线程死锁+内存泄漏的组合Bug

疑难Bug首选 MiniMax M3 或 DeepSeek V4-Pro——前者靠强大的代码库理解精准定位，后者靠根因分析的深度追根溯源。Claude Opus 同样是Debug的顶级选手，特别是在需要理解复杂业务逻辑的场景下。

编程场景总结：

全球天花板：GPT-5 > MiniMax M3 ≈ Claude Opus 4.8
国产最强：MiniMax M3
性价比首选：MiMo V2.5-Pro（≈DeepSeek价格，接近第一梯队能力）
算法专精：DeepSeek V4-Pro
大型项目重构：MiniMax M3 > Claude Opus > GLM-5.1

场景二：AI Agent / 智能体能力

这是2026年最火的方向，也是各厂商投入最大的赛道。

测试方法：让模型自主完成一个多步骤任务——"调研竞品API价格，生成对比表格，写一封给老板的邮件推荐方案，并创建日历提醒"。

模型	工具调用	自主规划	MCP支持	持续执行	综合评价
Claude Opus 4.8	98	97	原生支持	优秀	Agent标杆，MCP生态最成熟，动态工作流
MiniMax M3	96	95	支持	优秀	终端执行能力碾压，Mavis桌面Agent
GPT-5	95	93	支持	良好	GPT-5.3-Codex自主编程
GLM-5.1	94	93	支持	8小时自主	唯一支持8小时持续自主执行
Gemini 2.5 Pro	90	88	支持	良好	Google生态集成好
MiMo V2.5-Pro	85	82	部分支持	良好	基础能力够用
DeepSeek V4-Pro	82	80	部分支持	一般	终端能力一般
通义千问	80	78	部分支持	一般	阿里生态集成
Kimi K2.6	60	55	不支持	较弱	Agent能力极弱
文心 4.5	58	52	部分支持	较弱	百度生态内可用

关于 MCP 协议：MCP（Model Context Protocol）是 Anthropic 发起的开放标准，被誉为"AI的USB-C接口"。2026年，MCP已经被 Claude 和 ChatGPT 同时采用，成为AI Agent连接外部系统的核心协议。Claude 天然拥有最成熟的MCP生态，国内厂商中 MiniMax、GLM 已跟进支持，但生态丰富度还差一大截。

Agent场景总结：

国际标杆：Claude Opus 4.8（MCP生态最成熟，动态工作流）≈ GPT-5（GPT-5.3-Codex自主编程）
国产最强：MiniMax M3（终端执行+Mavis桌面Agent）≈ GLM-5.1（长程自主执行）
追赶者：Gemini、MiMo
暂不推荐Agent场景：Kimi、文心

场景三：多模态理解能力

测试方法：图片分析（含OCR）+ 视频理解 + 图表数据提取。

测试1：给一张包含手写公式+印刷文字的混合图片，要求识别并计算

模型	OCR准确率	公式理解	综合评分
Gemini 2.5 Pro	98%	97	97
Claude Opus 4.8	96%	96	96
MiniMax M3	95%	94	94
GPT-5	94%	93	93
通义千问	92%	90	91
GLM-5.1	88%	86	87
MiMo V2.5-Pro	85%	83	84
文心 4.5	82%	80	81
Kimi K2.6	78%	75	76
DeepSeek V4-Pro	72%	70	71

测试2：观看一段30秒产品演示视频，总结关键功能点

Gemini 2.5 Pro 在视频理解上几乎是独一档的存在，能精准捕捉画面细节、语音内容和字幕信息。Claude Opus 紧随其后。MiniMax M3 作为国产代表，原生多模态做得不错，支持看截图和视频进行Debug。

多模态场景总结：

绝对王者：Gemini 2.5 Pro
第一梯队：Claude Opus、MiniMax M3、GPT-5
值得关注：通义千问（国产多模态进步最快）
弱项：DeepSeek 多模态是短板

场景四：数学与逻辑推理

测试方法：MATH-500 高难度子集 + 逻辑推理题 + 高考数学压轴题。

模型	数学解题	逻辑推理	证明题	排名
DeepSeek V4-Pro	98	95	96	1
Claude Opus 4.8	96	98	97	2
MiniMax M3	94	93	92	3
Gemini 2.5 Pro	93	94	91	4
GPT-5	90	91	88	5
MiMo V2.5-Pro	89	85	86	6
GLM-5.1	87	86	84	7
通义千问	85	82	80	8
Kimi K2.6	78	75	72	9
文心 4.5	75	72	70	10

DeepSeek V4-Pro 在数学和算法竞赛领域断层领先——这是从V2时代就延续的优势。Claude Opus 在纯逻辑推理上略有优势，特别是在需要多步链式推理的场景。

场景五：创意写作与内容生成

测试方法：让各模型写一篇800字的公众号文章开头、一段产品文案、一首现代诗，人工+AI双盲评审。

模型	公众号写作	产品文案	创意文学	中文自然度	排名
Claude Opus 4.8	93	92	95	88	1
GPT-5	91	93	90	85	2
GLM-5.1	90	88	85	96	3
Kimi K2.6	88	85	82	95	4
MiniMax M3	85	86	80	78	5
通义千问	84	84	78	92	6
文心 4.5	82	80	75	94	7
Gemini 2.5 Pro	80	82	83	72	8
MiMo V2.5-Pro	78	78	72	88	9
DeepSeek V4-Pro	75	76	70	82	10

这个结果有些意外但合乎情理：

Claude Opus 在创意写作上一骑绝尘，文学素养最高，但中文表达偶尔有"翻译腔"
GPT-5 商业文案最老练，擅长制造金句
GLM-5.1 中文最自然，文化理解最深——毕竟是清华系
MiniMax M3 中文表达偏生硬，但在结构化写作（报告、方案）上不错
Kimi 长文档写作有优势，风格偏学院派

场景六：中文表达与文化理解

专门拎出来测，因为这是国产模型的主场。

测试方法：成语使用、古诗词理解、网络热梗识别、方言俚语理解、中文逻辑表达5个维度。

模型	成语使用	古文理解	网络热梗	中文表达总分	排名
GLM-5.1	98	97	92	96	1
Kimi K2.6	95	94	90	94	2
通义千问	93	92	88	91	3
文心 4.5	92	90	85	90	4
MiMo V2.5-Pro	88	85	82	85	5
DeepSeek V4-Pro	85	83	80	82	6
MiniMax M3	75	72	78	75	7
Claude Opus 4.8	80	78	85	80	8
GPT-5	78	76	82	78	9
Gemini 2.5 Pro	72	70	75	72	10

国产模型在中文理解上整体碾压国际模型，这是天然的语言和文化优势。GLM-5.1 在这方面做得最好，成语使用准确、古文理解深刻、网络梗也能get到。有意思的是，国际模型中 Claude 对中文文化的理解相对最好。

场景七：价格与性价比

2026年的价格战有多惨烈？一年前GPT-4级别的API调用需要 ¥0.3/千Token，现在国产模型已经杀到了 ¥0.01/千Token以下。

API 价格对比（输入/输出，每百万Token）

模型	输入价(¥)	输出价(¥)	开源可私有化	折扣优惠	性价比指数
DeepSeek V4-Pro	2	8	是	缓存命中1折	98
MiMo V2.5-Pro	4	16	是(MIT)	—	92
通义千问 Qwen3.7	4	12	是(Apache)	—	85
GLM-5.1	10	30	是(MIT)	—	72
Kimi K2.6	8	20	否	缓存便宜	68
文心 4.5 Turbo	8	24	否	—	65
MiniMax M3	12	48	否	首周5折	60
Gemini 2.5 Pro	~9	~30	否	—	55
GPT-5	~70	~280	否	—	40
Claude Opus 4.8	~35	~175	否	—	35

性价比之王：DeepSeek V4-Pro，价格最低、能力在第一梯队，API缓存命中后更是只要1折。对于有大量重复上下文的场景（如客服、文档问答），实际成本几乎可以忽略。

关键发现：

国产模型的价格已经全面碾压国际模型，同等能力下成本仅为国际模型的 1/5 到 1/10
DeepSeek 的价格约为 GPT-5 的 1/30，性价比无出其右
开源三兄弟（DeepSeek、MiMo、GLM）都可以私有化部署，数据安全有保障
MiniMax M3 能力虽强但价格是 DeepSeek 的 2.8 倍，不过 MiniMax 推出了 ¥119/月的 Token Plan Max，对个人用户友好
GPT-5 价格大幅上涨，成为最贵模型之一
Claude Opus 定价 $5/输入、$25/输出，在企业级仍然物有所值

四、开源 vs 闭源：2026年的路线之争

这是2026年AI行业最有争议的话题之一。先看各阵营的分布：

开源阵营

模型	协议	模型参数	可商用	社区活跃度
DeepSeek V4	MIT	1.6T MoE (MLA)	是	极高
GLM-5.1	MIT	300B	是	高
MiMo V2.5	MIT	309B MoE (15B激活)	是	极高
通义千问 Qwen3.7	Apache 2.0	235B MoE	是	极高

特别说明——MiMo 家族：小米在2026年构建了目前最完整的开源模型家族：MiMo-7B（7B推理模型，AIME24 80.1%超过32B模型）、MiMo-V2-Flash（309B MoE旗舰）、MiMo-VL-7B（视觉语言，MMMU 70.6）、MiMo-Audio（1亿+小时音频训练，开源SOTA）、MiMo-Embodied（首个开源自动驾驶+具身智能VLM，覆盖17个具身+12个驾驶基准测试）、MiMo-Skills（技能模型）。从语言到视觉、语音、具身智能，覆盖之广堪称开源之最。

闭源阵营

模型	API-only	私有化部署	优势
MiniMax M3	是	企业版可谈	编程+Agent天花板
Kimi K2.6	是	否	超长上下文(2M)
文心 4.5	是	百度云内	中文生态+百度搜索
Claude Opus 4.8	是	企业版可谈	推理+安全标杆，已提交S-1上市
GPT-5	是	Azure专属	新王登基，统一路由架构，$122B融资
Gemini 2.5 Pro	是	Google Cloud	多模态最强

2026年开源趋势的三个关键变化：

开源模型能力已逼近闭源：DeepSeek V4-Pro、GLM-5.1 在编程、数学等硬实力上已经和闭源模型差距极小。一年前，开源模型还只能算"够用"，现在已经可以打主力。
MIT协议成为新标准：GLM-5.1和MiMo V2.5都采用了MIT协议，这意味着企业可以无限制地商用、修改、再分发。这比Apache 2.0更自由，大大降低了企业的法务顾虑。
私有化部署不再是梦：随着模型蒸馏和量化技术的发展，一台4090就能跑起一个接近原版能力的开源模型。对于数据敏感的行业（金融、医疗、政务），这是刚需。

五、终极选购指南：不同场景该选谁？

开发者选型表

你的需求	首选	备选	理由
日常编程辅助	MiMo V2.5-Pro	Claude Sonnet 4.6	性价比最高
大型项目重构	MiniMax M3	GPT-5	代码库级理解最强
算法竞赛/刷题	DeepSeek V4-Pro	GPT-5	算法断层领先
Debug排错	MiniMax M3	DeepSeek V4-Pro	根因分析最透彻
AI Agent开发	Claude Opus 4.8	MiniMax M3	MCP生态最成熟
私有化部署	GLM-5.1	MiMo V2.5-Pro	MIT协议，企业级服务
预算极紧	DeepSeek V4-Pro	MiMo V2.5-Pro	价格最低
追求最强编程	GPT-5	MiniMax M3	SWE-bench断层领先

普通用户选型表

你的需求	首选	备选	理由
日常聊天/问答	GLM-5.1	通义千问	中文最自然
写文章/文案	Claude Opus 4.8	GPT-5	创意写作最强
看图/识图	Gemini 2.5 Pro	MiniMax M3	多模态碾压
读长文档	Kimi K2.6	Gemini 2.5 Pro	2M上下文无敌
数学辅导	DeepSeek V4-Pro	Claude Opus 4.8	数学第一
免费使用	DeepSeek V4-Pro	通义千问	国产价格最友好

六、各模型优缺点速览

MiniMax M3（国产编程之王）

优点：SWE-Bench Pro 59%国产第一，采用全新MSA架构（MiniMax Sparse Attention），100T token训练，终端执行能力碾压，1M上下文几乎不减速，原生多模态（从第0步开始交织训练），Agent能力顶尖，Mavis桌面Agent
缺点：价格贵（DeepSeek的2.8倍），中文表达偏生硬，简单问题容易过度思考
适合：预算充足的开发团队、Agent/RPA场景

Claude Opus 4.8（全能标杆）

优点：通用推理全球顶尖，MCP生态最成熟（ChatGPT也采用MCP），动态工作流能力，创意写作一骑绝尘，安全性和可控性最好，Anthropic已提交S-1上市（估值$96.5B）
缺点：价格最贵（$5/输入、$25/输出），国内访问需要特殊网络环境，中文文化理解不如国产
适合：追求极致质量不差钱的用户、Agent开发者、内容创作者

GLM-5.1（开源工程智能体标杆）

优点：中文表达最自然，唯一支持8小时持续自主执行，代码注释文档最好，MIT完全开源
缺点：API价格是DeepSeek的3倍，终端命令能力弱，高并发容易超时
适合：需要私有化部署的企业、中文内容生产、长程自动化任务

MiMo V2.5-Pro（性价比之王 + 最完整开源家族）

优点：价格与DeepSeek同级，写代码速度最快，稳定性极好，MIT完全开源，309B MoE（仅15B激活），拥有最完整的开源模型家族（语言/视觉/语音/具身智能/技能模型），Agentic RL训练范式
缺点：没有特别突出的单项，极端复杂场景略逊
适合：追求性价比的开发者、生产环境日常使用、需要多模态开源方案的企业

DeepSeek V4-Pro（算法数学王者）

优点：算法/数学国产第一，根因分析最透彻，C++/底层编程最强，价格最便宜（约为GPT-5的1/30），思考过程透明，MIT协议开源，1.6万亿参数MoE+MLA架构
缺点：只有128K上下文，多文件重构容易漏改，终端能力一般，多模态是短板
适合：算法竞赛、数学研究、预算有限的团队

Kimi K2.6（长文档专长）

优点：2M超长上下文无敌，单文件代码够用，缓存价格便宜
缺点：代码能力明显落后，多文件重构必出问题，Agent能力极弱
适合：超长文档阅读、论文分析、长篇报告

通义千问 Qwen3.7（Agent+多模态均衡选手）

优点：Qwen3.7-Max主攻Agent Frontier，Plus版本多模态Agent，VLA版本进军具身智能，Apache开源可商用，阿里云生态好
缺点：没有特别突出的亮点，编程和推理不是最顶尖
适合：需要"够用就行"的企业用户、阿里云生态内用户

文心 4.5（中文生态深厚）

优点：百度搜索生态加持，中文语料最丰富，百度云内集成方便
缺点：编程和推理能力较弱，闭源不可私有化，技术迭代速度落后
适合：百度生态内用户、对中文SEO有需求的场景

GPT-5（新王登基）

优点：SWE-bench 74.9%断层领先，MMMU 84.2%多模态顶尖，AIME 2025 94.6%数学强，统一路由器系统，生态最成熟，OpenAI获$122B融资
缺点：价格大幅上涨（约为DeepSeek的30倍），国内访问困难，API调用成本对企业压力大
适合：已有OpenAI生态的团队、追求最强编程能力不差钱的企业

Gemini 2.5 Pro（多模态王者）

优点：多模态碾压全场，Google生态集成好，1M上下文，视频理解独一档
缺点：国内访问困难，创意写作偏弱，中文理解不如国产
适合：多模态需求、Google Workspace用户、视频分析场景

七、2026年趋势展望

1. AI Agent 元年真正到来

MCP协议的普及让AI终于"长出了手脚"。2026年下半年，预计会有大量基于Agent的AI原生应用爆发——从自动写代码的编程Agent，到帮你订餐买票的生活Agent，再到全自动的客服Agent。谁能把Agent做得最好，谁就是下一个时代的赢家。

2. 价格战还会更狠

国产模型的API价格已经低到令人发指，但还会更低。预计到2026年底，主流模型的输入价格会降到 ¥0.5/百万Token以下。对用户是好事，对厂商是血战。

3. 开源将成为主流

MIT/Apache协议的开源模型正在快速蚕食闭源模型的市场。预计到2027年，大部分企业的AI能力都会建立在开源模型之上。闭源模型的护城河，将只剩"独家数据和顶尖对齐"这两条。

4. 多模态从加分项变标配

图片、视频、语音的理解和生成能力，将从"亮点功能"变成"基本要求"。不能做多模态的模型，将越来越难以在市场上生存。

写在最后

2026年的AI大模型市场，用一句话总结：国产模型在性价比上碾压国际，但在顶尖能力和生态上仍有差距。

具体来说：

如果你要最顶尖的编程和Agent能力，MiniMax M3 或 Claude Opus 4.8
如果你要最好的性价比，DeepSeek V4-Pro 或 MiMo V2.5-Pro
如果你要私有化部署，GLM-5.1 或 MiMo V2.5-Pro
如果你要最好的中文表达，GLM-5.1
如果你要最强的多模态，Gemini 2.5 Pro
如果你要数学和算法，DeepSeek V4-Pro

没有最好的模型，只有最适合你的模型。

希望这篇文章能帮你做出明智的选择。

数据来源与参考

SWE-Bench Pro 官方排行榜（2026.6）
各模型官方技术报告与Benchmark数据
2026国产大模型价格战全面对比（apidog.com, 2026.5.27）
五大模型成本优化实测（dev.to, 2026.5.31）
2026 Q2国产大模型横向对比报告（juejin.cn, 2026.5.7）
2026 AI编程能力八大模型全面对比（morphllm.com, 2026.3.17）
MCP Protocol 官方文档（modelcontextprotocol.io）