它们曾短暂地站在 AI 之巅,但几乎无人知晓。本文讲述 Vicuna、Guanaco、WizardLM 的崛起与沉寂。
写在前面
2026年5月,当 Claude Opus 4.6 和 GPT-5.5 为"地表最强AI"的头衔争得不可开交时,很少有人还记得:
三年前,登上 Chatbot Arena 王座的不是这些科技巨头,而是一群大学研究生用 $300 训练出来的开源模型。
它们的名字是:Vicuna-13B、Guanaco-33B、Vicuna-33B、WizardLM-70B。
在 GPT-4 还没有加入投票的 Arena 早期,这四个"小人物"轮流坐庄,书写了开源 AI 最浪漫的一段历史。
一、Vicuna-13B:$300 训练出的"ChatGPT 杀手"
🎯 身份档案
| 项目 | 信息 |
|---|---|
| 全名 | Vicuna-13B |
| 诞生日期 | 2023年3月30日 |
| 创建者 | LMSYS Org(UC Berkeley + CMU + Stanford + UCSD) |
| 核心成员 | Wei-Lin Chiang(江威林)、Lianmin Zheng(郑廉明)、Ying Sheng 等 |
| 参数量 | 130亿(13B) |
| 基础模型 | Meta LLaMA-13B |
| 训练数据 | 约 70,000 条 ShareGPT 用户对话 |
| 训练成本 | 约 $300(8块 A100 GPU,约1天) |
| 训练数据来源 | ShareGPT.com(用户分享的 ChatGPT 对话记录) |
📖 诞生故事
2023年2月,Meta 发布了 LLaMA 模型。一个月后,Stanford 用 LLaMA-7B 微调出了 Alpaca,证明小模型也能对话。
UC Berkeley 的博士生 Wei-Lin Chiang(江威林) 和 Lianmin Zheng(郑廉明) 看到了更大的可能性:
"ChatGPT 很强,但它是黑箱。我们能不能用开源模型复现它的对话能力?"
他们的思路极其简洁:
- 去 ShareGPT.com 爬取了约 7万条 用户与 ChatGPT 的真实对话
- 清洗数据:去除低质量内容、分割过长对话
- 基于 LLaMA-13B 做指令微调(SFT)
- 用 SkyPilot(他们自己开发的云计算工具)在 8 块 A100 上训练
只花了 $300 和一天时间。
🏆 统治时刻
2023年3月30日,Vicuna-13B 发布。团队用 GPT-4 做"裁判",对 Vicuna、ChatGPT、Bard、Alpaca、LLaMA 的回答进行盲评:
| 模型 | 相对 ChatGPT 的质量 |
|---|---|
| Vicuna-13B | 92% |
| Bard | 88% |
| Alpaca-13B | 68% |
| LLaMA-13B | 45% |
一个 $300 的开源模型,达到了 ChatGPT 92% 的质量! 这在当时引起了轰动。Vicuna 的博客在几个月内获得 500+ 引用 和 数百万次 HuggingFace 下载。
Vicuna-13B 的成功直接催生了 Chatbot Arena。团队最初只是想给 Vicuna 做一个 Demo 网站,让人们对比不同模型的回答。后来他们灵机一动:
"如果把模型名字隐藏,让人们盲投呢?"
这就是 Chatbot Arena 的起源。
2023年5月3日,Arena 上线。在 GPT-4 加入投票之前,Vicuna-13B 以 Elo 1169 分登顶第一——尽管它的对手主要是开源模型。
🔮 后续发展
| 时间 | 版本 | 变化 |
|---|---|---|
| 2023年3月 | Vicuna-13B v0 | 首版发布,基于 LLaMA |
| 2023年4月 | Vicuna-13B v1.1 | 重构分词器,改用 EOS 作为分隔符 |
| 2023年7月 | Vicuna-33B | 参数翻倍,登顶 Arena(7月) |
| 2023年8月 | Vicuna-7B/13B/33B v1.5 | 基于 LLaMA 2 重新训练,训练数据增至 125K 条 |
| 2023年8月 | Vicuna-13B v1.5-16K | 16K 上下文长度版本 |
📍 现状(2026年)
- 模型本身:Vicuna 早已退出了 Arena 排行榜(Elo ~1054,排在第200名开外)
- 但它创建的组织 LMSYS 已成为 AI 行业最权威的评测机构
- Chatbot Arena(现名 Arena)于 2025年4月独立为公司,2026年1月以 $17亿估值 完成 A 轮融资
- 核心成员 Wei-Lin Chiang 和 Lianmin Zheng 后来开发了 SGLang(高效 LLM 推理框架),成为行业基础设施
- FastChat(Vicuna 的底层框架)至今仍是许多开源聊天项目的基石
一句话评价:Vicuna 可能是 AI 历史上"性价比最高"的模型。$300 的训练成本催生了一个 $17亿的公司。
二、Guanaco-33B:一张 GPU,12小时,99%的 ChatGPT
🎯 身份档案
| 项目 | 信息 |
|---|---|
| 全名 | Guanaco-33B |
| 诞生日期 | 2023年5月23日 |
| 创建者 | University of Washington(华盛顿大学) |
| 核心作者 | Tim Dettmers(博士生)、Artidoro Pagnoni、Ari Holtzman、Luke Zettlemoyer |
| 参数量 | 330亿(33B)(还有 7B/13B/65B 版本) |
| 基础模型 | Meta LLaMA-33B |
| 训练数据 | OpenAssistant OASST1 数据集(约 9,000 条人工标注对话) |
| 训练方法 | QLoRA(4位量化 + 低秩适配) |
| 训练成本 | 单张消费级 GPU,< 12小时 |
| 最大成就 | 65B 版本达到 ChatGPT 99.3% 的性能 |
📖 诞生故事
如果说 Vicuna 的故事是"用 ChatGPT 的数据训练开源模型",那 Guanaco 的故事就是:
"能不能用更少的数据、更便宜的硬件,达到同样的效果?"
华盛顿大学的博士生 Tim Dettmers 是量化领域的顶尖专家。他开发了 bitsandbytes 库——几乎是所有 LLM 量化的基础工具。2023年春天,他提出了一个革命性的想法:
"如果把模型量化到 4 位,然后用 LoRA 做微调,能不能在消费级 GPU 上训练 65B 参数的模型?"
答案是:可以。
QLoRA 的三大创新:
- 4-bit NormalFloat (NF4):针对正态分布权重优化的 4 位数据类型
- 双重量化 (Double Quantization):把量化常数本身也量化,进一步节省内存
- 分页优化器 (Paged Optimizers):处理内存峰值
结果是惊人的:
| 模型 | 训练硬件 | 训练时间 | Vicuna 基准得分 |
|---|---|---|---|
| Guanaco-7B | 5GB 显存 | 数小时 | 超过 Alpaca-13B 20+ 百分点 |
| Guanaco-33B | 单张消费级 GPU | < 12小时 | ChatGPT 的 97.8% |
| Guanaco-65B | 单张专业 GPU (48GB) | 24小时 | ChatGPT 的 99.3% |
论文在 arxiv 上发布后立即引爆社区。NeurIPS 2023 收录,目前被引超 650 次。
🏆 统治时刻
2023年6月,Guanaco-33B 在 Chatbot Arena 以 Elo 1065 击败 Vicuna-13B(Elo 1061),登顶第一。
但它的统治极其短暂——大约只维持了一个月。2023年7月,参数更多的 Vicuna-33B 发布,重新夺回王座。
🦙 为什么叫"Guanaco"?
Guanaco(原驼)是南美洲的一种野生动物,是羊驼(Llama)的近亲。这个命名完美呼应了它的基础模型 LLaMA(大羊驼)。整个 2023 年上半年,AI 社区的模型几乎都以动物命名:Alpaca(羊驼)、Vicuna(小羊驼)、Koala(考拉)、Guanaco(原驼)……
🔮 后续发展
| 时间 | 事件 |
|---|---|
| 2023年5月 | QLoRA 论文 + Guanaco 发布 |
| 2023年6月 | Guanaco-33B 短暂登顶 Arena |
| 2023年下半年 | QLoRA 方法被广泛采用,成为开源社区微调 LLM 的标准工具 |
| 2024年起 | Tim Dettmers 继续在量化领域深耕,bitsandbytes 成为 Hugging Face 集成的核心组件 |
📍 现状(2026年)
- Guanaco 模型本身:早已退出历史舞台,Arena 上不再出现
- 但 QLoRA 的影响是永恒的:它彻底改变了开源社区微调大模型的方式
- 今天几乎所有开源模型的微调都使用了 QLoRA 或其变体
- Tim Dettmers 的 bitsandbytes 库仍然是 AI 基础设施的重要组成部分
- 华盛顿大学自然语言处理实验室(Luke Zettlemoyer 教授领导)继续是 NLP 研究重镇
一句话评价:Guanaco 模型虽已消失,但 QLoRA 方法永远改变了 AI。它让"任何人都能训练大模型"从口号变成了现实。
三、Vicuna-33B:升级版羊驼的短暂王朝
🎯 身份档案
| 项目 | 信息 |
|---|---|
| 全名 | Vicuna-33B |
| 诞生日期 | 2023年6月 |
| 创建者 | LMSYS Org |
| 参数量 | 330亿(33B) |
| 基础模型 | Meta LLaMA-33B |
| 训练数据 | ShareGPT 对话数据(与 Vicuna-13B 同源) |
📖 诞生故事
Vicuna-33B 的故事很简单:把原来 13B 的配方放大到 33B。
同样的 ShareGPT 数据,同样的微调方法,只是基础模型从 LLaMA-13B 换成了 LLaMA-33B。参数量的提升直接带来了更好的对话质量和推理能力。
2023年6月22日,LMSYS 在博客中宣布了 Vicuna-33B 的加入,并同时引入了 MT-Bench——一个包含 80 道高质量多轮问题的评估基准。
🏆 统治时刻
2023年7月,Vicuna-33B 以 Elo 1096 在 Arena 登顶,击败了 Guanaco-33B。这标志着开源模型之间"参数量军备竞赛"的开始。
但 Vicuna-33B 的统治同样不长。2023年10月,微软的 WizardLM-70B 以 700亿参数的体量碾压了一切。
🔮 后续发展
- 2023年8月,LMSYS 发布了基于 LLaMA 2 的 Vicuna v1.5 系列(7B/13B/33B)
- 其中 Vicuna-13B-v1.5-16K 支持了 16K 上下文长度,在当时是最长上下文之一
- Vicuna 系列模型在 HuggingFace 上的总下载量超过 数千万次
- 许多下游项目(如 StableVicuna、各种中文微调版本)都建立在 Vicuna 之上
📍 现状
与 Vicuna-13B 相同,已被新一代模型完全超越。但作为 Vicuna 家族的一员,它的历史地位已经通过 LMSYS → Chatbot Arena → Arena($17亿估值)这条链路得到了验证。
四、WizardLM-70B:微软的"魔法师"与消失之谜
🎯 身份档案
| 项目 | 信息 |
|---|---|
| 全名 | WizardLM-70B V1.0 |
| 诞生日期 | 2023年8月 |
| 创建者 | Microsoft(微软) |
| 核心作者 | Can Xu 等 |
| 参数量 | 700亿(70B) |
| 基础模型 | Meta LLaMA-70B |
| 核心技术 | Evol-Instruct(进化指令) |
| 衍生产品 | WizardCoder、WizardMath |
📖 诞生故事
WizardLM 背后的核心创新不是模型本身,而是 Evol-Instruct(进化指令) 技术。
传统的指令微调使用固定数据集。Evol-Instruct 的思路不同:
"让 LLM 自己生成越来越复杂的指令,然后用这些指令来训练自己。"
具体来说:
- 从一条简单的指令开始(如"写一首诗")
- 用 GPT-4 把它"进化"成更复杂的版本(如"用五步抑扬格写一首关于量子物理的十四行诗")
- 生成回答
- 用这些进化的(指令,回答)对来微调模型
这就像一个自动课程设计器,不断给 AI 出更难的题。
🏆 统治时刻
2023年10月,WizardLM-70B 在 Chatbot Arena 登顶,击败 Vicuna-33B。这是微软首次在 Arena 称王。
70B 的参数量在当时是开源模型的天花板。WizardLM-70B 的表现甚至让很多人质疑:
"这真的是开源模型吗?微软为什么要免费放出来?"
🧙 衍生家族
WizardLM 的 Evol-Instruct 技术催生了多个强大的衍生模型:
| 模型 | 基础 | 成就 |
|---|---|---|
| WizardCoder-33B-V1.1 | DeepSeek-Coder-33B | HumanEval 79.9 pass@1,超越 ChatGPT-3.5 |
| WizardCoder-Python-34B | CodeLlama-34B | 超越 GPT-4(2023/03版本)在 HumanEval |
| WizardMath-70B | LLaMA-2-70B | 数学推理能力接近 GPT-4 水平 |
❓ 消失之谜:WizardLM-2 的诡异结局
2024年4月15日,微软发布了 WizardLM-2 系列:
- WizardLM-2-7B
- WizardLM-2-8x22B(基于 Mixtral 8x22B)
- WizardLM-2-70B(即将发布)
社区测试显示 WizardLM-2-8x22B 性能极强,在许多任务上接近甚至超过 GPT-4。
然而,诡异的事情发生了:
- 发布仅一天后,所有 WizardLM-2 模型从 HuggingFace 被撤下
- 团队的 GitHub 仓库被清空
- 团队的 HuggingFace 页面消失
- 团队成员的 微软个人主页也被删除
- 官方声明:"需要完成毒性测试(Toxicity Testing),1-2天后回来"
然后……再也没有回来。
社区的反应(来自 Reddit):
"他们不只是删了模型。他们删了所有 WizardLM 版本、所有数据集、团队 GitHub、团队 HuggingFace、团队成员的微软页面。就像这个团队从来没存在过一样。"
"最可能的解释是:WizardLM-2 太强了,强到威胁到了 OpenAI 的商业利益,而微软是 OpenAI 最大的投资者。"
"微软让 Phi 系列继续存在,因为 Phi 不会威胁 GPT-4。但 WizardLM-2 如果基于 Llama 3 继续发展,可能会做出真正与 GPT-4 竞争的开源模型——微软不会让这种事发生。"
虽然有人备份了 WizardLM-2-7B 和 8x22B,但那个传说中比 GPT-4 还强的 70B 版本,永远消失在了微软的服务器里。
📍 现状(2026年)
- WizardLM 项目:已死亡。团队被微软内部解散或重组
- Evol-Instruct 技术:被社区广泛继承,许多后续模型(如 Orca、Phi)都受到启发
- WizardCoder/WizardMath:仍在 HuggingFace 上有第三方备份,但不再更新
- 微软后来转向了 Phi 系列(小而精的模型),放弃了在开源大模型上与 GPT 竞争
一句话评价:WizardLM 是被商业利益扼杀的开源英雄。它的死证明了:在 AI 战争中,模型不是战死的,是被自己人杀死的。
五、它们的历史遗产
对比总结
| 模型 | 统治时间 | 训练成本 | 参数量 | 核心贡献 | 现状 |
|---|---|---|---|---|---|
| Vicuna-13B | ~1个月 | $300 | 13B | 催生了 Chatbot Arena | 模型退役,Arena 独立成 $17亿公司 |
| Guanaco-33B | ~1个月 | ~$100 | 33B | QLoRA 方法革命 | 模型退役,QLoRA 成为行业标准 |
| Vicuna-33B | ~3个月 | ~$600 | 33B | 开源参数竞赛 | 模型退役,FastChat 框架仍在使用 |
| WizardLM-70B | ~2个月 | 数千$ | 70B | Evol-Instruct 技术 | 项目被微软杀死,技术被社区继承 |
它们改变了什么?
- "开源能追赶闭源" 的信念——Vicuna 和 Guanaco 证明了这一点
- "微调不需要百万美元" ——QLoRA 让普通研究者也能训练大模型
- "模型评价应该由用户决定" ——Arena 从 Vicuna 的 Demo 诞生
- "大公司会扼杀威胁自己的开源项目" ——WizardLM-2 的消失
它们的精神继承者
| 2023年的先驱 | 2026年的继承者 |
|---|---|
| Vicuna → | Chatbot Arena($17亿估值) |
| Guanaco/QLoRA → | 所有现代微调方法 |
| WizardLM/Evol-Instruct → | DeepSeek-R1(自我进化推理) |
| 开源模型的集体精神 → | Kimi K2.6、GLM-5.1、MiMo-V2.5 |
结语
2023年春夏,一群没有商业利益驱动的学生和研究者,用 $300 和几张消费级 GPU,短暂地登上了 AI 世界的王座。
他们不是 OpenAI,不是 Google,不是 Anthropic。
他们只是相信:AI 应该是开源的、可复现的、属于每个人的。
Vicuna、Guanaco、WizardLM——这些名字可能永远不会出现在科技头条上。但当你打开 Chatbot Arena 投下一票时,当你在 HuggingFace 上看到 QLoRA 微调按钮时,当你看到 DeepSeek-R1 用自我进化技术接近闭源模型时——
它们的精神仍然活着。
参考资料:LMSYS Blog、HuggingFace、arxiv (QLoRA 论文)、Reddit r/LocalLLaMA、latent.space 播客、aiwiki.ai、the-decoder.com
撰写日期:2026年5月19日
Top comments (0)