这期视频是科技播客 Eye on AI 对去中心化 AI 基础设施项目 Macrocosmos 的联合创始人兼 CTO Steffen Cruz 博士的深度访谈。
Steffen Cruz 拥有不列颠哥伦比亚大学(UBC)的亚原子物理学博士学位,曾是一名物理学研究者,3年前加入 AI 与区块链结合的去中心化网络 BitTensor 生态。视频围绕他们如何不依赖十亿美元级别的集中式数据中心,而是利用全球去中心化的闲置算力和廉价能源进行大规模大语言模型(LLM)的预训练(Pre-training)展开。
以下是访谈核心内容的详细拆解:
1. 核心技术架构:IOTA 与分布式预训练
Macrocosmos 在 BitTensor 上运营着三个子网(Subnets),其中最旗舰的项目叫做 IOTA(Incentivized Orchestrated Training Architecture,激励编排训练架构)[41:45]。
- 聚焦预训练(Pre-training): 预训练通常是 AI 模型开发中算力消耗最大、最昂贵的阶段(需要成千上万张 GPU 吞噬整个互联网的数据数月之久)[23:52]。IOTA 旨在将这一过程从传统的集中式机房转移到去中心化网络中[24:25]。
- 异构算力的分布式编排: 类似于适用于全球异构算力节点的去中心化 Kubernetes[30:18]。它通过动态部署层将容器化的代码分发到世界各地的机器上,并在节点间建立通信隧道,让分散的硬件像“一个巨大的算力块”一样协同工作[30:46]。
- 模型并行(Model Parallelism): 由于单个消费级设备的显存太小,无法承载完整的 Frontier 模型,IOTA 采用了模型并行技术,让每个节点只运行模型的“一小片切片”[31:51],像搭乐高积木一样组合训练出庞大的模型[32:19]。
- 将“丑蔬菜”变成“高级汤”: Steffen 打比方说,去中心化算力就像菜市场里没人要的、长相奇怪的“丑蔬菜”(网络不稳定、节点频繁进出、噪音大)[26:27],而他们的核心工作就是通过算法和软件层,把这些高度不稳定、高噪声的硬件编排成稳定持续的算力,熬出一锅高品质的“高端浓汤”[25:05], [26:37]。
2. 区块链与 BitTensor 在其中扮演的角色
- BitTensor 就像“穿了件大衣的100多个项目”: Steffen 解释说,BitTensor 不是为了解决某个单一、狭窄的 AI 问题,而是做了一个去中心化的通用底层基础设施,通过区块链作为协调层和激励机制[03:19],目前有 128 个不同的团队在其上构建各种应用[04:09]。
- 链上与链下的平衡:
- 链上(On-chain)主要作为不可篡改的全局共享数据库、身份验证层(Registry)和同步时钟(Synchronization Clock)[05:50], [07:24], [33:08]。
- 区块链上没有训练数据,也没有计算发生[00:09], [15:11]。实际的计算在链下(例如冰岛的服务器上)完成,链下系统持续追踪节点的贡献,然后将计算出的工作量数据传回链上,触发代币(IOTA Token)自动分配和奖励[15:20], [33:31]。
3. 商业模式与套利机制:供给侧与需求侧
Steffen 认为,到 2028 年,主流市场对模型训练的认知将会发生漂移(Overton window shift),人们必须寻找更高效的成本和能源套利方式,以应对动辄数十亿美元的集中式算力中心(如 Stargate、Colossus 项目)带来的资金和环境限制[12:57], [13:03]。
- 供给侧(Supply Side):
- 瞄准拥有大批 GPU 但无法时刻百分百租出去的 Neo-clouds 或云巨头。例如拥有 10000 张 GPU 但常态只能租出 9000 张,或者在租赁订单之间存在 2 小时的闲置空窗期[27:20]。
IOTA 可以利用这些短暂、可中断的算力爆发(Interruptible bursts of compute),将其拼接成持续的算力流,并因为训练比推理是更高阶的商品而向其提供更好的利润率[27:58], [28:29]。
需求侧(Demand Side):
针对预算有限的高校研究者、初创公司等。IOTA 抹平了底层的复杂性,兼容 PyTorch、TensorFlow 等主流库[28:41], [29:01]。用户不需要手动指定“我要租用一台位于尼日利亚、只能用12分钟的 GPU”[29:17],只需像往常一样声明高层级的训练目标和参数控制,底层的异构套利全部由系统自动化完成,从而提供可能仅为传统数据中心 10% 到 20% 的极低训练成本[29:28], [40:11]。
4. “在家训练”(Train at Home)与个人 Agent 的结合
视频中探讨了一个非常前沿的趋势:个人囤积 Mac mini 运行本地私有 Agent 的现象[17:47], [20:07]。
- 用户购买 Mac mini 或配备 M 系列芯片的设备让 Agent 24小时不知疲倦地帮自己处理邮件、理财或购物[18:03]。
- 但实际上,Agent 并不需要一天 24 小时满载工作,可能每天只需要 4 小时的“生产力爆发”[19:14]。
- 算力版 Airbnb: 用户的 Agent 可以在闲置时自动决策:“我已经做完主人的工作了,接下来有 4 小时空闲,我要去网络里赚 20 美元外快”[22:08]。用户通过 Macrocosmos 推出的 "Train at Home" 一键式桌面端 App 接入网络[18:41], [21:40],利用闲置的 MacBook、Mac mini(支持 Apple Silicon)或消费级显卡(支持 CUDA)贡献算力并获取被动收入[18:47], [18:56], [41:25]。
5. 其他子网项目与未来里程碑
- Data Universe 子网: 除了算力网络 IOTA,Macrocosmos 还运营着一个名为 Data Universe 的去中心化网页数据抓取子网,由数百名矿工抓取社交媒体等数据,用于新闻、市场分析以及 AI 模型的训练数据供给,构成了“数据+算力”的生态闭环[43:05], [43:25]。
- 项目现状与路线图:
- 截至采访时,项目刚刚经历 9 个月研发并逐步走出纯研究模式(Research Mode),通过了基准测试验证[26:11], [42:02]。
- 虽然目前还没有正式对公众商业化化接单,但已经有多家初创公司签约并承诺在 2026 年下半年使用该网络进行模型训练[42:02], [42:14]。
- 年中目标: 计划在 2026 年年中达到 5000 个计算节点 的集群规模,并尝试在其上训练一个 70B(700亿)参数 规模的行业垂直大模型(如医疗、法律专有模型),向企业级客户证明其高实用性与低成本效益[38:47], [39:06], [39:18]。
- 长期目标: 在未来 1 至 1.5 年内,向 100B(1000亿)以上参数 的顶级模型训练发起挑战[39:51]。
可以前往官方平台 iota.microcosmos.ai 或 macrocosmos.ai 了解他们去中心化 AI 研究的更多技术细节与白皮书 [41:45], [46:56]。
Top comments (2)
Bittensor 和 Macrocosmos 都是当前去中心化人工智能(AI)领域的重要项目,但两者的定位和层次不同:Bittensor 是底层协议与网络,而 Macrocosmos 是构建在其上的一个核心子网生态。以下是它们各自的起源与发展历史。
Bittensor:去中心化AI协议
Bittensor 是一个旨在构建全球去中心化智能市场的开源协议。其核心是通过区块链激励,让贡献计算资源、提供优质AI模型或参与验证的节点获得代币奖励,从而形成一个竞争性的AI服务市场。
起源
发展历史与关键里程碑
Macrocosmos:Bittensor上的去中心化AI基础设施
Macrocosmos 是 Bittensor 生态系统中 最早且最重要的构建团队之一,它并非一个独立的公链,而是一个专注于构建和运营去中心化AI子网与数据基础设施的项目。
起源
发展历史与核心子网
Macrocosmos 的发展与其在 Bittensor 上运营的关键子网紧密相连。目前,它主要运营着三个核心子网,构成了其技术栈的基础:
技术进展
总结
简单来说,Bittensor 是搭建去中心化AI市场的“地基”和“规则制定者”,自2019年创立以来,经历了从单一网络到繁荣子网生态的演进。而 Macrocosmos 则是这个市场上最活跃的“顶级开发商”之一,自2024年成立后,迅速在Bittensor上构建了多个关键的子网,专注于解决AI开发中算法优化、分布式训练和数据获取等核心挑战。两者共同构成了去中心化AI领域“协议层-应用层”协同发展的一个典型范例。
根据公开信息,Chattensor 作为一个概念验证(Proof of Concept)模型,已经成功训练并发布。它于2023年3月28日由 Opentensor Foundation 推出,并在 Bittensor 网络上进行了公开测试。
关于其具体参数量,在可查证的公开资料中并未明确披露。Chattensor 的核心目标并非追求参数量级,而是作为首个在 Bittensor 去中心化网络上运行的 AI 聊天应用,旨在验证该协议支持去中心化 AI 应用构建的可行性。
作为对比,Bittensor 生态在同年7月发布的 Bittensor Language Model (BTLM) 明确标注为 30亿参数 的模型。这或许可以作为一个参考,但 Chattensor 与 BTLM 是两个独立的模型。
因此,可以确定 Chattensor 已成功训练并上线,但其参数量并非项目方强调的重点,也未在主要介绍中公开。它的历史意义在于为 Bittensor 生态后续更复杂的子网(Subnet)和模型(如 BTLM)的发展铺平了道路。