
文 | 字母榜,作者 | 苗正,编辑 | 王靖
在智谱率先宣布开源 GLM-5 后不到半天的时间里,MiniMax 立马跟进上线 M2.5 编程模型。
就在发布模型的当日,智谱股价开盘大涨,一度涨超 25%,周内累计涨幅超过 77%,市值突破 1700 亿港元。
MiniMax 同日涨幅一度超过 20%,总市值超过 1800 亿港元。两家公司的股价表现远超大盘。
这种涨幅在港股 AI 板块并不常见。
要知道,智谱在 1 月 8 日 IPO 时,发行价为 116.2 港元,当时的市值是 518 亿港元。短短一个月时间,市值翻了三倍多。
此外,智谱和 MiniMax 选择这个时间点发布,是有其现实考量。
2 月 12 日正是企业和开发者春节前最后的工作窗口。
此时发布模型,既能赶在假期前完成技术社区的首轮传播,又能让开发者在春节长假期间有充足时间试用和讨论。
此前我曾认为,春节窗口期可能是裹着 AI 外皮的红包大战,归根结底,比的是红包的数量和额度。但现在看来,我的推断是错的。
AI 产业在春节期间,进入了一个"万模齐发"的盛况。
从 1 月底开始,阿里的 Qwen3-Max-Thinking、月之暗面的 Kimi 2.5、阶跃星辰的 Step 3.5 Flash 已接连发布。
随后在 2 月 8 日,阿里千问团队又向 Hugging Face 提交了 Qwen 3.5 的支持代码,确认新模型即将到来。
字节跳动则计划在 2 月 14 日推出豆包 2.0,并且新的豆包包含了 Seedream 5.0 和 SeedDance 2.0 的完整矩阵。
至于 DeepSeek 的 V4 版本,其是否会在春节期间发布仍存疑,但即便不发布新版本,市场也已经足够热闹。
真正的战场,在于模型能力本身,红包退居其次。
花旗银行曾在 1 月 26 日明确指出,2026 年标志着 AI 助手从技术验证迈向全民级应用的拐点,春节成为检验用户习惯养成的关键窗口。
谁能在这个长假,用模型留住用户,谁就能在接下来的一年里占据主动,就像 2025 年的 DeepSeek 一样。
智谱和 MiniMax 两大模型究竟怎样?
GLM-5 的核心定位,是面向复杂系统工程与长程 agent 任务。
如果说过去的 AI 编程工具只是帮你写代码,那 GLM-5 想做的,是帮你完成整个系统工程。
智谱将这一模式叫做" agent engineering ",并且表示,这是" vibe coding "的下一阶段。
不过这个说法并非空穴来风,前 OpenAI 联合创始人兼 AI 主管安德烈 · 卡尔帕西(Andrej Karpathy)在" vibe coding "实践一周年时就曾表示过,开发者的角色正在从"写代码"转向"编排 AI agent "。
GLM-5 某种程度上是对这一趋势的回应。
几周前,开源社区曾流传一个名为" Pony Alpha "的神秘模型。它能进行长程交互、拆解复杂任务、在多轮对话中保持稳定上下文,一度引发广泛猜测。
如今答案揭晓,Pony Alpha 正是 GLM-5 的匿名测试版本。
GLM-5 在技术规格上实现了显著跃升。参数量从 GLM-4.7 的 355B(激活 32B)扩展至 744B(激活 40B),预训练数据从 23T token 增加到 28.5T token。
更大的参数规模意味着更强的知识储备和推理能力,但更关键的地方在于 GLM-5 的两项创新。
第一项是名为" Slime "的异步强化学习框架。
这套系统支持模型从长程交互中持续学习,在处理需要数十步操作的工程任务时保持策略一致性。
传统的 AI 编程工具往往在短对话中表现出色,但一旦任务链条拉长,模型就容易犯错,前后逻辑出现断裂。
Slime 框架的设计初衷,就是让模型在长周期任务中保持"记忆"和"目标感"。
第二项是集成了 DeepSeek 的稀疏注意力机制(DSA)。
这套机制能让模型在保持长文本处理能力的同时,大幅降低部署成本。
DSA 的机制其实很好理解,我举个例子,当你让 AI 分析一个包含数万行代码的项目时,它不需要对每一行代码都投入同等的计算资源,而是能够识别出哪些是关键逻辑、哪些是重复模板。
因此整个模型的运行效率就会提升,整体运行成本也会降低。
根据智谱给出的测试分数,GLM-5 在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2,是目前开源模型的最高分数。

着重介绍一下后者,Terminal Bench 2.0 是测试模型在命令行环境中的操作能力,比如能否正确执行文件操作、调用工具、处理错误。
56.2 的分数表明,GLM-5 已经具备了相当程度的"动手能力"。
在 agent 能力上,GLM-5 在 BrowseComp、MCP-Atlas 和 τ² -Bench 等多个评测基准中取得开源 OTA 表现。
特别值得关注的是 Vending Bench 2 测试。
这是最近比较火的基准。它的要求是模型在模拟环境中经营一家自动售货机公司,周期为一年。
它要自己决定进货、定价、库存结构、现金流管理,在资源有限的情况下持续优化利润。
GLM-5 在这个测试中,最终账户余额达到 4432 美元,也就是说其具备一定的长期规划和资源管理能力,至少比我强。
MiniMax 的最新模型 M2.5 目前在模型界面已经可以选择调用。
这是一个为 agent 场景原生设计的模型,MiniMax 官方称其对标的是 Claude Opus 4.6。
不过与智谱不同,MiniMax 官方并未公布其论文或 Hugging Face 权重。
M2.5 模型激活参数量为 10B,在显存占用和推理能效比上具有明显优势。
相比 GLM-5 的 40B 激活参数,M2.5 走的是"小而美"的路线,用更少的参数实现更高的效率。
该模型支持 PC、App、跨端应用的全栈编程开发,尤其适配 Excel、深度研究(deep research)、PPT 等生产力场景。
从社区反馈来看,MiniMax M2.5 在成本效益上保持了该企业一贯风格,便宜、实惠。
有开发者在外网论坛上分享,M2.5 在处理日常编程任务时,速度比 Claude Sonnet 4.5 快 2 倍,API 成本却只有后者的 8%。
它们有何不同?
两个模型都将编程能力作为核心竞争力,但技术路径有所不同。
GLM-5 通过更大的参数规模和更强的预训练数据来实现能力提升,在处理大型代码仓库和复杂系统工程方面展现优势。
它就像一个经验丰富的架构师,见过足够多的代码模式、理解足够深的系统逻辑,因此能够在复杂场景中给出更全面的解决方案。
而 MiniMax M2.5 则通过更高效的架构设计,在推理速度和成本控制上更具优势。
虽然经验积累不如架构师丰富,但在常见任务上反应更快、执行更高效。
依我推测,GLM-5 应该更适合专业程序员处理复杂的、长时的、系统级任务,比如一键克隆 Web UI、构建仿真桌面,这些需要深度理解和长程规划的工程项目。
MiniMax M2.5 则更适合全栈开发、跨端应用等生产力场景中表现更好,特别适合那些需要快速迭代、频繁调用的日常开发任务。
股价上涨并非模型
但我认为这轮上涨并非单纯的新模型发布效应。
智谱除了发布模型以外,还宣布了产品的涨价,GLM Coding Plan 价格上调 30% 以上。
智谱在价格调整函中明确表示,此次涨价源于" GLM Coding Plan 市场需求持续强劲增长,用户规模与调用量快速提升"。
为保障高负载下的稳定性与服务质量,智谱还同步加大算力与模型优化投入。
这个逻辑耐人寻味。
在 AI 大模型行业,大多数公司都在通过降价来抢占市场份额,DeepSeek 就是如此,以极低的价格冲击市场,各家纷纷跟进降价。
但智谱选择了相反的策略,提升产品能力,然后涨价。
但用户真的愿意为更强的能力付费吗?
GLM-4.7 发布后,其 MaaS 平台的年度经常性收入(ARR)从 2000 万元增至超 5 亿元,10 个月获得 25 倍增幅。
这说明,在 AI 编程这个细分市场,专业用户确实愿意为真正能提升生产力的工具买单。
不过,和智谱股价上涨一样,MiniMax 股价上涨的原因,也不全是来自于新模型的发布。
2 月 10 日,MiniMax 获得了摩根大通的首次覆盖,获得"超配"评级和 700 港元目标价,并在当日引发股价一度上涨 10.7%。
摩根大通明确指出,MiniMax 2025 年前三季度海外收入占比高达 73.1%,远超国内 AI 同行。
因此摩根大通将 MiniMax 描述为 "天生全球化"的 AI 企业,认为其全球化布局是核心竞争力。
国际市场中,OpenAI、Anthropic、谷歌的定价方案都远远高于 MiniMax,这就导致后者的核心竞争力更强。
不仅如此,欧美市场对 AI 工具的接受度和付费能力,普遍高于国内市场。
MiniMax 的这一优势,在当前的国际环境下显得尤为宝贵。
可以预见的是,2026 年的春节,注定会成为中国 AI 发展史上的一个重要节点。
智谱和 MiniMax 的同时抢跑,虽然只是这个宏大叙事中的一个小小章节。
但它至少说明了一件事,国产大模型公司已经不执着于比参数和融资规模了,而是真的在琢磨怎么把技术变成开发者愿意掏钱的工具。
兴盛网站官网提示:文章来自网络,不代表本站观点。