智谱推出GLM-5.1旗舰开源模型:可连续工作8小时,价格上调一成
4 月 8 日,智谱对外发布新一代开源模型 GLM-5.1。官方表示,这是当前全球能力最强的开源模型,也是首个可实现 8 小时级持续运行的开源模型。在贴近真实软件开发场景的 SWE-bench Pro 基准中,GLM-5.1 也成为首个成绩超越 Opus 4.6 的国产模型。
据 OpenRouter 信息,随着此次新模型上线,智谱 GLM 的价格同步上调 10%。调价之后,GLM-5.1 在 Coding 场景中的缓存命中 Token 定价,已经接近 Anthropic 旗下 Claude Sonnet4.6 的水平。这也意味着,国产大模型首次在核心应用场景中,与海外头部厂商实现价格层面的接近。
官方具体说明如下:
从 3 分钟级的 Vibe Coding(氛围编程),到 30 分钟级的 Agentic Engineering(智能体工程),再到这次带来的 8 小时 Long-Horizon Task(长程任务),GLM-5.1 再一次实现新突破。
GLM-5.1 是目前智谱最强的旗舰模型,也被官方定义为当下全球最强开源模型。它在代码能力方面有明显增强,尤其在处理长程任务时提升更为突出。不同于以往只能进行分钟级交互的模型,GLM-5.1 能在单次任务中独立连续工作超过 8 小时,并在此过程中自主完成规划、执行与自我优化,最终交付工程级成果。
代码能力被视为模型智能进一步跃升的关键。以下对比采用业内较具代表性的三项代码评测均值,包括考察专业软件开发能力的 SWE-Bench Pro、衡量命令行任务处理的 Terminal-Bench 2.0,以及从零搭建完整代码仓库的 NL2Repo。GLM-5.1 的成绩位列全球模型第三、国产模型第一、开源模型第一。
在最接近真实软件开发环境的 SWE-bench Pro 测试中,GLM-5.1 刷新了全球最好成绩,超过 GPT-5.4 与 Claude Opus 4.6。该测试要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug,因此被认为是评估模型是否具备专业软件开发能力的重要标准。
你休息的 8 小时,正是模型持续工作的 8 小时
过去两年,行业通常通过 Benchmark 来判断模型的智能程度。智谱认为,下一个阶段更值得关注的指标应当是“能工作多久”,也就是模型在 Long-Horizon Task 中,究竟能够独立完成多长时间的人类任务。
在长程任务里保持稳定输出,模型面对的挑战不只是代码规模变大,还包括一系列复杂的工程决策:主动跑 benchmark、定位性能瓶颈、调整方案、重新测试。这意味着模型必须像真实工程师一样,形成“实验 → 分析 → 优化”的完整闭环,而不是写完代码后停下来等待人工评价。
在 METR 榜单一致评估标准下,GLM-5.1 是唯一达到 8 小时级持续工作的开源模型,同时也是全球范围内除 Claude Opus 4.6 之外,少数具备这一能力的模型之一。官方表示,其最终目标是实现全自治智能体(Autonomous Agent),让模型能够 7 × 24 小时持续分解目标、执行交付、自我评估、自我修正并不断进化,尽可能减少人工介入。
那么,模型连续工作 8 小时,究竟可以完成哪些事情?
场景一:8 小时从零搭建 Linux 桌面
用户白天画出系统架构草图,夜里交给 GLM-5.1,第二天醒来时即可得到完整成果。整个过程持续 8 小时,共执行 1200 余步操作,20 分钟便产出首个有意义结果,最终生成一套功能较为完整的 Linux 桌面系统,涵盖完整桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库等内容,并配套生成 4.8MB 文件。这一工作量大致相当于一个 4 人团队一周的开发产出。
官方展示的视频呈现了 GLM-5.1 在 8 小时内的代码提交结果:这些提交并非只有几行的小修补,而是一次次具有实际意义的系统级迭代,而且全程没有人工参与测试与代码审查。模型甚至还为自己的代码编写了部分回归测试,并成功运行通过。
场景二:655 次迭代突破向量数据库优化瓶颈
向量数据库是 AI 搜索与推荐系统背后的关键基础设施,而近似最近邻检索则是其中极其核心、同时非常依赖算法与工程能力的部分。这一过程既要求模型理解 IVF、HNSW、向量量化等底层算法,也要求其具备真实工程判断力,能够在某条优化路径受阻时主动识别瓶颈并切换策略,而不是机械地重复同一种思路。
GLM-5.1 并不是只会做参数微调,而是自主完成了从全库扫描切换到 IVF 分桶召回、引入半精度压缩、加入量化粗排、构建两级路由,再到提前剪枝的一整套优化流程。在 655 轮迭代中,它持续自主运行 Benchmark、寻找瓶颈、修正方案,最终把向量数据库查询吞吐从初次交付时的 3108 QPS 提升至 21472 QPS,达到初始正式版本的 6.9 倍。
场景三:1000 轮工具调用优化真实机器学习模型负载
GLM-5.1 所展现出的长时工作与自我进化能力,使其从单一的“代码生成器”逐步升级为“主动系统优化器”。在覆盖 50 个真实机器学习计算负载的 KernelBench Level 3 优化基准中,智谱让 GLM-5.1 针对每个负载分别进行持续优化。在超过 24 小时的不间断迭代过程中,GLM-5.1 自主完成多轮编译—测试—分析—重写闭环,最终实现 3.6 倍几何平均加速比,明显高于 torch.compile max-autotune 模式的 1.49 倍。
模型在优化深度和创造性上的表现尤其值得关注。GLM-5.1 可以自主编写定制 Triton Kernel 与 CUDA Kernel,使用 cuBLASLt epilogue 融合,并进行 shared memory tiling 与 CUDA Graph 优化。这些方案覆盖了从高层算子融合到微架构级调优的完整技术栈,而且每一步都由模型自行决策完成。
这一结果说明,在 GPU 内核优化这一长期依赖专家经验的领域,AI 模型已经表现出从问题分析、方案设计到持续调优的端到端自主工作能力。在 GPU 以及更广泛的高性能计算场景中,长期限制工程效率的优化瓶颈,正被 AI 逐步突破。
8 小时能力背后
让模型运行 8 小时并不算难,真正困难的是让它在第 8 小时依然保持有效工作。
此前,包括 GLM-5 在内的一些模型,在面对复杂优化任务时,往往会在早期迅速获得收益后进入瓶颈阶段。它们可能不断重复已有优化方法,却难以在一条路径走不通时主动更换思路。
GLM-5.1 的训练目标之一,就是突破这种瓶颈。在向量数据库优化任务中,智谱观察到了一条典型的“阶梯式”优化轨迹:模型先在固定策略内做增量优化,当收益逐渐停滞后,再主动分析 Benchmark 日志,识别当前瓶颈,并切换到结构完全不同的新方案——例如从全库扫描转向 IVF 分桶,从单精度过渡到量化粗排,从单层路由升级为两级剪枝。每次跳跃都可能伴随 Recall 的暂时下降,因为模型在探索新路径时会短暂打破既有约束,随后再进行修正。这样的“打破—修复”循环,恰恰是有效优化的重要表现。
在 KernelBench 基准上,通过对比多个模型的优化曲线,这种差异也更加直观。GLM-5 虽然前期提升较快,但很早便趋于平缓;而 GLM-5.1 在相同时间窗口内,能够保持更长时间的持续上升,最终达到 GLM-5 的 1.4 倍。核心问题在于,模型究竟能把“有效优化”的时间窗口延长到多远。
在 Linux 桌面构建任务中,挑战又有所不同。前两个场景都有明确的量化指标,如 QPS、加速比,可以判断每一步优化是否有效;但构建完整桌面系统并不存在单一数值标准,什么是“好”,取决于功能完整度、视觉一致性以及交互体验等综合判断。这就要求模型具备初步的自我评估能力:每轮执行后都能审视自身产出,判断哪些地方还需要继续完善。这是三个场景中反馈信号最弱的一类任务,也是当前最值得进一步攻克的方向。
智谱认为,延长模型“有效工作时长”是提升智能体能力的基础维度之一。沿着这条路径,仍有不少技术难题需要解决:如何缓解模型面对复杂任务时的上下文压力、如何在上千次工具调用后继续保持执行一致性、如何更早跳出局部最优,以及更关键的,如何在缺乏明确量化指标的任务中建立可靠的自我评估机制。GLM-5.1 只是这一方向上的一次推进,后续还会持续演进。
GLM-5.1 不只是更强的一代模型,也代表着一种新技术范式的开启。现在,不妨给它下达一个任务,然后离开 8 小时看看结果。
开源与使用方式
1. 官方 API 接入
2. 产品体验
GLM-5.1 即将登陆 Z.ai
GLM-5.1 已被纳入 GLM Coding Plan(Max / Pro / Lite),支持 Claude Code、OpenCode 等主流开发工具。
3. 开源链接