智谱推出GLM-5.1旗舰开源模型：可连续工作8小时，价格上调一成

发布时间：2026-04-08 12:15阅读：12

4 月 8 日，智谱对外发布新一代开源模型 GLM-5.1。官方表示，这是当前全球能力最强的开源模型，也是首个可实现 8 小时级持续运行的开源模型。在贴近真实软件开发场景的 SWE-bench Pro 基准中，GLM-5.1 也成为首个成绩超越 Opus 4.6 的国产模型。

据 OpenRouter 信息，随着此次新模型上线，智谱 GLM 的价格同步上调 10%。调价之后，GLM-5.1 在 Coding 场景中的缓存命中 Token 定价，已经接近 Anthropic 旗下 Claude Sonnet4.6 的水平。这也意味着，国产大模型首次在核心应用场景中，与海外头部厂商实现价格层面的接近。

官方具体说明如下：

从 3 分钟级的 Vibe Coding（氛围编程），到 30 分钟级的 Agentic Engineering（智能体工程），再到这次带来的 8 小时 Long-Horizon Task（长程任务），GLM-5.1 再一次实现新突破。

GLM-5.1 是目前智谱最强的旗舰模型，也被官方定义为当下全球最强开源模型。它在代码能力方面有明显增强，尤其在处理长程任务时提升更为突出。不同于以往只能进行分钟级交互的模型，GLM-5.1 能在单次任务中独立连续工作超过 8 小时，并在此过程中自主完成规划、执行与自我优化，最终交付工程级成果。

代码能力被视为模型智能进一步跃升的关键。以下对比采用业内较具代表性的三项代码评测均值，包括考察专业软件开发能力的 SWE-Bench Pro、衡量命令行任务处理的 Terminal-Bench 2.0，以及从零搭建完整代码仓库的 NL2Repo。GLM-5.1 的成绩位列全球模型第三、国产模型第一、开源模型第一。

在最接近真实软件开发环境的 SWE-bench Pro 测试中，GLM-5.1 刷新了全球最好成绩，超过 GPT-5.4 与 Claude Opus 4.6。该测试要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug，因此被认为是评估模型是否具备专业软件开发能力的重要标准。

你休息的 8 小时，正是模型持续工作的 8 小时

过去两年，行业通常通过 Benchmark 来判断模型的智能程度。智谱认为，下一个阶段更值得关注的指标应当是“能工作多久”，也就是模型在 Long-Horizon Task 中，究竟能够独立完成多长时间的人类任务。

在长程任务里保持稳定输出，模型面对的挑战不只是代码规模变大，还包括一系列复杂的工程决策：主动跑 benchmark、定位性能瓶颈、调整方案、重新测试。这意味着模型必须像真实工程师一样，形成“实验 → 分析 → 优化”的完整闭环，而不是写完代码后停下来等待人工评价。

在 METR 榜单一致评估标准下，GLM-5.1 是唯一达到 8 小时级持续工作的开源模型，同时也是全球范围内除 Claude Opus 4.6 之外，少数具备这一能力的模型之一。官方表示，其最终目标是实现全自治智能体（Autonomous Agent），让模型能够 7 × 24 小时持续分解目标、执行交付、自我评估、自我修正并不断进化，尽可能减少人工介入。

那么，模型连续工作 8 小时，究竟可以完成哪些事情？

场景一：8 小时从零搭建 Linux 桌面

用户白天画出系统架构草图，夜里交给 GLM-5.1，第二天醒来时即可得到完整成果。整个过程持续 8 小时，共执行 1200 余步操作，20 分钟便产出首个有意义结果，最终生成一套功能较为完整的 Linux 桌面系统，涵盖完整桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库等内容，并配套生成 4.8MB 文件。这一工作量大致相当于一个 4 人团队一周的开发产出。

官方展示的视频呈现了 GLM-5.1 在 8 小时内的代码提交结果：这些提交并非只有几行的小修补，而是一次次具有实际意义的系统级迭代，而且全程没有人工参与测试与代码审查。模型甚至还为自己的代码编写了部分回归测试，并成功运行通过。

场景二：655 次迭代突破向量数据库优化瓶颈

向量数据库是 AI 搜索与推荐系统背后的关键基础设施，而近似最近邻检索则是其中极其核心、同时非常依赖算法与工程能力的部分。这一过程既要求模型理解 IVF、HNSW、向量量化等底层算法，也要求其具备真实工程判断力，能够在某条优化路径受阻时主动识别瓶颈并切换策略，而不是机械地重复同一种思路。

GLM-5.1 并不是只会做参数微调，而是自主完成了从全库扫描切换到 IVF 分桶召回、引入半精度压缩、加入量化粗排、构建两级路由，再到提前剪枝的一整套优化流程。在 655 轮迭代中，它持续自主运行 Benchmark、寻找瓶颈、修正方案，最终把向量数据库查询吞吐从初次交付时的 3108 QPS 提升至 21472 QPS，达到初始正式版本的 6.9 倍。

场景三：1000 轮工具调用优化真实机器学习模型负载

GLM-5.1 所展现出的长时工作与自我进化能力，使其从单一的“代码生成器”逐步升级为“主动系统优化器”。在覆盖 50 个真实机器学习计算负载的 KernelBench Level 3 优化基准中，智谱让 GLM-5.1 针对每个负载分别进行持续优化。在超过 24 小时的不间断迭代过程中，GLM-5.1 自主完成多轮编译—测试—分析—重写闭环，最终实现 3.6 倍几何平均加速比，明显高于 torch.compile max-autotune 模式的 1.49 倍。

模型在优化深度和创造性上的表现尤其值得关注。GLM-5.1 可以自主编写定制 Triton Kernel 与 CUDA Kernel，使用 cuBLASLt epilogue 融合，并进行 shared memory tiling 与 CUDA Graph 优化。这些方案覆盖了从高层算子融合到微架构级调优的完整技术栈，而且每一步都由模型自行决策完成。

这一结果说明，在 GPU 内核优化这一长期依赖专家经验的领域，AI 模型已经表现出从问题分析、方案设计到持续调优的端到端自主工作能力。在 GPU 以及更广泛的高性能计算场景中，长期限制工程效率的优化瓶颈，正被 AI 逐步突破。

8 小时能力背后

让模型运行 8 小时并不算难，真正困难的是让它在第 8 小时依然保持有效工作。

此前，包括 GLM-5 在内的一些模型，在面对复杂优化任务时，往往会在早期迅速获得收益后进入瓶颈阶段。它们可能不断重复已有优化方法，却难以在一条路径走不通时主动更换思路。

GLM-5.1 的训练目标之一，就是突破这种瓶颈。在向量数据库优化任务中，智谱观察到了一条典型的“阶梯式”优化轨迹：模型先在固定策略内做增量优化，当收益逐渐停滞后，再主动分析 Benchmark 日志，识别当前瓶颈，并切换到结构完全不同的新方案——例如从全库扫描转向 IVF 分桶，从单精度过渡到量化粗排，从单层路由升级为两级剪枝。每次跳跃都可能伴随 Recall 的暂时下降，因为模型在探索新路径时会短暂打破既有约束，随后再进行修正。这样的“打破—修复”循环，恰恰是有效优化的重要表现。

在 KernelBench 基准上，通过对比多个模型的优化曲线，这种差异也更加直观。GLM-5 虽然前期提升较快，但很早便趋于平缓；而 GLM-5.1 在相同时间窗口内，能够保持更长时间的持续上升，最终达到 GLM-5 的 1.4 倍。核心问题在于，模型究竟能把“有效优化”的时间窗口延长到多远。

在 Linux 桌面构建任务中，挑战又有所不同。前两个场景都有明确的量化指标，如 QPS、加速比，可以判断每一步优化是否有效；但构建完整桌面系统并不存在单一数值标准，什么是“好”，取决于功能完整度、视觉一致性以及交互体验等综合判断。这就要求模型具备初步的自我评估能力：每轮执行后都能审视自身产出，判断哪些地方还需要继续完善。这是三个场景中反馈信号最弱的一类任务，也是当前最值得进一步攻克的方向。

智谱认为，延长模型“有效工作时长”是提升智能体能力的基础维度之一。沿着这条路径，仍有不少技术难题需要解决：如何缓解模型面对复杂任务时的上下文压力、如何在上千次工具调用后继续保持执行一致性、如何更早跳出局部最优，以及更关键的，如何在缺乏明确量化指标的任务中建立可靠的自我评估机制。GLM-5.1 只是这一方向上的一次推进，后续还会持续演进。

GLM-5.1 不只是更强的一代模型，也代表着一种新技术范式的开启。现在，不妨给它下达一个任务，然后离开 8 小时看看结果。

开源与使用方式

1．官方 API 接入

2．产品体验

GLM-5.1 即将登陆 Z.ai

GLM-5.1 已被纳入 GLM Coding Plan（Max / Pro / Lite），支持 Claude Code、OpenCode 等主流开发工具。

3．开源链接

← 上一篇：腾讯推出浏览器“龙虾”QBotClaw 下一篇：地瓜机器人斩获1.5亿美元新融资，B轮总额达2.7亿美元 →