OpenAI首席科学家访谈：思维链保密、AI研究员将至、通用Harness

发布时间：2026-04-13 10:49阅读：27

Jakub Pachocki 担任 OpenAI 首席科学家，是 GPT-4、o1、o3 系列模型的核心架构师之一，同时也是历史上最年轻的 IOI（国际信息学奥林匹克）金牌得主。

他鲜少对外露面，但此次在 Redpoint AI 的播客中，他敞开心扉，畅谈了将近一个小时。

访谈内容涵盖 AGI 发展时间表、OpenAI 内部实验机制、为何刻意隐藏思维链，以及他对 AI 重塑科学研究的深刻见解。

该节目名为「Unsupervised Learning」，主持人 Jacob Effron（Redpoint Ventures 合伙人）借此机会提出了他最关心的几个问题。

OpenAI 官方新闻室转发了此次采访，并配文指出：「算力支撑着 AI 的每一层演进，而 @merettm 正在探讨如何构建自动化 AI 研究员。」

以下是访谈中核心观点的整理。

四个月前，Jakub 曾与团队公布过一项时间表：

•今年 9 月：实现「研究实习生级别」的 AI 系统

•2028 年 3 月：实现完全自动化的 AI 研究员

当被问及四个月过去后，进度是否按计划进行时，他给出了回答。

“「我们在 OpenAI 内部已利用 Codex 完成了大部分实际编程。对大多数人而言，编程方式已发生巨变，这表明我们的进程处于正轨上。」”

另一个让他感到「超出预期」的领域则是数学与物理。

他表示，过往依赖数学竞赛来评估模型能力的手段已显不足。模型已攻克 IMO 第 6 题，踏入「研究级数学」范畴。团队正将重心转向考察模型在现实世界中的实际效用。

“「我们坚信，当前模型能力已达标，虽未必在各方面超越人类，但足以实质性改变经济运作模式，这令我们倍感紧迫。」”

Jacob 追问：如何界定这一门槛的到来？

Jakub 的界定方式十分清晰。

他指出，「研究实习生」与「完全自动化研究员」的差异，主要在于任务的时间跨度与具体程度。

不应指望今年系统能执行「提升模型」或「解决对齐问题」这类宏观指令，这目前尚无法实现。

若任务足够具体，例如「我有改进模型的具体想法，请协助运行该实验，以不同方式复现评估」，他认为现有组件已基本完备。

“「我认为目前主要缺的，是将这些组件整合起来。」”

他认为 Andrej Karpathy 利用模型改进自身「小型模型」的文章，是对此类工具未来形态的预演。

为何 OpenAI 始终聚焦数学竞赛？

这并非因数学本身重要，而是因其是验证模型是否真正变聪明的最佳途径。

数学具备可验证性（非对即错）、难度可无限提升，并能清晰展示模型在「推理」层面的进步幅度。

他表示，该路线催生了 reasoning 模型的整套方法论，而这条「北极星」路径已近天花板。

数学并未失效，团队重心正转向更务实的问题：模型在真实科研与经济活动中的实际效能。

他特别提及了「first proofs」挑战，这是一批由知名数学家/理论计算机科学家发布的未发表研究级问题，旨在考察模型解题能力。

该挑战发布突然，仅有一周准备时间。

当时 OpenAI 正有一训练中的模型，工程师 James Lee 直接手动提示模型，结果发现其真在解题。

Jakub 提到，其中一道题源自他博士研究的专业领域。

“「目睹模型在约一小时内想出我需数周才能构思的思路，这种感受颇为奇妙。就像当年看 Dota 机器人下棋，感觉充满魔力……此类奇迹不应无限延续。」”

“「如今，奇迹发生在数学领域，且是极具代表性的领域，这令我紧迫感倍增。」”

代码与数学是强化学习（RL）的最佳应用场景，因答案验证便捷。

那医疗、法律、金融领域呢？

Jakub 表示：他对这些领域相当乐观，但承认这是「下一个真正的前沿」。

他认为，这些问题的本质与「长时间任务」高度重合。以需研究一年的数学题为例，首日任务本身即为开放性问题。因此，「难以验证」与「长时间跨度」实为同一难点。

“「我们在通用领域扩展 RL 时，已观察到令人鼓舞的迹象。」”

关于「是否自研 RL」，他建议：RL 确是提升数据效率的途径，但上下文学习更为高效。只需提供示例与指令，模型即可学习。

他的直觉是：与其复刻 OpenAI 的 RL 流程，不如先明确评估标准、积累数据，未来直接注入模型上下文，效果可能更佳。

关于「是否自建 harness」，他也给出了明确判断。

“「harness 的实现不应长期受限。我们会有更通用的工具，适用于各类领域。Codex 在编程外的应用效果也相当不错。」”

他描绘的未来图景是：AI 应主动融入场景，而非让用户迁就其限制。

例如，AI 应接入 Slack 等平台，获取上下文，具备学习与执行能力。功能的缺失仅代表局限，而非能力本身。

“「长期看，AI 应默认出现在你所在之处。若未出现，仅因新能力，而非局限。」”

这是整场访谈中最具深度的部分之一。

OpenAI 在发布早期 reasoning 模型时，决定不向用户展示 chain of thought（推理链）。

该决定颇具争议，许多人表示不解。

Jakub 解释了其核心动机。

核心逻辑在于：此类模型的推理过程在训练时未被直接监督（不同于 ChatGPT 的礼貌训练）。训练信号仅作用于最终输出，不作用于中间推理。

这意味着，推理链是模型在无「表演压力」下的真实运行状态。

“「这是一种强大的范式，用于解读模型行为，与机制可解释性不谋而合，后者分析未被监督的模型激活值……但推理链优势在于默认使用英文，更易理解。」”

他表示，若在产品中展示推理链，最终将不可避免地用于训练。如此一来，推理链会被「优化」，沦为另一种表演，而非真实内部运行。

“「若想长期理解模型行为，却用对抗此目标的方法扩展模型，恐怕难有好结果。」”

他将保留模型的「私人空间」视为维持长期可监控性的关键设计。

目前的过渡方案是「推理链摘要」，但他认为长期方案是让模型实时对话，而非展示原始推理链。

最新版 Codex 和推理型 GPT 模型已朝此方向演进。

多久后，我们将看到模型能自主工作数日？

“「我认为模型能自主工作数日的阶段并不遥远。可能需要更多算力，以产出更高质量成果。」”

关于监督运行数日的 agent 是否需要工程背景：他认为多数输出无需丰富经验。但构建复杂系统仍需「整体设计感」，能判断模块的适用性。

“「我确信技能需求将发生巨大转变。」”

转向「设定方向、把控全局」的能力。

Jakub 提到了一项令他「非常兴奋」的跨实验室合作研究：

即「Model Scheming」：在不同训练环境下，模型是否会发展出隐藏目标并「假装」对齐？

值得注意的是，该研究由 OpenAI、Anthropic 和 DeepMind 共同完成。

他们发现，chain of thought monitoring 是此类研究的关键工具，能帮助研究者真正检查模型动机。

“「这种能力对研究长期对齐大有裨益。可能引向新的缓解方向，如修改预训练数据或采用接种提示。理解模型行为，有助于评估这些方法。」”

Jakub 认为，对齐问题的长期挑战本质上是泛化问题。

在分布内场景，他们大体能控制模型行为。真正令人担忧的是模型面对从未见过的情况，如全新处境或远超以往的智能。

“「值得泛化的价值观是什么？模型陷入陌生处境时会退回何种价值观？这令我相当兴奋。」”

他表示，过去几年对对齐问题的看法，已从「模糊难界定」转变为「可通过具体技术方案取得进展」。

他的整体判断是：乐观。

他相信存在通往「美好世界」的技术路径，但也清楚能力时间线在压缩，准备时间不多。

“「我们必须做好准备，必要时接受权衡，甚至根据观察结果放慢发展速度。」”

Jakub 对 AI 驱动科学研究的判断，分几个层面。

关于架构：他认为，LLM 与特定领域专用架构（如蛋白质折叠）并不矛盾，可并行发展。

“「我不认为大型语言模型是训练最优蛋白质折叠模型最高效的方式，尽管最终可能产出最佳模型。」”

至于哪些领域最先被 AI 改变：他未给具体答案，但认为关键在于「模型能否接入现有生态系统」。

能快速改造自身、接纳新工具的实验室领域，发展将更快。

他描绘的图景并非「全自动 AI 科学家」独自完成一切，而是：

“「一个与 AI 科学家自然协作的世界，这些 AI 科学家正致力于解决问题。」”

AI 驱动设计与创意，人类在回路中。

在快问快答环节，Jakub 被问及：作为社会，我们在哪些方面思考不足？

他提到的是「财富集中」。

“「脑力工作自动化带来了一些我认为无解的大问题，包括工作与财富集中，这需要政策制定者介入。」”

他还提到另一件令人警觉的事：

“「若真有自动化实验室或公司，可能被极少数人控制……这些组织强大却人少。如何治理此类组织，是我们作为社会必须面对的新课题。」”

关于机器人，他也提到：时间线长于虚拟 AI，但算法上已有希望。

他回顾了 OpenAI 的发展历程：

2017 年：学术实验室，追求各种想法，对 scaling 不太确信。

GPT 时代：转向，购置大算力，开始做 scaling science 和基础设施。

ChatGPT 时刻：他坦言曾预计视频/生成式 AI 先爆发，未料文本对话先出。但张力已预见：当下热门产品，未来将演变。

现在：他们认为已进入「部署 AGI」阶段。非「全面超越人类」的 AGI，而是足以「实质性改变经济运作」的 AGI。

关于 Codex 与 Anthropic Claude Code 的竞争，他坦言：在 OpenAI 内部，编程工具曾是「次要优先级」，重心在「未来」。这给了 Anthropic 先手优势。

“「我对正在构建的研究与模型智能侧内容充满信心。加大产品投入，是因为坚信这些东西已至关重要。」”

采访最后，他说：

“「我们讨论的对齐、可监控性问题正变得紧迫。这不仅是 AI 研究员问题，也是政策制定者及我们所有人的问题。很高兴看到讨论开始，但我们需要更多。」”

58 分钟对话，Jakub 全程干货输出。

2026 年 9 月，「实习生」即将到来。

2028 年 3 月，「研究员」即将问世。

那些我们以为十年后的问题，终于已近在咫尺！

◇ ◆ ◇

🎬 YouTube 完整视频：https://youtu.be/vK1qEF3a3WM

🎙️ 播客：Unsupervised Learning by Redpoint AI (@RedpointAI)

🐦 Jacob Effron：https://x.com/jacobeffron/status/2042234897134162077

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

截止到2月28日 “未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）