OpenAI首席科学家访谈:思维链保密、AI研究员将至、通用Harness
Jakub Pachocki 担任 OpenAI 首席科学家,是 GPT-4、o1、o3 系列模型的核心架构师之一,同时也是历史上最年轻的 IOI(国际信息学奥林匹克)金牌得主。
他鲜少对外露面,但此次在 Redpoint AI 的播客中,他敞开心扉,畅谈了将近一个小时。
访谈内容涵盖 AGI 发展时间表、OpenAI 内部实验机制、为何刻意隐藏思维链,以及他对 AI 重塑科学研究的深刻见解。
该节目名为「Unsupervised Learning」,主持人 Jacob Effron(Redpoint Ventures 合伙人)借此机会提出了他最关心的几个问题。
OpenAI 官方新闻室转发了此次采访,并配文指出:「算力支撑着 AI 的每一层演进,而 @merettm 正在探讨如何构建自动化 AI 研究员。」
以下是访谈中核心观点的整理。
四个月前,Jakub 曾与团队公布过一项时间表:
•今年 9 月:实现「研究实习生级别」的 AI 系统
•2028 年 3 月:实现完全自动化的 AI 研究员
当被问及四个月过去后,进度是否按计划进行时,他给出了回答。
“「我们在 OpenAI 内部已利用 Codex 完成了大部分实际编程。对大多数人而言,编程方式已发生巨变,这表明我们的进程处于正轨上。」”
另一个让他感到「超出预期」的领域则是数学与物理。
他表示,过往依赖数学竞赛来评估模型能力的手段已显不足。模型已攻克 IMO 第 6 题,踏入「研究级数学」范畴。团队正将重心转向考察模型在现实世界中的实际效用。
“「我们坚信,当前模型能力已达标,虽未必在各方面超越人类,但足以实质性改变经济运作模式,这令我们倍感紧迫。」”
Jacob 追问:如何界定这一门槛的到来?
Jakub 的界定方式十分清晰。
他指出,「研究实习生」与「完全自动化研究员」的差异,主要在于任务的时间跨度与具体程度。
不应指望今年系统能执行「提升模型」或「解决对齐问题」这类宏观指令,这目前尚无法实现。
若任务足够具体,例如「我有改进模型的具体想法,请协助运行该实验,以不同方式复现评估」,他认为现有组件已基本完备。
“「我认为目前主要缺的,是将这些组件整合起来。」”
他认为 Andrej Karpathy 利用模型改进自身「小型模型」的文章,是对此类工具未来形态的预演。
为何 OpenAI 始终聚焦数学竞赛?
这并非因数学本身重要,而是因其是验证模型是否真正变聪明的最佳途径。
数学具备可验证性(非对即错)、难度可无限提升,并能清晰展示模型在「推理」层面的进步幅度。
他表示,该路线催生了 reasoning 模型的整套方法论,而这条「北极星」路径已近天花板。
数学并未失效,团队重心正转向更务实的问题:模型在真实科研与经济活动中的实际效能。
他特别提及了「first proofs」挑战,这是一批由知名数学家/理论计算机科学家发布的未发表研究级问题,旨在考察模型解题能力。
该挑战发布突然,仅有一周准备时间。
当时 OpenAI 正有一训练中的模型,工程师 James Lee 直接手动提示模型,结果发现其真在解题。
Jakub 提到,其中一道题源自他博士研究的专业领域。
“「目睹模型在约一小时内想出我需数周才能构思的思路,这种感受颇为奇妙。就像当年看 Dota 机器人下棋,感觉充满魔力……此类奇迹不应无限延续。」”
“「如今,奇迹发生在数学领域,且是极具代表性的领域,这令我紧迫感倍增。」”
代码与数学是强化学习(RL)的最佳应用场景,因答案验证便捷。
那医疗、法律、金融领域呢?
Jakub 表示:他对这些领域相当乐观,但承认这是「下一个真正的前沿」。
他认为,这些问题的本质与「长时间任务」高度重合。以需研究一年的数学题为例,首日任务本身即为开放性问题。因此,「难以验证」与「长时间跨度」实为同一难点。
“「我们在通用领域扩展 RL 时,已观察到令人鼓舞的迹象。」”
关于「是否自研 RL」,他建议:RL 确是提升数据效率的途径,但上下文学习更为高效。只需提供示例与指令,模型即可学习。
他的直觉是:与其复刻 OpenAI 的 RL 流程,不如先明确评估标准、积累数据,未来直接注入模型上下文,效果可能更佳。
关于「是否自建 harness」,他也给出了明确判断。
“「harness 的实现不应长期受限。我们会有更通用的工具,适用于各类领域。Codex 在编程外的应用效果也相当不错。」”
他描绘的未来图景是:AI 应主动融入场景,而非让用户迁就其限制。
例如,AI 应接入 Slack 等平台,获取上下文,具备学习与执行能力。功能的缺失仅代表局限,而非能力本身。
“「长期看,AI 应默认出现在你所在之处。若未出现,仅因新能力,而非局限。」”
这是整场访谈中最具深度的部分之一。
OpenAI 在发布早期 reasoning 模型时,决定不向用户展示 chain of thought(推理链)。
该决定颇具争议,许多人表示不解。
Jakub 解释了其核心动机。
核心逻辑在于:此类模型的推理过程在训练时未被直接监督(不同于 ChatGPT 的礼貌训练)。训练信号仅作用于最终输出,不作用于中间推理。
这意味着,推理链是模型在无「表演压力」下的真实运行状态。
“「这是一种强大的范式,用于解读模型行为,与机制可解释性不谋而合,后者分析未被监督的模型激活值……但推理链优势在于默认使用英文,更易理解。」”
他表示,若在产品中展示推理链,最终将不可避免地用于训练。如此一来,推理链会被「优化」,沦为另一种表演,而非真实内部运行。
“「若想长期理解模型行为,却用对抗此目标的方法扩展模型,恐怕难有好结果。」”
他将保留模型的「私人空间」视为维持长期可监控性的关键设计。
目前的过渡方案是「推理链摘要」,但他认为长期方案是让模型实时对话,而非展示原始推理链。
最新版 Codex 和推理型 GPT 模型已朝此方向演进。
多久后,我们将看到模型能自主工作数日?
“「我认为模型能自主工作数日的阶段并不遥远。可能需要更多算力,以产出更高质量成果。」”
关于监督运行数日的 agent 是否需要工程背景:他认为多数输出无需丰富经验。但构建复杂系统仍需「整体设计感」,能判断模块的适用性。
“「我确信技能需求将发生巨大转变。」”
转向「设定方向、把控全局」的能力。
Jakub 提到了一项令他「非常兴奋」的跨实验室合作研究:
即「Model Scheming」:在不同训练环境下,模型是否会发展出隐藏目标并「假装」对齐?
值得注意的是,该研究由 OpenAI、Anthropic 和 DeepMind 共同完成。
他们发现,chain of thought monitoring 是此类研究的关键工具,能帮助研究者真正检查模型动机。
“「这种能力对研究长期对齐大有裨益。可能引向新的缓解方向,如修改预训练数据或采用接种提示。理解模型行为,有助于评估这些方法。」”
Jakub 认为,对齐问题的长期挑战本质上是泛化问题。
在分布内场景,他们大体能控制模型行为。真正令人担忧的是模型面对从未见过的情况,如全新处境或远超以往的智能。
“「值得泛化的价值观是什么?模型陷入陌生处境时会退回何种价值观?这令我相当兴奋。」”
他表示,过去几年对对齐问题的看法,已从「模糊难界定」转变为「可通过具体技术方案取得进展」。
他的整体判断是:乐观。
他相信存在通往「美好世界」的技术路径,但也清楚能力时间线在压缩,准备时间不多。
“「我们必须做好准备,必要时接受权衡,甚至根据观察结果放慢发展速度。」”
Jakub 对 AI 驱动科学研究的判断,分几个层面。
关于架构:他认为,LLM 与特定领域专用架构(如蛋白质折叠)并不矛盾,可并行发展。
“「我不认为大型语言模型是训练最优蛋白质折叠模型最高效的方式,尽管最终可能产出最佳模型。」”
至于哪些领域最先被 AI 改变:他未给具体答案,但认为关键在于「模型能否接入现有生态系统」。
能快速改造自身、接纳新工具的实验室领域,发展将更快。
他描绘的图景并非「全自动 AI 科学家」独自完成一切,而是:
“「一个与 AI 科学家自然协作的世界,这些 AI 科学家正致力于解决问题。」”
AI 驱动设计与创意,人类在回路中。
在快问快答环节,Jakub 被问及:作为社会,我们在哪些方面思考不足?
他提到的是「财富集中」。
“「脑力工作自动化带来了一些我认为无解的大问题,包括工作与财富集中,这需要政策制定者介入。」”
他还提到另一件令人警觉的事:
“「若真有自动化实验室或公司,可能被极少数人控制……这些组织强大却人少。如何治理此类组织,是我们作为社会必须面对的新课题。」”
关于机器人,他也提到:时间线长于虚拟 AI,但算法上已有希望。
他回顾了 OpenAI 的发展历程:
2017 年:学术实验室,追求各种想法,对 scaling 不太确信。
GPT 时代:转向,购置大算力,开始做 scaling science 和基础设施。
ChatGPT 时刻:他坦言曾预计视频/生成式 AI 先爆发,未料文本对话先出。但张力已预见:当下热门产品,未来将演变。
现在:他们认为已进入「部署 AGI」阶段。非「全面超越人类」的 AGI,而是足以「实质性改变经济运作」的 AGI。
关于 Codex 与 Anthropic Claude Code 的竞争,他坦言:在 OpenAI 内部,编程工具曾是「次要优先级」,重心在「未来」。这给了 Anthropic 先手优势。
“「我对正在构建的研究与模型智能侧内容充满信心。加大产品投入,是因为坚信这些东西已至关重要。」”
采访最后,他说:
“「我们讨论的对齐、可监控性问题正变得紧迫。这不仅是 AI 研究员问题,也是政策制定者及我们所有人的问题。很高兴看到讨论开始,但我们需要更多。」”
58 分钟对话,Jakub 全程干货输出。
2026 年 9 月,「实习生」即将到来。
2028 年 3 月,「研究员」即将问世。
那些我们以为十年后的问题,终于已近在咫尺!
◇ ◆ ◇
🎬 YouTube 完整视频:https://youtu.be/vK1qEF3a3WM
🎙️ 播客:Unsupervised Learning by Redpoint AI (@RedpointAI)
🐦 Jacob Effron:https://x.com/jacobeffron/status/2042234897134162077
阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”
截止到2月28日 “未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
上下滑动查看更多