标签

博士生的AI科研实践:构建可复现的实证研究流程

发布时间:2026-06-10 22:43来源:微信阅读:2

近期我一直在探索 Codex 与 Claude Code 的应用。

Codex 并非论文代写机:经管博士科研 Skills 配置指南

最初,我也容易陷入一个思维定式:以为只要安装几个 Skill,AI就能自动帮我完成回归分析、图表制作、数据整理,甚至顺手把论文写出来。

后来我意识到,这种想法存在很大风险。

对经管博士而言,AI工具的核心价值并非"替你做研究",而是将那些重复、琐碎、易出错的环节,变得更为标准化、更具可复制性。

例如 Stata 回归中最常见的问题,往往不在于模型本身的复杂度,而在于:

变量名称拼写错误; 样本前后不一致; 处理变量构造有误; 固定效应标注不清楚; log 文件未保存; 同一张表格过段时间不清楚如何重现; 平行趋势图绘制完成,却不确定能否声称"通过检验"。

这些问题看似微小,但在撰写论文、修改返稿、答辩评审时,往往成为致命要害。

因此,我现在更倾向于将 Codex Skills 定位为一种"科研流程清单",而非"自动论文生成器"。

若让我重新规划,我会先完善最核心的 4 个基础模块,而非一次性安装大量 Skills。

首要是 panel-data-cleaning,即面板数据清洗与变量构造模块。

它主要负责检验重复值、缺失值、面板结构、缩尾处理、对数转换、生成 did、post、treat、gvar 等变量。特别是在多时点 DID 中,gvar 这个变量尤为关键,它代表企业首次受到政策处理的年份。

一旦 gvar 构造错误,后续无论是 TWFE、Bacon 分解,还是 Sun-Abraham、cscid,都会随之出错。

因此该 Skill 必须内置一条规则:

政策变量必须采用吸收型处理:企业一旦被处理,后续不能重新变为 0。

其次是 stata-econometrics-workflow,即 Stata 回归流水线模块。

它不负责"替我选定模型",而是负责将我已确定的实证流程标准化:

数据核查 → 缺失值检验 → 面板设定 → 基准回归 → 稳健性检验 → 机制检验 → 异质性检验 → 表格导出 → log 保存。

该 Skill 的核心价值在于降低低级错误的概率。

每次执行回归前,它都应提醒我:

是否已设定面板? 是否已保存 log? 是否已标注固定效应? 是否已说明聚类层级? 是否已记录样本量变动?

第三个是 staggered-did-robustness,即多时点 DID 专项模块。

多时点 DID 不能仅运行一个 TWFE 就收工。由于各企业在不同年份受到政策处理时,传统双向固定效应模型可能受到处理效应异质性与错位处理时间的影响。

因此该 Skill 应围绕以下内容展开:

TWFE 基准回归; Goodman-Bacon 分解; Callaway & Sant'Anna 的 csdid; Sun & Abraham 事件研究; did_multiplegt_dyn 动态 DID; 事件研究图; 前置项联合检验; 样本一致性检查。

但我会特别强调:它的职责不是告知我"结果必然稳健",而是协助我将应进行的诊断全部执行,然后由研究者自行判断结果能否写入论文。

第四个是 paper-table-export,即论文表格导出模块。

很多时候,回归分析本身顺利完成,但表格却杂乱无章。

例如同一篇文章中,有的表格列出了控制变量,有的没有;有的表格标注了企业固定效应,有的没有;有的表格标注了聚类标准误,有的没有。

这些问题在投稿阶段很容易暴露。

因此该 Skill 应统一表格规范:

必须报告样本量 N; 必须报告调整 R²; 必须标注控制变量; 必须标注固定效应; 必须标注聚类层级; 必须统一显著性星号; 必须保存可追溯的 do 文件和 log 文件。

待前 4 个模块运行顺畅后,我才考虑功能拓展。

首先是 event-study-plotting。

它主要负责绘制平行趋势图、Sun-Abraham 动态效应图、csdid event plot、did_multiplegt_dyn 动态图、U 型边际效应图、机制图和异质性森林图。

但此处需添加一条关键规则:

不能仅凭图形就声称"通过平行趋势检验",最好同时报告前置项联合检验结果。

其次是 reference-formatting-cn。

该 Skill 适用于整理《中国工业经济》《经济研究》《管理世界》以及 GB/T 7714 等参考文献格式。

这类工作机械性强,却极其耗时,且容易出现格式问题。使用 Skill 固化规则,比每次临时询问 AI 更为高效。

第三个是 paper-referee-diagnosis。

该 Skill 不运行代码,而是从审稿人视角出发,检查论文的选题创新性、理论机制、内生性、变量测度、识别策略、稳健性及表格支撑程度。

我认为该 Skill 对博士生尤为关键。

因为很多时候,我们并非不会运行回归,而是不清楚自己的论文为何"不像一篇成熟论文"。

第四个是 research-project-archive。

该 Skill 负责项目归档管理:

do 文件存放位置; log 文件存放位置; 表格和图片存放位置; 本次修改内容; 哪些结果可采用; 哪些结果不可采用; 下一步还需补充什么。

该 Skill 看似微不足道,但它解决的是一个非常现实的问题:

过了两周,我完全遗忘这张表格是如何跑出来的。

如今使用 Codex 或 Claude Code 辅助科研,我会为自己设定几条底线原则。

第一,不允许 AI 修改原始数据。

原始数据必须仅供读取,所有清洗结果均另存为 processed data。

第二,不允许 AI 替我决定识别策略。

AI 可以提醒我多时点 DID 的风险,也可以协助编写代码,但不能替我判断该政策冲击是否外生、机制是否成立、变量测度是否可靠。

第三,不允许 AI 仅输出结果而不保存过程。

所有回归必须配备 do 文件、log 文件和版本说明。

第四,不允许 AI 仅关注显著性。

系数方向、经济含义、样本变化、固定效应、聚类层级,都需综合考量。

第五,不将 AI 视为论文代工工具。

真正的科研判断,始终来自研究者本人。AI 可以提升效率,但不能替代学术训练。

对博士生而言,AI工具最具价值之处,可能并非"帮你快速完成一篇论文",而是促使你将研究流程标准化。

以往我们运行回归,很多步骤依赖记忆、习惯、临时修改。

但一旦你开始为 Codex 编写 Skills,你就必须认真梳理:

我的数据清洗流程是什么? 我的回归顺序是什么? 我的稳健性检验应包含哪些? 我的表格标准是什么? 我的图形能否支撑论文结论?

这才是我认为 Codex Skills 真正有用的地方。

它并非让科研变得轻松,而是让科研变得更可控。

也许这才是 AI 工具对经管博士最务实的帮助:不是代替我们思考,而是减少那些重复、琐碎、易出错的劳动,将时间留给真正需要判断的环节。