AI+Stata3.0片段：从手动贴代码到一句话抓取4300条SSC命令

发布时间：2026-04-27 22:40阅读：16

结合一个真实案例，谈谈 AI Agent 是如何在不知不觉中重塑写代码这件事的。

AI+Stata2.0 由数量经济学微信公众号提出，相关内容可回看如下：

【可回放+可复现】2026Stata寒假班-- AI × Stata2.0 红宝书

科研提速，共同探索 AI+Stata2.0 的研究新路径

依托400000行代码数据，AI+Stata2.0 为学术研究提供支持

AI+Stata2.0 红宝书系统梳理了 AI 辅助高级数据分析与因果推断的 Stata 实现方案，覆盖从工具配置到实操落地的完整流程：

关于 AI+Stata2.0 的系列内容，可回顾此前2025年3月（Deepseek系列专题直播第4+5+6课：StataNow19.5+本地部署+知识库+Stata学术应用等）以及2025年11月-2026年1月的系列公开课等。

AI×Stata 3.0 则是在此前 AI×Stata 2.0 课程所涉及的 AI+Stata+Python+Jupyter+Anaconda 等工作流之上，进一步引入 Trae、StataMCP、Claude 等主流编程工具，带你搭建一套完整的 AI+Stata 科研新范式：这套工具链将实现：

以 AI 赋能网络爬虫为例，在传统 AI+Stata2.0 模式下，要做网络爬虫，可以自己动手写代码，也可以结合自身专业基础与 AI 配合完成。这个思路可参考往期公开课中的相关介绍：

AI辅助网络爬虫+计量分析等-2025Stata暑假班--精彩片段--

7月10日公开课回顾--AI大模型前沿--网络爬虫（原理、提示工程、爬虫案例）

【7月2日--3h直播回顾】AI大模型前沿应用--网络爬虫--当当网

【7月2日--3h直播回顾】AI大模型前沿应用--网络爬虫

【7月2日--3h直播回顾】AI大模型前沿应用--网络爬虫--猫眼电影TOP100

关于抓取 SSC 外部命令，可查看数量经济学微信公众号在2024年-2025年推出的系列文章

3961个Stata外部命令：史上最全的SSC外部命令清单-按时间排序--截止2024.11.09

3961个Stata外部命令：史上最全的SSC外部命令清单-按字母排序--截止2024.11.10

2句提示工程Prompts下载史上最全SSC外部命令

20000+SSC外部命令配套数据文件汇总--截止12.05

4025个Stata外部命令：史上最全的SSC外部命令清单-按时间排序--截止2025.02.19

Stata外部命令：史上最全的SSC外部命令清单-按字母排序--截止2025.02.19

而现在，情况已经发生变化。在 AI+Stata3.0 的新模式下，AI Agent 正在推动网络爬虫等任务出现新的转变。

要抓取 SSC 外部命令，可以从 EconPapers 等网站上把全部 Stata 外部命令列表提取下来。

这个网站的结构并不算复杂，但数据规模不算小：共有88个分页，每页大约50条，总计4000多条记录。每条都要提取四个字段：命令名称、描述、链接、作者等。

放在以前，这就是一个标准的爬虫任务。打开 F12、复制 HTML、分析结构、编写解析逻辑、处理分页、调试报错……整套流程下来，至少也得花上半小时。

不过这一次，我没有这么做。

先说一下"传统做法"。如果用 Deepseek、豆包这类工具来写爬虫，通常要按下面的方式操作：

第一步：手动收集信息

打开目标网页，按 F12 进入开发者工具，把 HTML 源码复制出来。还要多翻几页，确认分页规律——究竟是 URL 参数翻页，还是 JS 动态加载。

第二步：投喂给 AI

把源码粘贴进对话框，再补上一段需求说明：

"帮我分析这个HTML结构，写一个Python爬虫，提取所有软件条目的名称、描述、链接和作者。分页规律是default.htm到default87.htm。"

第三步：拿到代码后手动运行

AI 会生成一段代码，你再复制到本地，在 Jupyter 或者 VS-Code 中运行这个 Python 程序。

第四步：测试修补，来回迭代

第一次运行大概率不会完全正确。可能是选择器写错了，可能是编码出了问题，也可能是分页逻辑有 bug。你还得把报错信息继续贴回去，让 AI 修改，改完再跑，再报错，再贴……

在这个过程中，你是执行者，AI 更像顾问。所有繁琐的操作都由你完成，AI 只是负责"看一眼你提供的内容，再给出建议"。

而现在，可以改用 AI Agent（类似 Claude Code、Trae 这类工具）。

整段对话的核心需求，大致只需要这样一句话：

"分析这个网址，写个Python爬虫，抓取这个网站下面所有SSC外部命令清单，输出Name、Description、Link、Authors到Markdown和Excel。"

当然，实际操作时我还补充了字段说明和输出格式要求，但并没有提供任何 HTML 源代码，也没有说明分页机制。

接着，我就看着它自己把事情做完。

它具体做了什么？

当然，上述后台思考过程可能比这个描述还要更简洁，我们直接看截图！

整个抓取过程，不到5分钟就结束了。

注意到了吗？我从头到尾都没有提供任何 HTML 源代码。没有解释分页机制，没有手动调试，也没有反复粘贴报错信息。

在整个过程中，我的角色已经从"操作员"转变为"验收员"——提出需求、查看结果、确认无误，然后结束。

并且我随后做了验证，结果基本没有问题。

在这一过程中，AI Agent 完成了联网检索，编写 Python 爬虫程序抓取全部 SSC 外部命令，并自动运行爬虫输出 Markdown 和 Excel 文件，同时还对输出结果进行了校验。

说得直白一些，传统 AI 更像一个被动知识库，你问什么它答什么，但它既看不到你的屏幕，也碰不到你的键盘。AI Agent 则更像一个可以动手的助手，它会自己去看、自己去试、自己去改。

Stata课程已开设10年

2017-2026年

10年Stata经典课程广受好评！

← 上一篇：认知科学融合AI：2026崖州湾教育峰会暨世外三亚学术节启幕下一篇：奥尔特曼阐述OpenAI核心准则与愿景 →