标签

AI+Stata3.0片段:从手动贴代码到一句话抓取4300条SSC命令

发布时间:2026-04-27 22:40来源:微信阅读:4

结合一个真实案例,谈谈 AI Agent 是如何在不知不觉中重塑写代码这件事的。

AI+Stata2.0 由数量经济学微信公众号提出,相关内容可回看如下:

【可回放+可复现】2026Stata寒假班-- AI × Stata2.0 红宝书

科研提速,共同探索 AI+Stata2.0 的研究新路径

依托400000行代码数据,AI+Stata2.0 为学术研究提供支持

AI+Stata2.0 红宝书系统梳理了 AI 辅助高级数据分析与因果推断的 Stata 实现方案,覆盖从工具配置到实操落地的完整流程:

关于 AI+Stata2.0 的系列内容,可回顾此前2025年3月(Deepseek系列专题直播第4+5+6课:StataNow19.5+本地部署+知识库+Stata学术应用等)以及2025年11月-2026年1月的系列公开课等。

AI×Stata 3.0 则是在此前 AI×Stata 2.0 课程所涉及的 AI+Stata+Python+Jupyter+Anaconda 等工作流之上,进一步引入 Trae、StataMCP、Claude 等主流编程工具,带你搭建一套完整的 AI+Stata 科研新范式: 这套工具链将实现:

以 AI 赋能网络爬虫为例,在传统 AI+Stata2.0 模式下,要做网络爬虫,可以自己动手写代码,也可以结合自身专业基础与 AI 配合完成。这个思路可参考往期公开课中的相关介绍:

AI辅助网络爬虫+计量分析等-2025Stata暑假班--精彩片段--

7月10日公开课回顾--AI大模型前沿--网络爬虫(原理、提示工程、爬虫案例)

【7月2日--3h直播回顾】AI大模型前沿应用--网络爬虫--当当网

【7月2日--3h直播回顾】AI大模型前沿应用--网络爬虫

【7月2日--3h直播回顾】AI大模型前沿应用--网络爬虫--猫眼电影TOP100

关于抓取 SSC 外部命令,可查看数量经济学微信公众号在2024年-2025年推出的系列文章

3961个Stata外部命令:史上最全的SSC外部命令清单-按时间排序--截止2024.11.09

3961个Stata外部命令:史上最全的SSC外部命令清单-按字母排序--截止2024.11.10

2句提示工程Prompts下载史上最全SSC外部命令

20000+SSC外部命令配套数据文件汇总--截止12.05

4025个Stata外部命令:史上最全的SSC外部命令清单-按时间排序--截止2025.02.19

Stata外部命令:史上最全的SSC外部命令清单-按字母排序--截止2025.02.19

而现在,情况已经发生变化。在 AI+Stata3.0 的新模式下,AI Agent 正在推动网络爬虫等任务出现新的转变。

要抓取 SSC 外部命令,可以从 EconPapers 等网站上把全部 Stata 外部命令列表提取下来。

这个网站的结构并不算复杂,但数据规模不算小:共有88个分页,每页大约50条,总计4000多条记录。每条都要提取四个字段:命令名称、描述、链接、作者等。

放在以前,这就是一个标准的爬虫任务。打开 F12、复制 HTML、分析结构、编写解析逻辑、处理分页、调试报错……整套流程下来,至少也得花上半小时。

不过这一次,我没有这么做。

先说一下"传统做法"。如果用 Deepseek、豆包这类工具来写爬虫,通常要按下面的方式操作:

第一步:手动收集信息

打开目标网页,按 F12 进入开发者工具,把 HTML 源码复制出来。还要多翻几页,确认分页规律——究竟是 URL 参数翻页,还是 JS 动态加载。

第二步:投喂给 AI

把源码粘贴进对话框,再补上一段需求说明:

"帮我分析这个HTML结构,写一个Python爬虫,提取所有软件条目的名称、描述、链接和作者。分页规律是default.htm到default87.htm。"

第三步:拿到代码后手动运行

AI 会生成一段代码,你再复制到本地,在 Jupyter 或者 VS-Code 中运行这个 Python 程序。

第四步:测试修补,来回迭代

第一次运行大概率不会完全正确。可能是选择器写错了,可能是编码出了问题,也可能是分页逻辑有 bug。你还得把报错信息继续贴回去,让 AI 修改,改完再跑,再报错,再贴……

在这个过程中,你是执行者,AI 更像顾问。所有繁琐的操作都由你完成,AI 只是负责"看一眼你提供的内容,再给出建议"。

而现在,可以改用 AI Agent(类似 Claude Code、Trae 这类工具)。

整段对话的核心需求,大致只需要这样一句话:

"分析这个网址,写个Python爬虫,抓取这个网站下面所有SSC外部命令清单,输出Name、Description、Link、Authors到Markdown和Excel。"

当然,实际操作时我还补充了字段说明和输出格式要求,但并没有提供任何 HTML 源代码,也没有说明分页机制。

接着,我就看着它自己把事情做完。

它具体做了什么?

当然,上述后台思考过程可能比这个描述还要更简洁,我们直接看截图!

整个抓取过程,不到5分钟就结束了。

注意到了吗?我从头到尾都没有提供任何 HTML 源代码。没有解释分页机制,没有手动调试,也没有反复粘贴报错信息。

在整个过程中,我的角色已经从"操作员"转变为"验收员"——提出需求、查看结果、确认无误,然后结束。

并且我随后做了验证,结果基本没有问题。

在这一过程中,AI Agent 完成了联网检索,编写 Python 爬虫程序抓取全部 SSC 外部命令,并自动运行爬虫输出 Markdown 和 Excel 文件,同时还对输出结果进行了校验。

说得直白一些,传统 AI 更像一个被动知识库,你问什么它答什么,但它既看不到你的屏幕,也碰不到你的键盘。AI Agent 则更像一个可以动手的助手,它会自己去看、自己去试、自己去改。

Stata课程已开设10年

2017-2026年

10年Stata经典课程广受好评!