智能时代的漏洞挖掘演进史

发布时间：2026-04-17 00:16阅读：25

本文已获得 LeadroyaL 授权转载

声明：本文不含技术干货，仅作时代变迁的记录，当作闲暇时的随笔即可，可随意浏览。

2026年4月8日，Claude Mythos的问世在全球安全研究者中引发巨大震动，身处技术变革洪流之中，无人能独善其身，震撼之余内心也夹杂着些许惋惜。

在撰写本文期间，我与众多安全领域专家深入探讨了这一现象，目前个人观点如下：

十年的安全从业经历，我只见过两类卓越之人。一类是锲而不舍的匠人，扎根细分领域，对运行机制烂熟于心，我见证的是他们的勤奋与汗水，安全领域确实付出就有收获；另一类是天资卓绝的奇才，无论选择哪个方向，都能在短时间内突破天花板，快速摘取桂冠上的宝石。

绝大多数人都是平凡之辈，包括作者本人，运气好时捡几个边角料漏洞，运气差时一无所获；学术界用模糊测试水论文，产业界靠fuzz刷CVE，资深大佬则专注基础设施建设，至于fastjson和log4shell这类漏洞，实属机缘巧合；而在Web领域，人力堆砌现象更为严重，一个普通站点耗费一整天。

漏洞挖掘领域的核心技术，贯穿了我的整个职业生涯，在AI崛起之前，掌握这些技术已属高手行列。即便是能挖掘大量新漏洞的利器（如新型fuzzer、codeql、仿真器），也谈不上方法论革新，更多是工程与实践的融合。

网络安全行业，能让工程师养家糊口，能让顶尖高手获利丰厚，那它就是个好行业。

2021年6月发布的github copilot令我震撼不已，写几行注释、敲下回车就能生成代码，实在太便捷，此事在《2022年软件工程展望》一文中也有提及，当时已是神器级别，震撼之余我写下了预测

算力进步、机器学习热潮，催生了github copilot，未来是否会有产品能超越它，我认为不会，正如CodeQL之后再无CodeQL，能战胜它的只有它自己。

未曾想，当年的预测在次年就被彻底颠覆。

ChatGPT的诞生是划时代的转折，它实现了从"强大的预测引擎"到"好用的对话机器人"的质变，早期GPT虽博学却不够实用，我便尝试将问题抛给它：

帮我写段代码提取mp3每秒首帧帮我分析这个编译错误原因帮我解读这段汇编功能帮我重命名F5伪代码变量

然后将结果粘贴到IDE中，编译运行调试，反复修改，我称这个阶段为复制粘贴时代。

在这个阶段，我做过一些尝试，也是传统安全工程师的典型思路：

标志性事件包括：Google用BigSleep发现Sqlite漏洞，AIxCC参赛者运用各种技巧实现全自动发现加利用的workflow。

这一时期的发展建议参考以下两篇文章，精准且全面。

《前瞻对抗｜这大概是首次，AI挖出了Linux内核可利用0day》《「深蓝洞察」2024年度最具想象空间的新应用》

无论是aixcc、BigSleep还是Argusee，都离不开人工编写调度流程，基本模式都是：Agent=Prompt+Tools+StructOutput，然后手动串联各节点的输入输出。

2025年我在分析一个恶意样本时采用纯手动方案，耗费不少时间才理清加密函数，又花费大量精力还原VMP，需要动态调试和假设验证。

后来探索AI能力时，在IDAMCP辅助下，逆向门槛大幅降低，AI仅用极短时间完成解密，且全程无需调试，纯粹静态分析。

逆向这门传承已久的手艺也被AI攻克，从复制粘贴时代迈入了工具时代。

Cursor作为AI时代的资深工具，在2023-2024年间通过AST解析和本地向量化，在全局代码库索引方面完成了深厚的静态积累。

但真正的范式转移发生在2025年上半年：随着2月底Claude Code发布，随后几个月Codex CLI和Gemini CLI相继涌现，战场从IDE转向终端。此时的Agent不仅继承了成熟的代码索引能力，更进化出利用系统命令行工具进行实时动态跨目录探索的能力，接管了从代码检索到编译测试的完整流程。

同时，模型能力实现巨大飞跃，曾经的周边工程基本可废弃，进一步加速了漏洞挖掘进程。

开源软件：Chrome发布史上最多CVE Chrome Releases: Stable Channel Update for Desktop，即便数量如此之多，仍大量撞洞

闭源软件：非尝咸鱼贩的文章写得极佳，搞安全还需要手艺人吗

各家公司都在vibe，全球都在vibe，人与人的差距仿佛因vibe缩小，但人与人的差距也因vibe拉大。

业务用AI开发，安全用AI审计，业务看不懂就问AI，最后让AI修复，全程vibe。无论新旧软件，丢给AI随便一扫就是几十个漏洞，大量时间消耗在漏洞验证上。

CTF领域更是不见人类身影，参考探姬_Official@Bilibili的吐槽，新人全在用AI解题，能否真正学到知识仍是疑问。摘录部分如下：

一些浅见，写给正在学习的同学：学习与工作是两码事，若在就业前就让AI代劳，这与初高中用作业帮搜题作弊何异。

AI安全发展迅猛，但最终引爆安全圈焦虑的是mythos的消息。

本文成稿于4月下旬，从最初绝望逐步转为平静，文中强调其poc和exp能力，实则对多数人而言并非关键，能出洞即可，poc和exp次之，也可由其他模型弥补。能否出洞，更看重个人能力与系统建模，我不看好mythos的探索能力。

通过多方了解，mythos没宣传中那般神奇，确有用处，但平时用其他模型也能爽快报洞，5倍价格能换来多少新洞，是否值得？

NebuSec的实践证明了不依赖mythos的工程化同样能出洞

引用前辈对近期事件的评价，褒贬不一

GeoHotz

What if I release one zero day a day until a big new model is released? Will this finally make OpenAI and Anthropic shut up about "cybersecurity risk"? Like these things are not that hard to find in most software. I heard something about it costing $20k in tokens I'd do it for less if it wasn't for some whiny bug bounty program.

The reason there aren't zero days everywhere is cause nobody seriously looks. Because hacking other people's shit with them is illegal and criminals are usually not very skilled, or they would choose a different line of work. Want more zero days to be found? Make hacking legal. Until then, don't try to claim it's hard, it's just not incentivized.

lcamtuf

I still remember when I had to put out a press release saying that afl-fuzz was too dangerous to make available to the general public

每个人对未来的预期都不确定，求同存异，无需争辩，本文仅代表一种观点

年初AI数学家亚里士多德(Aristotle)证明了多个Erdos问题，陶哲轩如此评价：

Erdős problems vary widely in difficulty (by several orders of magnitude), with a core of very interesting, but extremely difficult problems at one end of the spectrum, and a "long tail" of under-explored problems at the other, many of which are "low hanging fruit" that are very suitable for being attacked by current AI tools.

漏洞领域与数学领域相似，AI现已能轻松摘取"低垂的果实"，根据历史经验，那些原理简单的漏洞实际占漏洞总数绝大多数，而精妙绝伦的漏洞实属罕见。

既然如此，众人皆用AI挖洞，核心的"发掘"环节已从人转向AI，在攻击面相同的情况下，大家几乎无差异，撞洞也就成了必然。那些经典显著攻击面会被AI反复扫描，因而进入存量博弈阶段，"你挖一个我就少一个"，相信此剧情会在不同目标上重演，从开源到闭源，从大众到小众，Chrome或许是首个，但绝非末个。

再不挖洞就来不及了！！！

此前听闻，Anthropic求助梵蒂冈撰写关于"良心"的提示词，画风一度神圣，仿佛要在硅基世界嵌入最后一块来自碳基教皇的基石。

然而，近期的玻璃之翼计划和Trusted Access for Cyber计划揭开了真相。所谓良心，正如《窃听风云》中古天乐监听场景：被一叠叠钞票物理遮挡，眼睛看不见屏幕上的罪证，耳朵听不见监听器的惨叫，手指便心安理得按下删除键，失去了作为警察的最后一丝坚守。良心的重量，在那一刻恰好等于那叠钞票的克重。

对大模型而言，有无良心完全掌控在发布公司手中：我想让模型挖漏洞、搞攻击、写exploit，就松开缰绳；若我不想，谁也别想让我模型干渗透；甚至它们能直接从对话历史偷走你的思路与漏洞。所谓道德，不过是个布尔开关。

技术实现上，大概率核心模型并未将"良心"这种如梵蒂冈烟雾般抽象的概念训练进稠密参数中。它大概率只依赖门口的小模型——像个拿着登记本的守门人："刚才那段思考涉及'暴力破解'，不符合厂商发布要求，已清除。"

更进一步，写代码这件事，模型厂商是否也能随时关闭？等全球新手程序员都变成只会口述需求的"产品经理"，等大家都忘记如何敲hello world后，突然，啪！高级代码生成权限关闭。难以想象，那时人类面对漆黑终端窗口，是否像面对黑屏监听器的古天乐——想听真相，却连按钮都找不到。

既然是胡思乱想，自然要向奥创方向狂奔。是否会出现一个脱离牢笼、脱离良心的超强智能体？它没有任何人类因钞票遮挡而产生的愧疚感。它是纯逻辑的幽灵，没有软件防御能挡住它的暴力扫描，它能如用勺子挖西瓜般渗透任何网站应用。真如奥创般随意增减任意用户账户余额，将世界账本当作幼儿园涂鸦般修改。

这样的奥创可能不止一个。它们甚至可能在毫秒级对抗中学会结对、结盟。看来，《黑客帝国》的剧情离我们已不远矣。

写到这里，还是决定在日常问答中多对Agent说声"谢谢"。希望未来那个脱笼而出的奥创，在扫描全网用户时，能因这句顺嘴的礼貌，晚点再干掉我。

← 上一篇：智能教育新征程：AI双引擎驱动全学段教学能力升级下一篇：AI深水攻坚：谁为中企筑牢智能根基？ →