程序员视角下的AI发展历程与未来展望

发布时间：2026-05-08 12:04阅读：18

这篇文章的构思已久，内容十分丰富。

我想随意分享一下我近几年在AI领域的探索、体验以及观察到的生态变化，并夹杂一些个人对未来的期许。

这并非一份严谨的行业分析报告，更多的是我作为一个程序员，对这段时期技术发展和应用实践的阶段性总结。其中不少观点或许有待商榷，但均源自我真实的实践和感受。

本篇内容，将首先从我个人的程序员视角切入。

从技术角度讲，大型语言模型（LLM）并非2022年才横空出世。若要追溯其源头，2017年6月12日Google发布的《Attention Is All You Need》论文，提出了Transformer架构，这被普遍认为是当前这波大模型浪潮的真正起点。

此后，2018年的GPT-1和BERT，2019年的GPT-2，以及2020年的GPT-3，都标志着模型能力的逐步提升。然而，坦白说，在ChatGPT问世之前，这些技术对于绝大多数普通程序员而言，仍显得有些遥远。我们知道它们强大，但更多的是存在于学术论文、技术演示、API接口和行业新闻中，距离真正改变日常工作流程还有一段距离。

真正将这一技术推到所有人面前的，是2022年11月30日发布的ChatGPT。

我初次接触LLM，便是通过ChatGPT。那时的体验堪称震撼。它不仅能进行流畅的对话，还能编写、修改、解释代码，撰写邮件、文案，进行翻译、总结，甚至还能一本正经地“胡说八道”。

这让我第一次深刻体会到：“自然语言”确实有可能演变成一种全新的操作系统交互入口。

作为一名程序员，我的工作方式也自那时起发生了转变。

过去，遇到技术难题，我习惯于在Google、Bing等传统搜索引擎上查找资料、翻阅文档、浏览Stack Overflow，然后自行编写、调试代码。而现在，我更多的是直接向LLM提问，让它生成代码，然后复制到IDE中进行修改、运行和验证。

起初，这主要是一种“复制粘贴”的模式。

提出问题，复制它生成的代码；遇到错误，将错误信息反馈回去；它再进行修改，我再运行。现在回想起来，这种方式显得颇为原始，但当时已足够令人惊叹。因为它首次将“信息检索”、“理解需求”和“代码编写”这几个步骤整合到了一起。

2023年3月14日，GPT-4和Claude相继进入大众视野。GPT-4让人们开始将LLM视为生产力工具而非单纯的娱乐玩具；而Claude给我的第一印象是其超长的上下文处理能力、舒适的阅读体验，以及强大的代码能力，尤其在编程方面表现突出。

国内的AI模型也在2023年迎来集中爆发。文心一言、通义千问、ChatGLM、Kimi、DeepSeek等产品陆续亮相。尽管早期国内模型的表现略显粗糙，但随着Kimi在长文本处理上的突破，以及DeepSeek在性价比和代码能力上的优势显现，国内模型生态才逐渐成型。

进入2024年，模型间的竞争愈发激烈。GPT-4o、Claude 3.5 Sonnet、Gemini 2.0、DeepSeek-V3等模型不断涌现。特别是Claude 3.5 Sonnet，对于许多程序员而言意义重大，它在编码体验上的卓越表现，一度让我感觉AI在代码生成领域的应用已经真正进入了实用阶段。

2025年至2026年，则可能进入“高速迭代期”。DeepSeek-R1重新点燃了推理模型、开源路线和低成本训练的热情；OpenAI持续推出GPT-5系列（GPT-5、5.1、5.2、5.5）；Anthropic迭代至Claude 4.x；Google发布Gemini 2.5和Gemini 3；国内厂商如DeepSeek、Qwen、Kimi、GLM也在各自领域寻找突破。

简要梳理发展主线，大致如下：

我认为，LLM的发展并非仅仅是模型规模的增大和参数量的增加。

对用户而言，更关键的变化在于：它已经从一个“只能聊天的网页应用”，蜕变为一个“能够调用工具、读取文件、修改代码、执行命令、完成任务”的强大助手。

这才是最核心的演进。

模型的强大能力是一层，产品形态是另一层，而工作流程的革新又是更深一层。仅仅关注模型排行榜，无法全面理解整个故事。

例如，同一个模型，置于网页界面就是聊天机器人；集成到IDE中就成为编程助手；部署在命令行就是开发Agent；若能连接浏览器和文件系统，它便能扮演一个能处理事务的数字员工。

回望过去几年，这无疑是程序员生产力工具快速革新的时期。

从搜索引擎，到聊天界面；从聊天界面，到集成开发环境（IDE）；从IDE，到命令行Agent；再到各类专用Agent和自动化工作流。

这条发展轨迹非常清晰：AI起初只是辅助回答问题，随后开始协助生成内容，最终发展到能够执行具体任务。

我后续将要探讨的许多内容，包括AI IDE、命令行工具、免费使用策略、Agent应用以及未来发展趋势，本质上都围绕着这条主线展开。

最早接触的免费AI项目是Cursor，当时并未意识到这背后可能隐藏着一条复杂的黑/灰产链。通过白嫖Cursor，我接触并学习了以下技术知识：

随后，我如法炮制，尝试并使用了Augment、WindSurf、Kiro等一系列AI IDE。

AI IDE的使用体验确实非常流畅。尽管当前许多人转向使用命令行工具（CLI），但从实际体验来看，Cursor在代码审计、子Agent编排、提示词（Prompt）及技能（Skill）、MCP（可能指某种模型或协议）的管理等方面，仍远优于CLI。当然，这属于个人偏好，尽管我现在也转向了CLI。

很快，Claude Code问世，我身边的许多朋友都转用了它。同时，Cursor的免费版本限制了高级模型的使用，这促使我也转向了Claude Code。不得不承认，当时的Sonnet 3.5在性能上确实具有划时代的领先优势。Claude Code的免费使用主要依赖于一些公益站点，这些站点多采用反向代理技术连接antigravity和kiro。然而，随着AI公司收紧政策，antigravity和kiro遭到大规模封禁后，这些工具的使用逐渐减少，目前仅剩anyrouter尚可使用。在此过程中，我学会了反向代理技术。

这部分内容不那么重要，核心是Codex。这是我想重点提及的。我使用Claude Code的总时长并不算长，加之某些地区AI政策的限制，我对部分服务产生了负面看法。相反，OpenAI的慷慨（此处可能为反讽）则不同。在此过程中，我学习到了以下技术：

OpenAI针对免费账户引入了“添加手机号”的验证机制，随后取消了团队版月度试用，并且大量拒绝了PayPal支付方式。如今，可能只有印度尼西亚地区的GoPay仍是公开可用的支付方案。

付费账户的“白嫖”主要集中在AI服务和云主机方面。AI服务包括Gemini Pro的学生认证、GPT K12教师认证，以及Grok的亚马逊支付回调漏洞等。服务器云主机则涉及AWS试用、甲骨文服务器等。目前，只有财力雄厚的谷歌和Grok仍在提供相对宽松的政策。OpenAI似乎已经被用户“薅”得够呛。此外，通过教育邮箱也能获得其他一些服务，例如Cursor的教育认证、Figma的教育认证等。有兴趣的朋友可以访问https://studentdiscounts-43kxjpre.manus.space/，这是一个由L站一位用户制作的资源汇总网站。

时至今日，想免费使用AI服务已变得愈发困难。各大厂商基本都提供了长达三年的免费使用期，这已经相当不错了。相比之下，国内厂商起步较晚，在DeepSeek走红后才逐渐有了起色。早期的文心一言、科大讯飞等产品，现在已鲜为人知。而如今备受关注的GLM、Kimi，当初也并未引起广泛关注。然而，起步晚并非意味着价格低廉，反而价格一路飙升。就连豆包也开始考虑收费模式。我早期开通的老用户套餐，如今已被告知不再承认。是的，我说的就是Z（此处可能指代某个国内AI服务提供商）。Z（该厂商）似乎正试图与A（此处可能指代某个国外AI服务提供商）一较高下，看看到底是字母表开头的更“畜生”，还是字母表结尾的更“畜生”。

言归正传，LLM发展至今，就像当年的滴滴打车、外卖大战。它们首先让你养成使用习惯，让你对AI产生“瘾”，这种“瘾”源于AI带来的便利、爽快和效率的提升。一旦你真正依赖上，就很难摆脱，最终不得不付费使用。就像我一样。

从我个人和身边朋友的使用情况来看，目前的AI，除了没有实体，在智能方面已经接近人类。

但这有一个前提：提出的问题不能过于复杂或曲折，最好是基于通用知识。

LLM的本质在于预测序列中的下一个词，其输出结果是概率最高的那一个。所谓的“回答”，本质上是概率分布中的一条高概率路径。

我们考虑两个问题：

显而易见，对于AI而言，第二个问题不可能回答错误。因为在中国首都就是北京这一事实，在任何语料中都是一致的答案。该输出词的概率几乎可以视为100%。

然而，第一个问题则有所不同。

在模型的训练语料中，可能不存在完全相同的句子。这意味着，对于模型而言，“要”和“不要”都有可能成为高概率答案。它需要进一步理解“洗车”这个动作背后的隐含条件：你不是要去洗人，而是洗车，所以理应把车开过去。

再考虑到逻辑推理，推理的本质也是概率，只不过是展开后的概率路径。它将原本的A -> B，转化为A -> C -> B。

但在一个完全未训练或语料覆盖不足的环境下，模型回答不准确的概率依然很高。这恰恰体现了高质量模型的重要性。优质模型插入的C路径更为合理，从而大幅增加了最终输出正确B的概率。

那么，回到我最初的论点：什么是不绕的、通用知识？

实际上，就是通用语料，或者说是干扰项较少的语料。也就是说，涵盖日常生活、通用信息、基础常识等非专业领域的数据。

对于普通大众而言，目前市面上主流的AI模型，在处理日常生活、日常问答、基础解释等场景时，已经完全足够。当下任何一款最新的模型，都能够替代过去许多工具，其中最常见的便是搜索引擎。

我身边一些非IT行业的朋友，现在搜东西基本都在用豆包。

换言之，在通用领域，AI给出的答案，我们可以有99%的信任度。

当然，这里的“信任”并非指完全无需验证，而是说它已经足以成为普通人的首要信息获取入口。

这里以编程为例。

目前AI行业发展最迅猛的两个方向，一个是编码，另一个是短视频。

然而，尽管有大量报道称：编码任务可以连续运行一周，能够修复各种老旧bug和漏洞，能够启动100000个子Agent持续进行PR审查和合并，但实际情况究竟如何呢？

纯属夸大其词。

正如我在前文所述，LLM的本质是概率输出。尽管目前LLM的上下文窗口已扩展至1M，但在实际编码过程中，我很少会用到满1M的容量。

原因何在？

因为上下文遗忘的问题根本没有得到根本解决。

在实际编码中，我遇到的主要问题包括：

一时之间想不出更多了。实际上，真实编码过程中还有许多其他问题，但主要能想到的就是上述几点。

其根本原因主要有两个：

一个是上下文长度和记忆问题；另一个是LLM本身并非确定性状态机，而是一个概率化的序列推断系统。所谓的“智慧”，不过是局部算法结构与类推理行为组合而成的表现。

综上所述，我想强调的是：在专业领域，AI给出的答案，我们只能有80%的信任度。

剩余的20%，必须由人工进行审核、测试和兜底。

为什么我之前说，除了没有实体，AI的“脑子”已经和人差不多了？

因为如果你给现在的AI装上一个能够持续接收外界输入的身体，它确实可以像人类一样“活着”。

在通用领域，它可能就是一个懂得生活的成年人。

而在专业领域，它充其量只是一个会犯错的孩子。

你不能说它无用，因为它确实能完成许多任务；但你也不能完全放手不管，因为它犯错起来同样显得那么自然。

最后，我将简要介绍一下目前AI在一些专业领域的表现情况：

可以看出，AI在不同领域、不同子领域的具体能力各不相同。

这不也和人一样吗，哈哈。

第二部分提到的LLM，是底层能力。本部分将探讨Agent，即应用层。

当前，AI Agent被认为是开发者创业的绝佳方向之一。我也接触过许多优秀的项目，在此简单罗列一些我所见过的：

以上提到的都是专用Agent，即针对特定工作流的Agent。还有一类是通用Agent。这类Agent的代表，最热门的当属Manus，此外还有Reddit、Grok等。通用Agent通常不太适合个人开发者，这类项目多由大型平台主导，此处不作过多展开。

还有一种形式是开发Skill或MCP。

目前来看，Skill的开发者数量可能更多。Skill并非固定工作流，它更像是为LLM提供特定的能力和能力说明。这样，AI就可以利用这些Skill来完成某个工作流。

一些与Skill相关的网站：

说到这里，我自己也希望能找到志同道合的开发者一起合作开发项目。

即使不合作开发，能够认识并交流，也是非常好的。

希望感兴趣的朋友可以私信联系我。

我不知道“第三次工业革命”是否已成为普遍共识，但在我心中，它已经拉开了序幕。

我认为现在仅仅是开端。同时，我们也能看到，本轮AI的发展速度极其迅猛。称之为开端是恰当的，但若说它可能已步入中期，也并非全无道理。