标签

程序员视角下的AI发展历程与未来展望

发布时间:2026-05-08 12:04来源:微信阅读:6

这篇文章的构思已久,内容十分丰富。

我想随意分享一下我近几年在AI领域的探索、体验以及观察到的生态变化,并夹杂一些个人对未来的期许。

这并非一份严谨的行业分析报告,更多的是我作为一个程序员,对这段时期技术发展和应用实践的阶段性总结。其中不少观点或许有待商榷,但均源自我真实的实践和感受。

本篇内容,将首先从我个人的程序员视角切入。

从技术角度讲,大型语言模型(LLM)并非2022年才横空出世。若要追溯其源头,2017年6月12日Google发布的《Attention Is All You Need》论文,提出了Transformer架构,这被普遍认为是当前这波大模型浪潮的真正起点。

此后,2018年的GPT-1和BERT,2019年的GPT-2,以及2020年的GPT-3,都标志着模型能力的逐步提升。然而,坦白说,在ChatGPT问世之前,这些技术对于绝大多数普通程序员而言,仍显得有些遥远。我们知道它们强大,但更多的是存在于学术论文、技术演示、API接口和行业新闻中,距离真正改变日常工作流程还有一段距离。

真正将这一技术推到所有人面前的,是2022年11月30日发布的ChatGPT。

我初次接触LLM,便是通过ChatGPT。那时的体验堪称震撼。它不仅能进行流畅的对话,还能编写、修改、解释代码,撰写邮件、文案,进行翻译、总结,甚至还能一本正经地“胡说八道”。

这让我第一次深刻体会到:“自然语言”确实有可能演变成一种全新的操作系统交互入口。

作为一名程序员,我的工作方式也自那时起发生了转变。

过去,遇到技术难题,我习惯于在Google、Bing等传统搜索引擎上查找资料、翻阅文档、浏览Stack Overflow,然后自行编写、调试代码。而现在,我更多的是直接向LLM提问,让它生成代码,然后复制到IDE中进行修改、运行和验证。

起初,这主要是一种“复制粘贴”的模式。

提出问题,复制它生成的代码;遇到错误,将错误信息反馈回去;它再进行修改,我再运行。现在回想起来,这种方式显得颇为原始,但当时已足够令人惊叹。因为它首次将“信息检索”、“理解需求”和“代码编写”这几个步骤整合到了一起。

2023年3月14日,GPT-4和Claude相继进入大众视野。GPT-4让人们开始将LLM视为生产力工具而非单纯的娱乐玩具;而Claude给我的第一印象是其超长的上下文处理能力、舒适的阅读体验,以及强大的代码能力,尤其在编程方面表现突出。

国内的AI模型也在2023年迎来集中爆发。文心一言、通义千问、ChatGLM、Kimi、DeepSeek等产品陆续亮相。尽管早期国内模型的表现略显粗糙,但随着Kimi在长文本处理上的突破,以及DeepSeek在性价比和代码能力上的优势显现,国内模型生态才逐渐成型。

进入2024年,模型间的竞争愈发激烈。GPT-4o、Claude 3.5 Sonnet、Gemini 2.0、DeepSeek-V3等模型不断涌现。特别是Claude 3.5 Sonnet,对于许多程序员而言意义重大,它在编码体验上的卓越表现,一度让我感觉AI在代码生成领域的应用已经真正进入了实用阶段。

2025年至2026年,则可能进入“高速迭代期”。DeepSeek-R1重新点燃了推理模型、开源路线和低成本训练的热情;OpenAI持续推出GPT-5系列(GPT-5、5.1、5.2、5.5);Anthropic迭代至Claude 4.x;Google发布Gemini 2.5和Gemini 3;国内厂商如DeepSeek、Qwen、Kimi、GLM也在各自领域寻找突破。

简要梳理发展主线,大致如下:

我认为,LLM的发展并非仅仅是模型规模的增大和参数量的增加。

对用户而言,更关键的变化在于:它已经从一个“只能聊天的网页应用”,蜕变为一个“能够调用工具、读取文件、修改代码、执行命令、完成任务”的强大助手。

这才是最核心的演进。

模型的强大能力是一层,产品形态是另一层,而工作流程的革新又是更深一层。仅仅关注模型排行榜,无法全面理解整个故事。

例如,同一个模型,置于网页界面就是聊天机器人;集成到IDE中就成为编程助手;部署在命令行就是开发Agent;若能连接浏览器和文件系统,它便能扮演一个能处理事务的数字员工。

回望过去几年,这无疑是程序员生产力工具快速革新的时期。

从搜索引擎,到聊天界面;从聊天界面,到集成开发环境(IDE);从IDE,到命令行Agent;再到各类专用Agent和自动化工作流。

这条发展轨迹非常清晰:AI起初只是辅助回答问题,随后开始协助生成内容,最终发展到能够执行具体任务。

我后续将要探讨的许多内容,包括AI IDE、命令行工具、免费使用策略、Agent应用以及未来发展趋势,本质上都围绕着这条主线展开。

最早接触的免费AI项目是Cursor,当时并未意识到这背后可能隐藏着一条复杂的黑/灰产链。通过白嫖Cursor,我接触并学习了以下技术知识:

随后,我如法炮制,尝试并使用了Augment、WindSurf、Kiro等一系列AI IDE。

AI IDE的使用体验确实非常流畅。尽管当前许多人转向使用命令行工具(CLI),但从实际体验来看,Cursor在代码审计、子Agent编排、提示词(Prompt)及技能(Skill)、MCP(可能指某种模型或协议)的管理等方面,仍远优于CLI。当然,这属于个人偏好,尽管我现在也转向了CLI。

很快,Claude Code问世,我身边的许多朋友都转用了它。同时,Cursor的免费版本限制了高级模型的使用,这促使我也转向了Claude Code。不得不承认,当时的Sonnet 3.5在性能上确实具有划时代的领先优势。Claude Code的免费使用主要依赖于一些公益站点,这些站点多采用反向代理技术连接antigravity和kiro。然而,随着AI公司收紧政策,antigravity和kiro遭到大规模封禁后,这些工具的使用逐渐减少,目前仅剩anyrouter尚可使用。在此过程中,我学会了反向代理技术。

这部分内容不那么重要,核心是Codex。这是我想重点提及的。我使用Claude Code的总时长并不算长,加之某些地区AI政策的限制,我对部分服务产生了负面看法。相反,OpenAI的慷慨(此处可能为反讽)则不同。在此过程中,我学习到了以下技术:

OpenAI针对免费账户引入了“添加手机号”的验证机制,随后取消了团队版月度试用,并且大量拒绝了PayPal支付方式。如今,可能只有印度尼西亚地区的GoPay仍是公开可用的支付方案。

付费账户的“白嫖”主要集中在AI服务和云主机方面。AI服务包括Gemini Pro的学生认证、GPT K12教师认证,以及Grok的亚马逊支付回调漏洞等。服务器云主机则涉及AWS试用、甲骨文服务器等。目前,只有财力雄厚的谷歌和Grok仍在提供相对宽松的政策。OpenAI似乎已经被用户“薅”得够呛。此外,通过教育邮箱也能获得其他一些服务,例如Cursor的教育认证、Figma的教育认证等。有兴趣的朋友可以访问https://studentdiscounts-43kxjpre.manus.space/,这是一个由L站一位用户制作的资源汇总网站。

时至今日,想免费使用AI服务已变得愈发困难。各大厂商基本都提供了长达三年的免费使用期,这已经相当不错了。相比之下,国内厂商起步较晚,在DeepSeek走红后才逐渐有了起色。早期的文心一言、科大讯飞等产品,现在已鲜为人知。而如今备受关注的GLM、Kimi,当初也并未引起广泛关注。然而,起步晚并非意味着价格低廉,反而价格一路飙升。就连豆包也开始考虑收费模式。我早期开通的老用户套餐,如今已被告知不再承认。是的,我说的就是Z(此处可能指代某个国内AI服务提供商)。Z(该厂商)似乎正试图与A(此处可能指代某个国外AI服务提供商)一较高下,看看到底是字母表开头的更“畜生”,还是字母表结尾的更“畜生”。

言归正传,LLM发展至今,就像当年的滴滴打车、外卖大战。它们首先让你养成使用习惯,让你对AI产生“瘾”,这种“瘾”源于AI带来的便利、爽快和效率的提升。一旦你真正依赖上,就很难摆脱,最终不得不付费使用。就像我一样。

从我个人和身边朋友的使用情况来看,目前的AI,除了没有实体,在智能方面已经接近人类。

但这有一个前提:提出的问题不能过于复杂或曲折,最好是基于通用知识。

LLM的本质在于预测序列中的下一个词,其输出结果是概率最高的那一个。所谓的“回答”,本质上是概率分布中的一条高概率路径。

我们考虑两个问题:

显而易见,对于AI而言,第二个问题不可能回答错误。因为在中国首都就是北京这一事实,在任何语料中都是一致的答案。该输出词的概率几乎可以视为100%。

然而,第一个问题则有所不同。

在模型的训练语料中,可能不存在完全相同的句子。这意味着,对于模型而言,“要”和“不要”都有可能成为高概率答案。它需要进一步理解“洗车”这个动作背后的隐含条件:你不是要去洗人,而是洗车,所以理应把车开过去。

再考虑到逻辑推理,推理的本质也是概率,只不过是展开后的概率路径。它将原本的A -> B,转化为A -> C -> B。

但在一个完全未训练或语料覆盖不足的环境下,模型回答不准确的概率依然很高。这恰恰体现了高质量模型的重要性。优质模型插入的C路径更为合理,从而大幅增加了最终输出正确B的概率。

那么,回到我最初的论点:什么是不绕的、通用知识?

实际上,就是通用语料,或者说是干扰项较少的语料。也就是说,涵盖日常生活、通用信息、基础常识等非专业领域的数据。

对于普通大众而言,目前市面上主流的AI模型,在处理日常生活、日常问答、基础解释等场景时,已经完全足够。当下任何一款最新的模型,都能够替代过去许多工具,其中最常见的便是搜索引擎。

我身边一些非IT行业的朋友,现在搜东西基本都在用豆包。

换言之,在通用领域,AI给出的答案,我们可以有99%的信任度。

当然,这里的“信任”并非指完全无需验证,而是说它已经足以成为普通人的首要信息获取入口。

这里以编程为例。

目前AI行业发展最迅猛的两个方向,一个是编码,另一个是短视频。

然而,尽管有大量报道称:编码任务可以连续运行一周,能够修复各种老旧bug和漏洞,能够启动100000个子Agent持续进行PR审查和合并,但实际情况究竟如何呢?

纯属夸大其词。

正如我在前文所述,LLM的本质是概率输出。尽管目前LLM的上下文窗口已扩展至1M,但在实际编码过程中,我很少会用到满1M的容量。

原因何在?

因为上下文遗忘的问题根本没有得到根本解决。

在实际编码中,我遇到的主要问题包括:

一时之间想不出更多了。实际上,真实编码过程中还有许多其他问题,但主要能想到的就是上述几点。

其根本原因主要有两个:

一个是上下文长度和记忆问题;另一个是LLM本身并非确定性状态机,而是一个概率化的序列推断系统。所谓的“智慧”,不过是局部算法结构与类推理行为组合而成的表现。

综上所述,我想强调的是:在专业领域,AI给出的答案,我们只能有80%的信任度。

剩余的20%,必须由人工进行审核、测试和兜底。

为什么我之前说,除了没有实体,AI的“脑子”已经和人差不多了?

因为如果你给现在的AI装上一个能够持续接收外界输入的身体,它确实可以像人类一样“活着”。

在通用领域,它可能就是一个懂得生活的成年人。

而在专业领域,它充其量只是一个会犯错的孩子。

你不能说它无用,因为它确实能完成许多任务;但你也不能完全放手不管,因为它犯错起来同样显得那么自然。

最后,我将简要介绍一下目前AI在一些专业领域的表现情况:

可以看出,AI在不同领域、不同子领域的具体能力各不相同。

这不也和人一样吗,哈哈。

第二部分提到的LLM,是底层能力。本部分将探讨Agent,即应用层。

当前,AI Agent被认为是开发者创业的绝佳方向之一。我也接触过许多优秀的项目,在此简单罗列一些我所见过的:

以上提到的都是专用Agent,即针对特定工作流的Agent。还有一类是通用Agent。这类Agent的代表,最热门的当属Manus,此外还有Reddit、Grok等。通用Agent通常不太适合个人开发者,这类项目多由大型平台主导,此处不作过多展开。

还有一种形式是开发Skill或MCP。

目前来看,Skill的开发者数量可能更多。Skill并非固定工作流,它更像是为LLM提供特定的能力和能力说明。这样,AI就可以利用这些Skill来完成某个工作流。

一些与Skill相关的网站:

说到这里,我自己也希望能找到志同道合的开发者一起合作开发项目。

即使不合作开发,能够认识并交流,也是非常好的。

希望感兴趣的朋友可以私信联系我。

我不知道“第三次工业革命”是否已成为普遍共识,但在我心中,它已经拉开了序幕。

我认为现在仅仅是开端。同时,我们也能看到,本轮AI的发展速度极其迅猛。称之为开端是恰当的,但若说它可能已步入中期,也并非全无道理。

最近看到一句话:

短期瓶颈在于算力,中期瓶颈在于能源,长期瓶颈在于存储。

目前来看,各家大模型的能力差距已不再是决定性因素。真正显著的制约,实际上在于算力。只有出现更强大的算力,才能支撑AI实现进一步的突破。当然,算法优化、降低算力消耗也是一条可行的路径。

在我看来,国内几家公司在疯狂地对国外模型进行“蒸馏”(知识提炼);而国外模型的发展似乎也遇到了瓶颈,结果又转而“蒸馏”国内模型。在相互“蒸馏”的过程中,实际的进步空间已经不大。再加上可用于训练的语料也基本被消耗殆尽,因此我的判断是:LLM的发展可能会进入一个相对的瓶颈期。

这个瓶颈期可能持续数月,也可能以年计。

然而,这并不重要。

重要的是应用层面,即我们如何利用LLM开发出优秀的产品。

底层模型已经就位,无论如何发展,总是向上的。应用层面只需更换模型,产品功能依然能够运行。

我的理想状态是:当下IT行业的所有工作流程,都能被AI工作流程所取代。

初期,可以采用固化工作流结合LLM介入引导的方式;后续再逐渐演变为纯粹的LLM工作流,由LLM自主进行推断和决策。

上述设想涵盖了IT领域的实现工作流,包括软件和硬件两大部分。软件方面主要是办公类应用;硬件则涉及制造业、机器人控制等领域。我认为这些都可以逐步被AI所替代。

那么,发展到最终阶段,人类的定位和能够从事的工作又是什么呢?

在当前阶段,我认为以下两项工作是人类应该承担的:

要成为一名合格的监督者,就需要你精通自己所属行业的业务,精通自己所处的领域。

只有这样,你才能有效地监督AI的工作。

如果你自己都不了解,就无从谈论监督了。

刚开始写作时,我原本想表达的内容非常多。

但随着写作的进行,内容逐渐精炼;随后又删减了一些;最终形成了现在的篇幅。

不过这次是纯手工敲打完成的,确实累了,哈哈。

后续若有新的想法,我会继续更新这篇文章,将其作为置顶内容。

我一定会坚持后续更新!!!

这是最好的时代,也是最坏的时代。

希望每个人都能在这时代浪潮中分得一杯羹。