AI 深度解析与读书新思

发布时间：2026-06-22 06:46阅读：2

随后，AI 技术迎来两项关键突破，正式迈入深度神经网络阶段，即当下所谓的深度学习纪元。

首项突破在于深度神经网络架构的升级。早期神经网络多为单层、单向的简单构造，而深度神经网络引入了反馈与注意力机制，优化了底层逻辑。简言之，它不再局限于单一的输入输出，而是将部分中间结果反向回传至输入端，重新参与计算。

这一设计使原本仅具空间属性的网络，增添了时间维度。例如，词汇或句子的含义往往依赖上下文，早期简单网络难以捕捉此类关联，而深度学习模型能抓取前后文及中间过程信息，结合语境重新运算并迭代优化输出，这是神经网络的一次重大飞跃。

结构算法的革新，加之计算机算力的显著飞跃，为模型迭代训练提供了充足算力支撑，人工智能由此迎来爆发式增长。2012 年后，大语言模型正式崛起，海量书籍与文本资料，几乎囊括的文字知识，均成为模型训练的数据基石。

大模型的核心机制，本质上是一套概率模型。我以简易文本训练过程为例：假设训练样本为“我是姚丹亚，我来自清华大学”，系统输入“我”字，会基于海量数据统计，推算出下一个字概率最高为“是”，继而以此类推，依次推演后续文字。

海量文本样本将不断迭代，统计字词搭配的概率规律。当我们后续仅输入一个“我”字时，模型便能依托训练积累的概率数据，输出匹配度最高的后续内容。当然这是极简示例，实际模型单次输入的解析单元极多，经多层解析运算，最终输出完整、流畅的内容。

大语言模型成熟后，技术逐步延伸至图像处理领域。图像训练逻辑大体一致：将海量画作、图片拆解为无数小块，以前一块图像作输入、后一块作输出，反复训练模型。训练完毕后，即便只输入图片局部画面，模型也能依据概率逻辑，推理还原出完整画面，此即图像 AI 的核心训练逻辑。

文字、语音、图像，是目前 AI 最核心的三大信息载体。早期模型存在技术壁垒，无法跨场景转化，语音无法生成图片、图片亦无法生成视频。而后出现的多模态模型，彻底打破这一壁垒，成为当前应用最广泛的 AI 技术。它通过全新网络架构，实现语音转文字、文字转图像、图像转视频等跨场景内容生成。

但万变不离其宗，所有多模态技术的核心底层，仍是神经网络大模型。核心逻辑始终未变：依靠海量节点结构，依托大量数据与海量样本反复训练并优化参数，最终实现各类全新场景的应用输出。即便面对模型从未涉足的全新场景，它也能自主推演生成结果。

若从数学建模与系统原理层面总结，AI 本质是一套概率推演模型，依据已有内容，推算后续内容的出现概率。但其最大短板，在于缺乏人类独有的自主思考与创造性思维，这也是当前人工智能无法逾越的局限。以上便是 AI 最基础的核心原理与发展脉络。

接下来，我将结合自身专业方向，与大家分享人工智能在交通领域的实际应用。

首个案例，是图像识别在交通领域的目标检测。前文提及，我早期主要研究交通违章检测。众所周知，路面摄像头会完整记录车辆闯红灯的全过程。对人而言很简单，看一眼画面，见红灯亮、车过线，即可判定闯红灯。但计算机不同，它看到的是一帧帧独立的静态图片。

早期技术流程十分繁琐，需分步处理。第一步是图像分割。算法先识别画面中的静态背景，即路面、建筑物等固定景物。再用实时画面减去背景画面，进行差值运算，剩余部分即为动态目标。例如路面本为静态，车辆驶入后，减掉背景，剩下的便是车辆目标。

图像分割方法众多，前景背景分离、边缘检测等，皆依赖数学算法实现。分割完成后，进入第二步：目标识别。系统需判断提取出的目标究竟是什么，是人、机动车还是非机动车。计算机会依据目标的轮廓、大小、颜色、灰度等特征，区分不同物体，即先分割、再识别。

识别出目标后，我们再结合连续多帧画面做综合判断。第一帧，红灯亮起，车辆尚在停止线内；第二帧，红灯持续，车辆开始压线；第三帧，车辆完全越过停止线。通过红灯信号与连续三帧画面的变化，系统即可准确判定车辆闯红灯违章。

判定违章后，还需识别车牌，确认车辆身份。早期这项技术难度极大，因当时摄像机分辨率不高，远距离根本看不清车牌。故我们当时专门增设车道特写摄像头，对准车辆尾部、放大车牌区域，确保车牌清晰可辨。即便画面清晰，车牌识别流程依然复杂，同样需背景处理、字符分块提取，再对每个字符做模式识别，区分汉字、字母、数字，整个过程极为繁琐。这便是传统的交通目标检测技术。

进入人工智能时代，依托大型神经网络模型，整套流程变得简单高效。现今做法十分直接：我们将闯红灯视频流截取若干关键帧输入模型，无需人工拆解像素、拆解逻辑步骤，仅用海量样本反复训练。训练完成后，新视频流输入，模型即可直接判断是否存在闯红灯行为。

中间运算过程仍是所谓的“黑箱”，无需人为干预。这点与人类判断相似：我们看到车闯红灯，能直接得出结论，却说不清大脑内部具体如何运算。深度学习本质上就是在模拟人类这种直观判断的思维方式，将过去极复杂的分步逻辑，变为简单的端到端智能识别，效率极大提升。这是我讲述的第一个 AI 在交通领域的应用案例。

第二个案例，即当下极为火热的自动驾驶。大家在长沙湘江新区可见，“萝卜快跑”自动驾驶车辆已常态化运行，街头也常见无人物流车。自动驾驶主要有两条技术路线。

第一条是传统技术路线，分三步：感知、识别、规划与控制。首先是感知，通过车载摄像头采集前方完整路况信息。第二步是识别，系统分析画面，判断前方是车道、空路，还是有行人、障碍物。若前方车道通畅、无碍，车辆便正常行驶。识别完成后，第三步是规划与控制。依据路况判断需加速、减速还是变道，然后控制车辆执行。若识别到前方出现行人或障碍物，则紧急制动，立即停车。

但这套传统流程问题明显，感知、识别、规划每一环均存在不确定性，容错率低、落地难度大。故现今我们采用神经网络，运用端到端的全新控制方案。

所谓端到端，即去掉所有中间环节，不再拆分感知、识别、规划、决策、执行等步骤。模型输入仅为实时路况图像，输出直接为车辆控制指令：加速、刹车、左转、右转，中间全部由神经网络自主完成运算。

该模型主要依靠海量人类真实驾驶数据训练。人在驾驶时，车辆同步记录前方画面与驾驶员的每一个操作：遇何画面踩刹车、遇何画面打方向、何时加速、何时变道。大量“场景图像 + 人类操作”的数据，不断训练神经网络。模型训练成熟后装车使用，输入画面，直接输出控制动作，效果极佳。

在全球范围内，特斯拉是最早落地、也将端到端模型做得最成熟的企业。特斯拉保有量巨大，每辆车夜间停放时，都会向后台上传大量驾驶数据。后台会进行并行仿真训练：让模型根据画面自行预判操作，再与人类驾驶员的真实操作对比。若模型判断与人的合理操作不一致，系统便会记录这批特殊样本，用以迭代优化模型，使自动驾驶操控更贴合人类最优驾驶习惯，稳定性持续提升。

当然，端到端模型也有明显短板，即典型的黑箱问题。车辆为何突然刹车、为何突然转向，缺乏明确、可解释的逻辑，这也是大家使用时感到不安的原因。

目前行业内有一个公认结论：人类驾驶加智能辅助的人机共驾模式，安全性高于纯人工驾驶。但完全无人、纯自动驾驶的安全水平，与人类成熟驾驶相比，仍存在数量级差距。

我长期研究自动驾驶，高度认可该技术价值，亦希望其能更好服务社会。但大家日常用车务必注意，切勿将生命安全完全托付给自动驾驶。目前模型所见场景有限，仍有大量极限场景、小众场景未充分训练。同时各家企业数据与模型不互通，不同品牌自动驾驶水平差异巨大。即便是特斯拉、国内著名品牌等顶尖系统，仍存在诸多无法处理的极限场景，即行业所谓的“边角案例”。此类场景概率极低，可能一生遇不到，但一旦遭遇，往往酿成重大事故。故现阶段，自动驾驶仅能做辅助，核心安全与主体操控，务必依靠人。

最后，结合今日读书主题，我谈一点个人体会与展望，聊聊人工智能、机器人及智能集成技术的发展，究竟会给人类带来什么。

我的基本判断是：人工智能将持续普及，逐步替代大量重复性人类劳动。随之而来的是社会生产力大幅提升、物质资源极大丰富。这一切的前提，是能源技术的突破。我国当前光伏等非化石能源快速发展，能源瓶颈逐步突破后，社会物质富足将成为大趋势。未来人们的基本生活保障不再困难，公共服务与基础资源也将越来越普惠、越来越免费。

生产力极大解放、物质极大丰富，与我们追求的共产主义社会愿景高度契合，未来劳动也将慢慢回归人的自主需求。但这便引出一个问题：AI 日益强大之后，人究竟做什么？

当前所有人工智能模型，本质皆为数据驱动。模型习得的所有知识，全部源自人类。目前书本上所有可文字化、标准化的知识，基本已被大模型收录学习。但是，人类大脑中大量隐性经验、直觉、感悟和灵感，无法用文字完整描述，这部分内容是 AI 学不到、替代不了的。

这也是 AI 最大的局限，同时也是一把双刃剑。现今许多 AI 训练，会用 AI 自身生成的内容反复迭代，看似模型日益完善，实则是在原有知识体系内循环推演，很难产生真正的原创与颠覆式创新。

真正的原创创新，只能依靠人类。而创新的根本途径，在于学习、读书。在人工智能时代，读书学习需兼顾两个维度。

第一是知识广度。如今我们可借助豆包等 AI 工具，快速获取海量知识、拓宽视野。但 AI 存在幻觉问题，会生成虚假、错误信息，需要我们自身具备辨别和筛选能力。

第二是知识深度。真正的核心创新，源于深耕与扎根。在拥有广博知识面的基础上，我们要在自己感兴趣、擅长的领域沉下去，做深做透。

以广博的跨界视野，加上单一领域的深度积累，通过跨学科融合碰撞，我们便能突破 AI 的知识闭环，产生机器无法生成的新思路、新方法、新知识。这也是未来人类面对 AI 时代，最核心的价值与发展方向。

← 上一篇：AI日报：今日热点速览下一篇：AI前沿突破：循环模型、说服力超越、物理智能新范式 →