AI 深度解析与读书新思
随后,AI 技术迎来两项关键突破,正式迈入深度神经网络阶段,即当下所谓的深度学习纪元。
首项突破在于深度神经网络架构的升级。早期神经网络多为单层、单向的简单构造,而深度神经网络引入了反馈与注意力机制,优化了底层逻辑。简言之,它不再局限于单一的输入输出,而是将部分中间结果反向回传至输入端,重新参与计算。
这一设计使原本仅具空间属性的网络,增添了时间维度。例如,词汇或句子的含义往往依赖上下文,早期简单网络难以捕捉此类关联,而深度学习模型能抓取前后文及中间过程信息,结合语境重新运算并迭代优化输出,这是神经网络的一次重大飞跃。
结构算法的革新,加之计算机算力的显著飞跃,为模型迭代训练提供了充足算力支撑,人工智能由此迎来爆发式增长。2012 年后,大语言模型正式崛起,海量书籍与文本资料,几乎囊括的文字知识,均成为模型训练的数据基石。
大模型的核心机制,本质上是一套概率模型。我以简易文本训练过程为例:假设训练样本为“我是姚丹亚,我来自清华大学”,系统输入“我”字,会基于海量数据统计,推算出下一个字概率最高为“是”,继而以此类推,依次推演后续文字。
海量文本样本将不断迭代,统计字词搭配的概率规律。当我们后续仅输入一个“我”字时,模型便能依托训练积累的概率数据,输出匹配度最高的后续内容。当然这是极简示例,实际模型单次输入的解析单元极多,经多层解析运算,最终输出完整、流畅的内容。
大语言模型成熟后,技术逐步延伸至图像处理领域。图像训练逻辑大体一致:将海量画作、图片拆解为无数小块,以前一块图像作输入、后一块作输出,反复训练模型。训练完毕后,即便只输入图片局部画面,模型也能依据概率逻辑,推理还原出完整画面,此即图像 AI 的核心训练逻辑。
文字、语音、图像,是目前 AI 最核心的三大信息载体。早期模型存在技术壁垒,无法跨场景转化,语音无法生成图片、图片亦无法生成视频。而后出现的多模态模型,彻底打破这一壁垒,成为当前应用最广泛的 AI 技术。它通过全新网络架构,实现语音转文字、文字转图像、图像转视频等跨场景内容生成。
但万变不离其宗,所有多模态技术的核心底层,仍是神经网络大模型。核心逻辑始终未变:依靠海量节点结构,依托大量数据与海量样本反复训练并优化参数,最终实现各类全新场景的应用输出。即便面对模型从未涉足的全新场景,它也能自主推演生成结果。
若从数学建模与系统原理层面总结,AI 本质是一套概率推演模型,依据已有内容,推算后续内容的出现概率。但其最大短板,在于缺乏人类独有的自主思考与创造性思维,这也是当前人工智能无法逾越的局限。以上便是 AI 最基础的核心原理与发展脉络。
接下来,我将结合自身专业方向,与大家分享人工智能在交通领域的实际应用。
首个案例,是图像识别在交通领域的目标检测。前文提及,我早期主要研究交通违章检测。众所周知,路面摄像头会完整记录车辆闯红灯的全过程。对人而言很简单,看一眼画面,见红灯亮、车过线,即可判定闯红灯。但计算机不同,它看到的是一帧帧独立的静态图片。
早期技术流程十分繁琐,需分步处理。第一步是图像分割。算法先识别画面中的静态背景,即路面、建筑物等固定景物。再用实时画面减去背景画面,进行差值运算,剩余部分即为动态目标。例如路面本为静态,车辆驶入后,减掉背景,剩下的便是车辆目标。
图像分割方法众多,前景背景分离、边缘检测等,皆依赖数学算法实现。分割完成后,进入第二步:目标识别。系统需判断提取出的目标究竟是什么,是人、机动车还是非机动车。计算机会依据目标的轮廓、大小、颜色、灰度等特征,区分不同物体,即先分割、再识别。
识别出目标后,我们再结合连续多帧画面做综合判断。第一帧,红灯亮起,车辆尚在停止线内;第二帧,红灯持续,车辆开始压线;第三帧,车辆完全越过停止线。通过红灯信号与连续三帧画面的变化,系统即可准确判定车辆闯红灯违章。
判定违章后,还需识别车牌,确认车辆身份。早期这项技术难度极大,因当时摄像机分辨率不高,远距离根本看不清车牌。故我们当时专门增设车道特写摄像头,对准车辆尾部、放大车牌区域,确保车牌清晰可辨。即便画面清晰,车牌识别流程依然复杂,同样需背景处理、字符分块提取,再对每个字符做模式识别,区分汉字、字母、数字,整个过程极为繁琐。这便是传统的交通目标检测技术。
进入人工智能时代,依托大型神经网络模型,整套流程变得简单高效。现今做法十分直接:我们将闯红灯视频流截取若干关键帧输入模型,无需人工拆解像素、拆解逻辑步骤,仅用海量样本反复训练。训练完成后,新视频流输入,模型即可直接判断是否存在闯红灯行为。
中间运算过程仍是所谓的“黑箱”,无需人为干预。这点与人类判断相似:我们看到车闯红灯,能直接得出结论,却说不清大脑内部具体如何运算。深度学习本质上就是在模拟人类这种直观判断的思维方式,将过去极复杂的分步逻辑,变为简单的端到端智能识别,效率极大提升。这是我讲述的第一个 AI 在交通领域的应用案例。
第二个案例,即当下极为火热的自动驾驶。大家在长沙湘江新区可见,“萝卜快跑”自动驾驶车辆已常态化运行,街头也常见无人物流车。自动驾驶主要有两条技术路线。
第一条是传统技术路线,分三步:感知、识别、规划与控制。首先是感知,通过车载摄像头采集前方完整路况信息。第二步是识别,系统分析画面,判断前方是车道、空路,还是有行人、障碍物。若前方车道通畅、无碍,车辆便正常行驶。识别完成后,第三步是规划与控制。依据路况判断需加速、减速还是变道,然后控制车辆执行。若识别到前方出现行人或障碍物,则紧急制动,立即停车。
但这套传统流程问题明显,感知、识别、规划每一环均存在不确定性,容错率低、落地难度大。故现今我们采用神经网络,运用端到端的全新控制方案。
所谓端到端,即去掉所有中间环节,不再拆分感知、识别、规划、决策、执行等步骤。模型输入仅为实时路况图像,输出直接为车辆控制指令:加速、刹车、左转、右转,中间全部由神经网络自主完成运算。
该模型主要依靠海量人类真实驾驶数据训练。人在驾驶时,车辆同步记录前方画面与驾驶员的每一个操作:遇何画面踩刹车、遇何画面打方向、何时加速、何时变道。大量“场景图像 + 人类操作”的数据,不断训练神经网络。模型训练成熟后装车使用,输入画面,直接输出控制动作,效果极佳。
在全球范围内,特斯拉是最早落地、也将端到端模型做得最成熟的企业。特斯拉保有量巨大,每辆车夜间停放时,都会向后台上传大量驾驶数据。后台会进行并行仿真训练:让模型根据画面自行预判操作,再与人类驾驶员的真实操作对比。若模型判断与人的合理操作不一致,系统便会记录这批特殊样本,用以迭代优化模型,使自动驾驶操控更贴合人类最优驾驶习惯,稳定性持续提升。
当然,端到端模型也有明显短板,即典型的黑箱问题。车辆为何突然刹车、为何突然转向,缺乏明确、可解释的逻辑,这也是大家使用时感到不安的原因。
目前行业内有一个公认结论:人类驾驶加智能辅助的人机共驾模式,安全性高于纯人工驾驶。但完全无人、纯自动驾驶的安全水平,与人类成熟驾驶相比,仍存在数量级差距。
我长期研究自动驾驶,高度认可该技术价值,亦希望其能更好服务社会。但大家日常用车务必注意,切勿将生命安全完全托付给自动驾驶。目前模型所见场景有限,仍有大量极限场景、小众场景未充分训练。同时各家企业数据与模型不互通,不同品牌自动驾驶水平差异巨大。即便是特斯拉、国内著名品牌等顶尖系统,仍存在诸多无法处理的极限场景,即行业所谓的“边角案例”。此类场景概率极低,可能一生遇不到,但一旦遭遇,往往酿成重大事故。故现阶段,自动驾驶仅能做辅助,核心安全与主体操控,务必依靠人。
最后,结合今日读书主题,我谈一点个人体会与展望,聊聊人工智能、机器人及智能集成技术的发展,究竟会给人类带来什么。
我的基本判断是:人工智能将持续普及,逐步替代大量重复性人类劳动。随之而来的是社会生产力大幅提升、物质资源极大丰富。这一切的前提,是能源技术的突破。我国当前光伏等非化石能源快速发展,能源瓶颈逐步突破后,社会物质富足将成为大趋势。未来人们的基本生活保障不再困难,公共服务与基础资源也将越来越普惠、越来越免费。
生产力极大解放、物质极大丰富,与我们追求的共产主义社会愿景高度契合,未来劳动也将慢慢回归人的自主需求。但这便引出一个问题:AI 日益强大之后,人究竟做什么?
当前所有人工智能模型,本质皆为数据驱动。模型习得的所有知识,全部源自人类。目前书本上所有可文字化、标准化的知识,基本已被大模型收录学习。但是,人类大脑中大量隐性经验、直觉、感悟和灵感,无法用文字完整描述,这部分内容是 AI 学不到、替代不了的。
这也是 AI 最大的局限,同时也是一把双刃剑。现今许多 AI 训练,会用 AI 自身生成的内容反复迭代,看似模型日益完善,实则是在原有知识体系内循环推演,很难产生真正的原创与颠覆式创新。
真正的原创创新,只能依靠人类。而创新的根本途径,在于学习、读书。在人工智能时代,读书学习需兼顾两个维度。
第一是知识广度。如今我们可借助豆包等 AI 工具,快速获取海量知识、拓宽视野。但 AI 存在幻觉问题,会生成虚假、错误信息,需要我们自身具备辨别和筛选能力。
第二是知识深度。真正的核心创新,源于深耕与扎根。在拥有广博知识面的基础上,我们要在自己感兴趣、擅长的领域沉下去,做深做透。
以广博的跨界视野,加上单一领域的深度积累,通过跨学科融合碰撞,我们便能突破 AI 的知识闭环,产生机器无法生成的新思路、新方法、新知识。这也是未来人类面对 AI 时代,最核心的价值与发展方向。