AI演进史下篇:从符号博弈到数据驱动
承接前文:一起学AI之:人工智能简史(上)
前文提及,在第二次AI寒冬阶段,以神经网络为基石的“连接主义”实现了学术层面的突破性进展,并逐渐被社会公众所接纳。
与此同时,长期以逻辑推导和规则设定为核心的“符号主义”,其局限性日益暴露,逐步失去了在人工智能领域的话语权。
事实上,在此之前还有一种思想流派长期隐于幕后,保持沉默;那便是:“行为主义”。
“行为主义”的核心主张是:“智能即行为”。该流派不执着于探究“智能如何产生”,而是聚焦于“如何行动”以及在外部环境中表现出何种行为才算具备智能。
这一学派的哲学根基最早可追溯至人工智能诞生之前,即1913年的心理学行为主义理论。
鉴于当时“符号主义”与“连接主义”始终在探讨“人工智能应当如何思考”,而“行为主义”则专注于“人工智能应当如何行动”,导致其初期被学术界排除在AI范畴之外。尽管这种思想贯穿了整个AI发展史(甚至更久),却长期鲜为人知。
(1950年,格雷・沃尔特发明的“乌龟机器人”)
直至1991年(第二次AI寒冬期间),AI领域爆发了一场后世称为“人工智能大辩论”的思想交锋。
这并非一次正式会议,而是一场持续的学术争鸣:传统符号主义是否仍能代表AI?连接主义与行为主义是否应被纳入AI主流体系?
这场论战之后,人们通常将AI的思想脉络概括为三大流派:符号主义、连接主义、行为主义。
让我们再次审视人工智能这三大流派的核心主张:
第二次AI寒冬过后,业界终于意识到“无法再将人类知识逐一录入机器”;“专家系统”的挫败已证明:“现实世界过于复杂,规则根本无法穷尽”。
此外,真实世界并非如“符号主义”中的符号那样非黑即白,而是在99%的情况下处于黑白之间的灰色地带。
“可能、大概率、相似、相关”才是真实世界的常态,人们发现:“统计学似乎更擅长处理此类模糊问题”,且在现实中只需达到相对准确即可。
于是,AI学术界开始转换思路:
“不再向机器灌输具体规则,而是提供海量数据,让机器自行统计并从中发现规律”。
这便是统计机器学习时代(1995年 ~ 2012年)。
然而,任何事物消亡前往往会有回光返照,“符号主义”亦是如此。
1997年,在统计机器学习初期,IBM公司的超级计算机“深蓝”(Deep Blue)击败了当时的国际象棋世界冠军加里・卡斯帕罗夫,成为历史上首台在标准锦标赛规则下战胜卫冕冠军的计算机系统。
这一事件被视作人工智能发展史上的里程碑,引发了全球范围内对机器智能的广泛热议,那一刻人们以为真正的智能已然诞生!
赛后情绪激动的卡斯帕罗夫要求IBM公开深蓝的系统日志,遭IBM拒绝,且不久后深蓝即被拆解。
原来,深蓝获胜的秘诀并非源于“智能”,而是纯粹的“暴力枚举”:
深蓝配备了480颗专为国际象棋设计的芯片,每颗芯片每秒可独立评估约400万个棋局位置,整个系统总计算速度达每秒2亿个位置,系统会根据当前局势向后推演十余步进行计算,最终得出最优解;
此外,系统还收录了现实中所有的残局数据,以供推演使用。
“深蓝”(Deep Blue)是“符号主义”最后的辉煌时刻,此后,“符号主义”开始逐渐淡出AI的主导舞台(统治时期可参考:一起学AI之:人工智能简史(上))。
但“符号主义”绝非“退场”,其所代表的规则与逻辑思想,已逐渐下沉并融合至AI领域的各个细微环节;
AI世界也不再由某一种“主义”独霸舞台,而是进入了多条路线相互吸收、彼此融合的新纪元。
1995年,俄罗斯统计学家弗拉基米尔・瓦普尼克 (Vladimir Vapnik) 等人正式提出了完整的支持向量机 (Support Vector Machine) 算法(简称SVM),标志着统计机器学习时代的正式开启。
首先,何为机器学习?
许多人认为机器学习是高不可攀的“人工智能”,与统计学无关。实则恰恰相反——所有传统机器学习算法,本质上是统计学家发明的、运行于计算机上的“统计推断工具”。
机器学习 = 统计学的“计算机版”
统计学的核心是什么?
从有限的、已知的“样本数据”中,提炼出一条可靠的“规律”,再利用该规律预测无限的、未知的“新数据”。
机器学习所做的正是此事。SVM(支持向量机)便是当时公认的“最可靠”的找规律方法。
该算法的核心逻辑其实非常简单:
例如桌上摆放着一堆苹果和一堆橘子。
以往的专家系统会这样制定规则:
随后,若再来一个水果,便依据规则进行归类。
但SVM并非如此操作。
SVM会直接观察大量已标记的苹果与橘子样本,然后在两堆样本间绘制一条分界线,尽可能将苹果与橘子区分开来。
SVM“划线”的原则,即SVM算法的核心理念:绘制一条距离两个“最近样本”间隔最远的线。
它不关心“苹果的本质是什么”,也不试图模拟人类思考。它只关注一件事:
这听起来不如专家系统那般“智能”,但在当时极为有效。
因为它规避了一个大坑:
但是,人们多了一项任务:“提前标记数据”。需预先告知计算机:“哪些是苹果、哪些是橘子”。
SVM问世后,在学术界引发巨大震动,一夜成名,成为当时学术界机器学习的唯一标准答案!但商业领域尚未大规模应用。
仅有SVM算法所属公司、美国通信巨头AT&T将其用于垃圾邮件处理,且取得了极佳效果,错误率仅为2.0-2.2%。
转机出现在2001年。
台湾大学林智仁 (Chih-Jen Lin) 教授团队发布了针对SVM算法的开源库(“Library for Support Vector Machines”),即LIBSVM。
官方网址:
https://www.csie.ntu.edu.tw/~cjlin/libsvm
github地址:
https://github.com/cjlin1/libsvm
拥有此库,仿佛获得了一把钥匙,瞬间打开了商业化落地的大门。此后,几乎所有科技公司开始在各领域广泛采用SVM算法:垃圾邮件识别、文本分类、生物信息分类、搜索排序……
尽管SVM算法取得了巨大成功,但其本质仍只是一个分类算法。它无法自行理解图片、文字、声音的含义,而是需要人类先将原始数据加工成一组“特征”,再交给SVM模型进行判断。
这其中其实仍残留着些许“符号主义”的影子。
例如在进行垃圾邮件识别时,SVM并非直接阅读邮件,而是由工程师预先设计一系列特征:
随后SVM再依据这些特征,将邮件划分为“正常邮件”与“垃圾邮件”。
再如人脸识别或图像分类,机器在拥有SVM算法后,也并非像人一样直接“看懂”一张脸。工程师通常需在算法预处理后,提取边缘、角点、纹理、颜色分布、局部形状等特征,最后再由SVM算法判断是否为人脸或特定物体。
文本分类亦是如此。机器并非天生理解文章内容,而是先将文章转化为词频、关键词、TF-IDF向量等特征,再交由SVM算法判断文章属于体育、财经、科技还是娱乐。
因此,以SVM为核心的统计机器学习相比专家系统已迈进一大步:它无需人类将每条判断规则写死,而是能根据数据自行学习分类边界。
但它尚未真正摆脱人工干预,人类只是转换了工作方式:从“编写规则”转变为“做标注、整理样本、提取特征”。
当然,SVM并非统计机器学习时代唯一的主角;朴素贝叶斯、AdaBoost、随机森林、GBDT和CRF等算法在模型的推理与训练中亦被频繁使用。
在此期间,最重要的是总结出一整套“从数据中寻找规律”的方法:
以上即为传统机器学习的训练方法。
在这一时期,由“连接主义”主导的神经网络也取得了显著进展。
1998年,同样在AT&T的贝尔实验室,杨立昆(Yann LeCun)发表了论文:《Gradient-Based Learning Applied to Document Recognition》(基于梯度的学习方法及其在文档识别中的应用),LeNet-5开始进入公众视野。
此时,距离杨立昆(Yann LeCun)创造LeNet-1已过去十年(LeNet-1可参考:一起学AI之:人工智能简史(上)),LeNet-5的核心逻辑未变,但结构更为完整、训练更加稳定,已成为可实际商业化落地的网络模型。
为何论文中会提及可商业化落地?
因为在1998年论文发表前,基于LeNet-5思路的支票读取系统,确实已被应用于真实的银行票据处理流程中。
它要解决的问题非常具体:自动识别支票上的手写数字和金额,减少人工录入,提升银行后台处理效率。
(图像识别演示)
(当时的支票)
LeNet-5发表后,虽未在市场引起巨大波澜,却在学术界引发轰动:神经网络真的能解决现实的商业问题。
LeNet-5也是首次完整定义了现代卷积神经网络(Convolutional Neural Network,简称CNN)的核心结构,为后续神经网络的发展奠定了基础。
你可能存在疑问:同样做数据识别,同样需要输入数据,传统机器学习和以LeNet为代表的神经网络机器学习,除了构建方式不同(一个是依赖统计数学构建的模型,一个是模仿人类神经元网络构建的模型)之外,似乎别无二致?
实则不然,神经网络机器学习在学术上已进步一大截:它无需人工标注和特征分类,可实现自动学习!
例如:图片识别过程中,传统机器学习需人工利用HOG、SIFT等算法进行特征分类与标注。
而神经网络则不同,它能自动学习图像中的边缘、角点、纹理、局部形状等关键特征,通过自身学习再进行分类,无需人工编写规则(没错,整体流程与人类神经元识别物体如出一辙!)。
而且,数据越多,神经网络自动学习的特征就越丰富,识别能力也就越强!
在数据量较少的情况下,统计机器学习尚可通过人工编写特征应对;但若数据量爆炸,人力将无法跟上神经网络的学习速度。
因此,LeNet-5在学术界引起巨大震撼,是因为它将“特征工程”这一最难、最依赖人工经验的环节也纳入了训练过程。
LeNet-5虽证明了“CNN神经网络可处理图像”,却不足以立即改写当时的整个AI世界。
原因很简单:它解决的是一个相对明确、规模有限的问题,如手写数字识别、票据读取;而现实世界中的视觉任务,远比识别几个数字复杂得多。
例如:疯狂动物城的朱迪算兔子吗?
按照现实生活的说法,算是兔子;但若计算机按正常兔子的标准衡量,那肯定不是!
因此,若想机器分辨“猫、狗、汽车、飞机、杯子、树、人脸、街道”,仅靠那个时代的训练数据与计算能力,远远不够。
要知道,当时的数据集有限,只能依赖科研机构实验室的人工标注,而每人能标注的数据量也有限。
所以在随后的多年里,学术界与工业界虽知晓神经网络这条路或许可行,但真正大规模落地的主流方案,依然是“人工提取特征 + SVM分类器”这一组合。
这也表明:当时真正限制AI的,已不仅是算法本身,而是另外两个更现实的问题:
而接下来登场的ImageNet,恰恰是第一个将“海量数据”这一瓶颈硬生生推开的关键角色。
2009年,斯坦福大学李飞飞团队发表论文《ImageNet: A Large-Scale Hierarchical Image Database》,正式提出ImageNet这一大规模图像数据库。
ImageNet的核心思想,是先用WordNet搭建类别体系。WordNet可理解为一本带层级关系的英文词典,它不仅列出单词,还会说明“金毛犬属于狗,狗属于动物”“跑车属于汽车,汽车属于交通工具”等关系。ImageNet便是沿着这套词义层级,将名词转化为图像类别,并为每个类别收集大量图片。
但问题来了:这么多图片,李飞飞团队究竟是如何采集的?
答案并非靠研究员逐张拍摄,而是将互联网视为巨大的图片