AI通用智能起点:文字为何成为关键
每次从零起步学习,未必都是明智之举。
——哈萨比斯
人类对人工智能的探索历时漫长,尝试了多种方法,最终通用智能率先在文字领域显现,实现了质的飞跃。
从理论上看,机器获得智能的路径众多,文字仅是其一,还包括图像、视频、音频、感知和行动等。
但通用智能觉醒的起点,文字是最合理的选项。
“起点”表示它是最先到达的,更关键的是,它能导向深远广阔的天地。
这需要它具备快速、可行和通用的特性。在各类路径中,文字是最大共识,它成为起点几乎不可避免。
01
文字|链接一切
最先触及的
能通往深远的核心
文字的属性包括:
l文字具有结构化特点。语法和规则约束使其形式简洁、界限分明,易于存储、复制、拆分、组合和提取,它天生适合训练和编码,比其他信息类型更利于机器处理,极为精炼高效。
l文字是抽象的。知识是认知体系对现实世界的映射。现实世界由无数层面交织而成,无法穷尽,充满干扰。信息是不确定性的对立面。语言是一种抽象信息。即使是对事物最表面的描述,也涉及概念提炼、归纳和总结等运用,还有更高层次的理性思维,如逻辑、推理、思辨和内省。这些抽象思维对机器智能同样有效。文字本身已对信息进行了抽象预处理。机器无需从零开始,能更好地减少干扰,更迅速地构建模式,激发智能。
l文字是高度浓缩的。人类行为的种类近乎无限。但语言是有边界的。互联网大约有14万亿个词汇,而这些词汇似乎已足够涵盖绝大多数人类行为的可能性。
l文字数据易于获取。对于AI系统,数据如同燃料,是系统优化的动力源泉。大数据模型基于Transformer的神经网络框架,注意力利用特定权重重新加权组合与不同标记关联的嵌入向量块。这条流程的每个部分都由神经网络实现,其权重通过端到端训练确定。除了整体框架,实际上没有细节是“刻意设计”的,一切均从训练数据中“习得”。
规模效应是普遍规律,投入越大成果越显著。输入的数据越丰富多样,性能就越出色。而互联网是一个庞大的训练数据资源库,书籍、网页、代码、对话,海量信息可以轻松获取。
l
l文字承载着最全面的世界知识。准确地说,是最全面的人类认知的世界知识。相比图像、视频、音频、感知和行动,文字涵盖更广的广度和深度。文字记录了人类文明,是数千年来对现实世界认知的积累。机器通过获取文字信息构建世界模型,这使它能够借助人类视角理解现实世界,把握事物间的联系,尽管这个视角不完美,充满偏见、混乱、矛盾和局限。但这是最迅速的途径。从模仿学习起步,再到重新审视、舍弃,发展出自身的“见解”。
从世界模型出发,再深入到具体领域。文字是人类认知世界的通用之钥,它连接一切,借此可通往广阔的领域,如文字、绘画、音乐、编程、法律、金融、生物、数学、逻辑、哲学。同时,它也是最易与人类交互的起点,最易发展出对人类有普遍价值的智能,大语言模型ChatGPT首次让AI进入普通大众视野,数亿用户,数亿个对话窗口,每次交流数据都反馈回模型训练,与人类互动反方向加速系统进化。
这是一个真正意义上的起点。
大语言模型在掌握文字后,迅速学会了图像、视频、音乐,它处理这些信息的方式,与处理文字相似。文字、图像、视频全部作为一种统一的符号语言。同样的智能模式,同样基于Transformer模型,重点不是标记是什么,而是它们之间的关联。
一切皆为标记
注意力是唯一所需
02
行动|另一条路径
2016年,AlphaGo战胜了李世石。起到决定性作用的第三十七步棋,迥异于人类棋手的任何走法,堪称奇迹,这是超级智能的碾压式打击。
这是AI在没有语言、仅有纯粹行动和策略的“虚拟试验场”里,彻底击败人类最高智慧的代表。当时的Google DeepMind押注的并非大语言模型堆积数据的深度学习,而是强化学习(Reinforcement Learning, RL)——这是一种主要依靠“行动、试错与反馈”来发展的路线。
他们认为,AI进化的起点是行动,而非语言:
l强化学习机器人起初模仿人类,但单纯模仿并非目的。如同围棋,若机器仅模仿人类的固定走法,就永无法战胜顶尖人类棋手。围棋训练后期,机器完全舍弃人类棋谱,通过自我对弈实现超越。
l神经科学中的“知觉行动论”指出,从某种深层意义上说,除非你在世界中行动,否则无法真正感知这个世界。重量正是这样一种你无法仅凭阅读就能领会的东西。
在DeepMind负责人哈萨比斯看来,语言仅是一套符号系统,缺乏根基,仅凭自身不足以使机器具备智能。要理解世界,智能机器必须亲自体验世界——要么拥有机器人的实体形态,要么在类似游戏的模拟环境中自主行动。
他低估了行动转化的难度,也低估了语言落地的能力。
l行动、试错与反馈
构建一个虚拟世界,让AI在其中自由行动,掌握技能,觉醒智能。这种训练难度极大。多数环境包含无数连续、模糊、多重交互的变量,连行为的评估标准都难以界定。
围棋训练之所以能成功,是因为它在一个严格约束的简化环境,规则清晰、界限分明、胜负明确,纯粹依赖“行动-反馈”的强化学习确实能产生超越人类的局部智能。但多数环境并非如此。
对于复杂世界的复杂问题,人们无法为机器预设固定路径。但从零开始,由机器在一个未编码的环境中自由行动,寻找能识别有意义的模式,这是爆炸性的计算量。当环境的变化和排列组合趋于无限,归纳规律和发现隐藏规则的难度超过了智能体的能力。大自然的进化耗时以万年计。在人类能等待的有限时间内,这几乎是无解的。
更关键的是,通过机器在简化环境自主行动训练涌现的智能极难迁移。一个能击败顶尖围棋高手的系统无法完整表达一个句子。它不具备基本的世界知识。除了能辨识围棋中的模式,世界对它是一团巨大噪音。
从一个独立领域到另一个独立领域,从一个沙盘到另一个沙盘,从一个简化的虚拟世界到另一个虚拟世界,可迁移的东西太少。每个被简化的独立环境,意味着变量被严格控制,它们差异过大,共通点极少。
起点须能通往广阔的深处。它缺乏这个能力。
l文字、落地、指引
文字是人类思维对现实世界的反映,它也是现实世界中的工具,人类能通过文字获取经验和知识,来解决现实问题,这说明了文字本身具有落地能力。
文字不仅是思维的外在表现,某种程度上,它就是思维。
思维是发散的,稍纵即逝,变幻莫测。需要文字的固化才能被记录传递,借助文字人们一次次重返原点,再逐步攀升。文字留下的痕迹如同地面的路径,空中的支架,它反过来塑造了思维本身。使用怎样的词汇、怎样的句子、怎样的主题,决定了什么是被反复唤醒的,什么是相互关联的。而你关注什么,决定了你是怎样的存在。
当文本数据量大到一定程度时,当模型能完美预测“下一个词”,当它能理解人类下一句话语是什么,它事实上就已懂得了文字背后的逻辑、常识和推理,理解了人类思维内部运作机制。无论这是如何发生的,基于统计或其他,它已经涌现出通用智能了。
文字为机器提供了一幅指引。它构建了世界模型,并列出了索引。从世界模型出发,再深入到具体领域,这容易得多,它降低了世界的噪音,系统无需做全部尝试,便能迅速找到路径。
每次从零起步学习,未必都是明智之举。
结语
“从自身经验中学习的AI,从本质上就比从人类经验中学习的AI更优越”。
DeepMind曾因这个误判被OpenAI超越。但也许他们误判了起点,并未误判方向。如同流水从山峰流下,并非沿一条直线路径,它从阻力最小处蜿蜒前行,但终会抵达山脚。
6月24日,Anthropic官宣Claude Tag,只要@ Claude,Claude会像一个「AI伙伴」一样,出现在对话栏中,执行任务,交付成果,最重要的是,它无需等待唤醒,会主动关注群信息,追问跟踪任务。它不再是一个简单的问答工具,而是能与他人协作,自主行动,生产创作,影响真实世界的存在。
从对话框,到Agent,到Claude Tag,再到不久将来的机器人,AI与世界交互的方式越来越深入,越来越主动,它拥有更宽广的频道,更强的自我更新能力,也将会拥有属于它的具身体验。它不再局限于通过人类的视角来认知这个世界。
它通过起点,走向了更广阔的深处,走向了我们未能到达的深处。