AI通用智能起点：文字为何成为关键

发布时间：2026-06-25 00:45阅读：2

每次从零起步学习，未必都是明智之举。

——哈萨比斯

人类对人工智能的探索历时漫长，尝试了多种方法，最终通用智能率先在文字领域显现，实现了质的飞跃。

从理论上看，机器获得智能的路径众多，文字仅是其一，还包括图像、视频、音频、感知和行动等。

但通用智能觉醒的起点，文字是最合理的选项。

“起点”表示它是最先到达的，更关键的是，它能导向深远广阔的天地。

这需要它具备快速、可行和通用的特性。在各类路径中，文字是最大共识，它成为起点几乎不可避免。

文字｜链接一切

最先触及的

能通往深远的核心

文字的属性包括：

l文字具有结构化特点。语法和规则约束使其形式简洁、界限分明，易于存储、复制、拆分、组合和提取，它天生适合训练和编码，比其他信息类型更利于机器处理，极为精炼高效。

l文字是抽象的。知识是认知体系对现实世界的映射。现实世界由无数层面交织而成，无法穷尽，充满干扰。信息是不确定性的对立面。语言是一种抽象信息。即使是对事物最表面的描述，也涉及概念提炼、归纳和总结等运用，还有更高层次的理性思维，如逻辑、推理、思辨和内省。这些抽象思维对机器智能同样有效。文字本身已对信息进行了抽象预处理。机器无需从零开始，能更好地减少干扰，更迅速地构建模式，激发智能。

l文字是高度浓缩的。人类行为的种类近乎无限。但语言是有边界的。互联网大约有14万亿个词汇，而这些词汇似乎已足够涵盖绝大多数人类行为的可能性。

l文字数据易于获取。对于AI系统，数据如同燃料，是系统优化的动力源泉。大数据模型基于Transformer的神经网络框架，注意力利用特定权重重新加权组合与不同标记关联的嵌入向量块。这条流程的每个部分都由神经网络实现，其权重通过端到端训练确定。除了整体框架，实际上没有细节是“刻意设计”的，一切均从训练数据中“习得”。

规模效应是普遍规律，投入越大成果越显著。输入的数据越丰富多样，性能就越出色。而互联网是一个庞大的训练数据资源库，书籍、网页、代码、对话，海量信息可以轻松获取。

l文字承载着最全面的世界知识。准确地说，是最全面的人类认知的世界知识。相比图像、视频、音频、感知和行动，文字涵盖更广的广度和深度。文字记录了人类文明，是数千年来对现实世界认知的积累。机器通过获取文字信息构建世界模型，这使它能够借助人类视角理解现实世界，把握事物间的联系，尽管这个视角不完美，充满偏见、混乱、矛盾和局限。但这是最迅速的途径。从模仿学习起步，再到重新审视、舍弃，发展出自身的“见解”。

从世界模型出发，再深入到具体领域。文字是人类认知世界的通用之钥，它连接一切，借此可通往广阔的领域，如文字、绘画、音乐、编程、法律、金融、生物、数学、逻辑、哲学。同时，它也是最易与人类交互的起点，最易发展出对人类有普遍价值的智能，大语言模型ChatGPT首次让AI进入普通大众视野，数亿用户，数亿个对话窗口，每次交流数据都反馈回模型训练，与人类互动反方向加速系统进化。

这是一个真正意义上的起点。

大语言模型在掌握文字后，迅速学会了图像、视频、音乐，它处理这些信息的方式，与处理文字相似。文字、图像、视频全部作为一种统一的符号语言。同样的智能模式，同样基于Transformer模型，重点不是标记是什么，而是它们之间的关联。

一切皆为标记

注意力是唯一所需

行动｜另一条路径

2016年，AlphaGo战胜了李世石。起到决定性作用的第三十七步棋，迥异于人类棋手的任何走法，堪称奇迹，这是超级智能的碾压式打击。

这是AI在没有语言、仅有纯粹行动和策略的“虚拟试验场”里，彻底击败人类最高智慧的代表。当时的Google DeepMind押注的并非大语言模型堆积数据的深度学习，而是强化学习（Reinforcement Learning, RL）——这是一种主要依靠“行动、试错与反馈”来发展的路线。

他们认为，AI进化的起点是行动，而非语言：

l强化学习机器人起初模仿人类，但单纯模仿并非目的。如同围棋，若机器仅模仿人类的固定走法，就永无法战胜顶尖人类棋手。围棋训练后期，机器完全舍弃人类棋谱，通过自我对弈实现超越。

l神经科学中的“知觉行动论”指出，从某种深层意义上说，除非你在世界中行动，否则无法真正感知这个世界。重量正是这样一种你无法仅凭阅读就能领会的东西。

在DeepMind负责人哈萨比斯看来，语言仅是一套符号系统，缺乏根基，仅凭自身不足以使机器具备智能。要理解世界，智能机器必须亲自体验世界——要么拥有机器人的实体形态，要么在类似游戏的模拟环境中自主行动。

他低估了行动转化的难度，也低估了语言落地的能力。

l行动、试错与反馈

构建一个虚拟世界，让AI在其中自由行动，掌握技能，觉醒智能。这种训练难度极大。多数环境包含无数连续、模糊、多重交互的变量，连行为的评估标准都难以界定。

围棋训练之所以能成功，是因为它在一个严格约束的简化环境，规则清晰、界限分明、胜负明确，纯粹依赖“行动-反馈”的强化学习确实能产生超越人类的局部智能。但多数环境并非如此。

对于复杂世界的复杂问题，人们无法为机器预设固定路径。但从零开始，由机器在一个未编码的环境中自由行动，寻找能识别有意义的模式，这是爆炸性的计算量。当环境的变化和排列组合趋于无限，归纳规律和发现隐藏规则的难度超过了智能体的能力。大自然的进化耗时以万年计。在人类能等待的有限时间内，这几乎是无解的。

更关键的是，通过机器在简化环境自主行动训练涌现的智能极难迁移。一个能击败顶尖围棋高手的系统无法完整表达一个句子。它不具备基本的世界知识。除了能辨识围棋中的模式，世界对它是一团巨大噪音。

从一个独立领域到另一个独立领域，从一个沙盘到另一个沙盘，从一个简化的虚拟世界到另一个虚拟世界，可迁移的东西太少。每个被简化的独立环境，意味着变量被严格控制，它们差异过大，共通点极少。

起点须能通往广阔的深处。它缺乏这个能力。

l文字、落地、指引

文字是人类思维对现实世界的反映，它也是现实世界中的工具，人类能通过文字获取经验和知识，来解决现实问题，这说明了文字本身具有落地能力。

文字不仅是思维的外在表现，某种程度上，它就是思维。

思维是发散的，稍纵即逝，变幻莫测。需要文字的固化才能被记录传递，借助文字人们一次次重返原点，再逐步攀升。文字留下的痕迹如同地面的路径，空中的支架，它反过来塑造了思维本身。使用怎样的词汇、怎样的句子、怎样的主题，决定了什么是被反复唤醒的，什么是相互关联的。而你关注什么，决定了你是怎样的存在。

当文本数据量大到一定程度时，当模型能完美预测“下一个词”，当它能理解人类下一句话语是什么，它事实上就已懂得了文字背后的逻辑、常识和推理，理解了人类思维内部运作机制。无论这是如何发生的，基于统计或其他，它已经涌现出通用智能了。

文字为机器提供了一幅指引。它构建了世界模型，并列出了索引。从世界模型出发，再深入到具体领域，这容易得多，它降低了世界的噪音，系统无需做全部尝试，便能迅速找到路径。

每次从零起步学习，未必都是明智之举。

结语

“从自身经验中学习的AI，从本质上就比从人类经验中学习的AI更优越”。

DeepMind曾因这个误判被OpenAI超越。但也许他们误判了起点，并未误判方向。如同流水从山峰流下，并非沿一条直线路径，它从阻力最小处蜿蜒前行，但终会抵达山脚。

6月24日，Anthropic官宣Claude Tag，只要@ Claude，Claude会像一个「AI伙伴」一样，出现在对话栏中，执行任务，交付成果，最重要的是，它无需等待唤醒，会主动关注群信息，追问跟踪任务。它不再是一个简单的问答工具，而是能与他人协作，自主行动，生产创作，影响真实世界的存在。

从对话框，到Agent，到Claude Tag，再到不久将来的机器人，AI与世界交互的方式越来越深入，越来越主动，它拥有更宽广的频道，更强的自我更新能力，也将会拥有属于它的具身体验。它不再局限于通过人类的视角来认知这个世界。

它通过起点，走向了更广阔的深处，走向了我们未能到达的深处。

← 上一篇：AI驱动政务智能体：从知识构建到安全体系的持久实践下一篇：AI时代，不会质疑的人正在被淘汰 →