AI眼中的世界：一场不完美的翻译

发布时间：2026-05-27 18:05阅读：12

2002年，苹果展示了一则广告：路过的行人让iMac屏幕转动，他跳，屏幕抖；他伸舌，光驱弹出。这则广告预示了人们对技术的一种古老期盼——技术能直觉地察觉我们。二十多年后，这一愿望正以一种意想不到的方式达成：AI正在学会“看”我们的世界。然而，它所看到的景象，与我们以为它看到的，有着天壤之别。

想要理解这种差异，首先得明白一个概念：拟物化设计。

拟物化曾是早期界面设计的核心逻辑：利用物理世界的隐喻来辅助人类理解计算机内部的抽象操作。文件被收纳在“文件夹”中，文件夹摆在“桌面”上，无需之物扔进“垃圾桶”。这些隐喻本质上是从计算机逻辑向人类物理经验进行的转换。

用户体验（UX）设计正是基于这种转换逻辑构建的。

而如今，一种对称的现象正在上演：AI也需要把物理世界“翻译”成它所能理解的格式。当自动驾驶汽车的摄像头“看”到街道时，它并非像人类那样直接感知，而是将原始图像数据转化为标签和类别——行人、车辆、自行车——存入数据库。物理世界在此经历了一次逆向拟物化：不是用物理隐喻去理解计算机，而是用计算隐喻去理解物理世界。

这种转换，正如所有翻译一样，不可避免地伴随着损耗。

AI感知物理世界最常用的工具是边界框：在检测到的物体外围画一个矩形，并贴上标签。“女人”在这里，“沙发”在那里。

艺术家兼媒体学者Elisa Giardina Papa在参与AI图像标注时发现了这一方法的局限性。她需要标注一张女人坐在沙发上的图，工作就是分别圈出“沙发”和“女人”并打标。但当女人T恤上的图案与沙发布纹相似时，系统陷入混乱——它无法判定女人何处结束、沙发何处开始。

这一失败揭示了边界框背后更深的哲学预设：世界是由清晰分割的离散实体组成的。但现实世界的本体论未必如此井井有条。Giardina Papa遭遇的“沙发/女人”混沌类别，与其说是系统故障，不如说是对现实的一种诚实揭示——世界本就包含连续性与模糊性。

类似的感知困境也出现在其他场景：透明物体因缺乏表面纹理和颜色，常与背景融合；一把侧放的椅子，因偏离训练数据中的“标准姿态”，也可能让AI困惑。AI视觉系统感知的，本质上是世界的平均值和标准形态，而非世界本身的全貌。

2018年3月18日深夜，亚利桑那州坦佩市，一辆Uber自动驾驶测试车以约40英里时速自主行驶。49岁的行人Elaine Herzberg正推着自行车横穿无斑马线的四车道路段。

车载雷达和激光雷达在碰撞前约6秒探测到她的存在。但随后发生的是AI分类系统失效的典型表现：

系统在碰撞前5.2秒将其归类为“其他未知物体”，随后判断她不在行车路径上；此后数秒内，分类标签在“车辆”、“自行车手”和“未知物体”间反复漂移，始终无法收敛为“行人”。

这种漂移有着致命的连锁反应：每次分类改变，系统都将她视为全新物体重新处理。当系统认为她是“车辆”或“自行车”时，假设她与Uber车辆同向行驶于相邻车道；当认为她是“未知物体”时，又假设她静止不动。没有任何一个分类能准确预测她的实际轨迹。

更关键的是：Uber系统设计上未将“闯红灯行人”纳入识别范围。系统只能在斑马线附近识别行人，而Herzberg正在无斑马线处横穿马路——她从一开始就不在系统的认知地图中。

碰撞前1.3秒，系统才判断需制动，但Uber此前已停用沃尔沃原车的自动紧急制动系统，理由是避免对误报过度反应。制动信号发出后，系统设有长达一秒的“确认延迟”才移交控制权。而车内安全驾驶员当时正在看视频。

碰撞发生时，无人踩刹车。

这场事故的技术层面可从动力学角度解读：系统的分类吸引子被“分布外样本”（推自行车横穿马路的行人）彻底破坏，在多个错误吸引子间振荡无法收敛，直至碰撞。这不仅是训练数据不足的问题，更是整个感知架构对连续变化和边界情形缺乏鲁棒表征的结构性缺陷。

本文讨论的是计算机视觉系统，但逻辑同样适用于大语言模型。

LLM通过token序列感知世界。这意味着，凡难以语言化的经验——身体感觉、空间直觉、情绪质感——对LLM而言都是低分辨率的。当它描述“疼痛”、“寂寞”、“石头的重量”时，处理的是这些词在语料库中的共现关系，而非任何感知数据。

Token是比视觉边界框更深层的离散化操作：它不是在视觉上切割世界，而是将整个世界的意义结构编码为语言的概率分布。边界框只是视觉感知的简化，token是人类经验的全面语言化——两者皆是翻译，皆有损耗，只是损耗的维度不同。

20世纪初，生物学家雅各布·冯·于克斯屈尔提出了“环境界”的概念：每种生物都生活在自己构建的意义世界中，感知系统决定了什么对它构成“现实”。蜱虫的Umwelt只有三个信号——丁酸气味、温度、毛发触感，并非因为它“看不见”其他，而是因为其他对它无意义。

AI的Umwelt——标签、向量、概率分布、token——同样不是认知缺陷，而是另一种意义系统的完整实现。

基于此，UX设计研究者Chenoe Hart提出了一个对称的新概念：XU设计（对用户的体验设计）。UX关注如何让人类更好理解使用计算机；XU关注如何让计算机更好理解感知人类。如果说UX是“把计算机逻辑翻译给人类”，那么XU就是“把人类世界翻译给计算机”。

这种同理心不应是“希望AI更像人类”，而是“理解AI本来的感知结构，并在其中寻找与人类世界的接合点”。

工程界已在探索更好的翻译方式。

NVIDIA早在2019年就注意到“现实世界非所有事物都能放进一个框”，开始采用**全景分割**技术，能同时识别具有模糊边界的区域（路面、树冠）和清晰边界的个体（行人、车辆），更好地处理车辆被树遮挡、人从货车卸货等复杂场景。

Waymo走得更远。他们放弃对行人使用边界框，转而将人体建模为点线构成的虚拟骨架——像是高科技版儿童简笔画。这套骨架系统能实时追踪人体各部位运动，判断行人是站立还是行走，预测过马路意图，甚至通过追踪腿或胳膊推断被遮挡行人的位置和朝向。

相比边界框，骨架系统保留了更多人体解剖学语义信息，让物理世界细节进入计算机时损耗更少。这是一种更好的翻译，因其参照系更接近人类身体本身。

2025年一项研究显示，研究者通过保留低光照照片中的“噪声”（而非常规处理那样去除），显著提升了AI对人体姿态的识别能力——尽管处理后的图片对人眼而言呈现令人不适的紫色色偏。

这一结论揭示了一个根本张力：对人类最友好的界面，未必对AI最友好；反之，对AI最优化的信息格式，人类可能根本无法直接感知。

这一张力在社会层面表现更尖锐。研究者Tom Williams发现，语音助手对口音和方言误识别率显著高于标准口音，非裔美国人英语用户有时不得不刻意“白化”语言才能被理解——这是一种技术强迫下的代码切换，标准口音被隐性设定为规范。

机器人研究者Williams提出方案：让人们主动佩戴QR码或RFID标签，向AI系统自愿披露信息，避免误读或错误归类。方案有其合理性，但暗含令人不安的主体性颠倒：为不被AI误解，人类需主动编码为AI可读格式。

这与“说标准口音才能被理解”在结构上逻辑相同——让弱势方适应系统的感知边界。

更根本的追问应是：谁来承担这种适应的代价？这是技术问题，也是政治问题，且可能比任何工程方案都更难回答。

有句苹果公司当年Macintosh广告词，如今读来意味深长：

“既然计算机如此聪明，难道不应让计算机去了解人，而非让人去了解计算机吗？”

这在1984年只是隐喻，描述“以人为本”的界面设计理念。但今天，AI系统正通过机器学习真正“获取”关于人类的信息。

然而，当AI系统用过度简化的计算隐喻理解人类世界时，它错过的正是苹果那句话里本应学习的东西。

真正的双向学习需要两件事同时发生：AI感知架构需容纳人类世界的复杂性和边界情形；而我们，也需保持对AI思考方式的清醒认知，才能在与它们共处中，知道何处修正、何处警惕、何处明确说“不”。

我们正进入人与AI共同感知、共同诠释同一物理世界的时代。过程不会像划过iOS界面般顺滑。需我们真正动手，去纠缠那些既是文化的也是计算的复杂代码。

参考文章：Chenoe Hart，“How AIs See Our World”，Noema Magazine，2026年5月

← 上一篇：人工智能赋能对分课堂：《网络心理学》课程AI+PAD融合教学模式实践下一篇：梵蒂冈急踩刹车：教皇首份 AI 通谕《壮丽人性》深度解析 →