AI 时代的关键:并非智能,而是“转换”的洞察
从技术视角转向范畴视角
你或许也曾有过这样的经历。
AI 的生成速度快得惊人,快到让人有些许不安。
将一个两小时的会议录音输入,短短几秒钟后,一份结构严谨的会议纪要便呈现在眼前。
标题明确,议程清晰,每个人的发言都被归类到相应议题之下,结论部分则以醒目的深蓝色标示,待办事项也清晰地加上了方框。
它甚至能恰到好处地加入“综合来看”这样的表述,使得这份纪要不像一份简单的流水账。你快速浏览一遍,觉得内容大体准确。
随后,你将文档转发给同事,转而投入另一项工作,将此事暂时搁置。
然而,到了下午,同事发来了消息。
她提到你记录的“这个方向我们需要再考虑一下”这句话,
虽然语气确实来自于客户,但在原始录音中,这实际上是一个反问,紧随其后的是一段关于为何不能再考虑的解释——时间紧迫,预算也已定死。纪要将其单独提取出来,放入了下一阶段的建议栏,现在客户的疑虑被错误地呈现为你的指令。
她询问你是否能回想一下那段录音的上下文,以确认是否存在误解。于是,你不得不回溯进度,重新听那段长达十五分钟的讨论,边听边做笔记,然后给她发送了一段更长的信息,详细说明为何这个“再考虑”并非真的需要再次审议。
你在处理这些细节时所花费的时间,实际上比你最初撰写纪要本身的时间还要多。AI 并非凭空捏造,它只是省略了语调的细微差别、因果顺序的逻辑链条,以及提问者在特定情境下的立场。
它将一套充满限制条件的表达,转化为一段看起来完整、流畅且可供下一步行动的语言。
许多人将此归咎于 AI 本身的问题。但我更倾向于将其视为“转换”的问题。
你今天生活中遇到的许多技术性摩擦,仔细审视,都能从中找到一条相似的线索。
平台的内容审核系统将一句带有方言、反讽或社群内部隐语的话语,转换为一个标签,再将标签转化为一个具体的处理指令。
语言模型将一段上下文信息转化为预测,再将预测转化为答案。推荐系统则将你昨天的点击记录、浏览时长、设备型号和地理位置信息,转化为用户画像,再将画像转化为你第二天将看到的内容。
这些转换并非总是从差变好,也不是从真变假,它们首先是从复杂到可处理的过程。
关键在于,每一次转换都会伴随着信息的丢失。
一句话从口头表达变为数据,语境信息可能因此丢失。
一个人从真实生活变为数据画像,其身份的多重性可能因此丢失。
一种语言从完整的文化关系中剥离出来,转化为语料库的规模参数,它在具体情境中如何区分玩笑、冒犯、尊敬和反讽的精细结构可能就此消失。
如果丢失的恰恰是关键性的信息,那么最终的判断在形式上可能无懈可击,但在实质上却可能造成损害。
然而,这并非一篇旨在批评技术的文章。事实上,这些转换中的绝大多数,恰恰是人类社会得以维系至今的基础。
如果没有简化,没有抽象,没有将某些差异暂时视为不重要而忽略,平台就无法进行审核,模型就无法实现泛化,制度就无法进行统计,市场也无法完成定价。
真正需要深入探究的,不是系统为何会简化世界,而是这种简化之后系统做了什么:它保留了哪一部分结构,忽略了哪一部分差异,以及,它将哪一个层面的近似信息叠加到了哪一个层面,最终生成了一个连它自己都无法追溯其源头的结果。
我接下来计划撰写的一系列文章,核心便是探讨此事。
为了便于指代,我先为其赋予一个暂时的名称,称之为“范畴社会学”。
它并非旨在为问题赋予一个更抽象的名称。它的目标是追踪一个完整的链条:一个对象如何被系统识别,如何被转换为系统内部可处理的形式,在这个过程中哪些信息被保留、哪些信息被舍弃、哪些信息被判定为足够相似,然后一个经过多重转换的结果如何被视为事实,并反过来塑造人对自身的认知。它不仅关注 AI,更首先关注“转换”本身。
当我们今天仅仅关注最终输出时,很容易将错误归咎于某个特定节点的判断失误,但实际上,许多问题恰恰发生在判断动作发生之前。
一句话并非直接进入平台治理系统。它首先被截取成一个可供分析的片段,然后被分配给人工标注员或自动标注系统,接着被送入嵌入空间编码为向量,再由分类模型或评分模型打上标签,将多重相关性压缩成一两个风险得分,最后驱动下一步的处置动作——隐藏、折叠、标记、上报或封禁。这条链上的每一步都构成一次转换。同一句话在用户那里代表一套复杂的关系:为何说、对谁说、是否使用了反讽、是否故意使用一个旧词来避免直接冒犯。
在标注系统中,它只是一个样本。
在模型中,它体现为特征分布。
在平台治理中,它转化为风险分数和行动依据。
如果最开始的语境信息在任何一个环节都没有被保留下来,那么最终的处理结果即使看起来合规、自动化且符合标准差,也仅仅是将一套复杂的关系压制成一个可执行的标签。这并非模型在撒谎。而是“压平”本身成为了信息的主体。
人的数字化身份亦是如此。一个人进入平台,在系统中首先被视为一个 ID,随后是一系列事件序列的离散投影:点击、停留、跳转、购买、回访。
当这些行为被收集到特征工程流水线中时,系统实际上是在用一个时间轴上被分割开的行为集合,来重建一个“用户”。然而,在这个重建过程中,一个人为何今天只看不买——可能是经济拮据,可能是陪孩子写作业时顺带浏览,也可能是与朋友赌气——这些情境化的解释通道,从一开始就被转化为了特征权重和兴趣分数。最终系统呈现给你的,并非一个完整的人,而是一个与其既有行为模式高度相似的画像。
同样的逻辑也体现在语言层面。一种地方性语言进入技术系统,其第一步往往是根据资源等级进行判定:语料是否充足、是否存在平行文本、是否能够进行大规模预训练、是否属于商业优先级的语种。一旦这个判定固定下来,后续所有的资源分配——是否提供高精度翻译、是否接入大模型、是否组建本地标注团队——都将顺着这个等级进行。但关键在于:低资源并非一种天然属性。一种语言在历史上遭受政治边缘化,或者因为商业前景不被看好而缺乏投资,这些政治和经济关系才是“资源不足”的前置条件。系统只是将前一阶段已发生的不平等,重新表述为数据不足,再将数据不足表述为一种客观属性。等你看到结果时,转换已进行了多层,每一层都将上一层制造的状况锁得更紧。
在“范畴社会学”中,“范畴”一词容易被误解为分类。但此处所讨论的范畴,并非你将事物划分为 A、B、C 的命名动作,而是一套比这更深层、更基础的规则系统。它回答的是:在任何一个系统内部,什么东西能够被该系统识别?哪些东西可以与其他东西进行比较?两个对象在什么条件下可以被视为“相似”?一种格式中的对象是否可以被转移到另一种格式中?转移之后,原来附着在其身上的哪些关系能够得以保留?
平台审核的过程可以看作一个压缩版的范例。一句话在用户那里是表达,在标注者那里是样本,在模型那里是特征和标签,在平台治理那里是风险分数和处置动作。同一句话穿过了四套不同的范畴系统,每一次都改变了其身份。如果在此过程中,原始的语境、语气、听话人是谁、说话人处于何种社会位置等信息未能被保留,那么最终执行的处理结果,就不再是那句话本来的关系,而是当前系统中该风险标签所对应的通用语义。
许多人会问,这与普通的数据处理有何不同?区别在于,范畴社会学关注的并非格式的转换——例如将音频转换为文字,将文字转换为向量,将向量转换为分数——它关注的是“关系”的转换。即这一层中的结构,是否能在下一层系统中得以延续。是否原来能够区分的几样东西,在转换后被归为一类。是否原来存在差异的问题,在转换后变成了一个只能输出“是或否”的选项。
因此,范畴并非标签本身。范畴是使标签系统得以运作的那套底层逻辑——它决定了什么东西先被分开,什么东西先被合并,什么样的差异在何种步骤中被视为无效信息而丢弃。你可能看不见它,但它的作用无处不在。
技术系统之所以能够存在,是因为世界过于复杂,无法以原貌被全然纳入。这个根本前提是无法绕过的。平台若不简化表达,就无法在一秒内对数百万条内容做出决策。模型若不将语义压缩进有限的向量空间,就无法建立相似关系。机构若不将人纳入统计类别,就无法对大规模人口进行资源分配。
因此,我花费了大量时间去理解一个现象:系统最底层的运作原理,其实是用一系列“差不多”来构建可处理性。考试将人的能力压缩成一个分数,我们认为这个分数“差不多”代表了学习水平。信用系统将一个人的还款行为压缩成几条记录,我们认为这些记录“差不多”反映了信用。语言技术将一种语言的生存处境压缩成语料规模和评测基准,我们认为这些参数“差不多”就是该语言在数字世界中的位置。算法公平性检测将对正义的理解压缩成统计指标的均衡,我们认为这种均衡“差不多”就代表了公平。
这里有一个核心概念,叫做“弱等价”。它并非声称两个事物真的完全相同。它仅仅表达:在这个特定的系统、为了这个特定的目的、沿着这个特定的流程,这两个对象可以被暂时视为足够相似来处理。弱等价使得系统能够以较低的复杂度运行。没有它,绝大多数的技术基础设施都将崩溃。
然而,权力也隐藏于此。因为决定“哪些差异可以暂时忽略”这件事本身,就是一种对世界的重新分割。一个地方方言内部用一两个词来区分玩笑和冒犯,当进入平台审核时,系统可能直接将这几个词视为攻击信号来处理。这种处理的依据,并非它真的构成了攻击,而是因为在某一套特征空间里,它的表达与已知的攻击性文本足够接近。这里发生的不是判断错误,而是等价被强加到了不应该跨越的边界上。
弱等价不一定就是错误的。恰恰在许多场景下,它是系统正常运作的必要前提。只不过它有一个副作用:一旦你在某个环节说“这个和那个差不多”,后面的人就很难再追问,当时到底是差了哪一点才被说成差不多。而如果这个“差不多”被多个系统接力传递——数据采集说差不多,特征工程说差不多,模型打分说差不多,审核处置说差不多——最终呈现给用户的是一个被重复夯实过的稳定结果,看起来坚固得如同事实。
这个串联的结构,可以帮助我们重新审视一个大家都很熟悉的问题:“AI 幻觉”。
通常,我们讨论幻觉时,指的是模型编造了不存在的事实。它可能提供一条参考资料、一串数字、一个地名,看起来有板有眼,但你去查证时,却发现其根本不存在。这样的理解是正确的,但它并未讲完整个故事。它将幻觉定位在结果层面,而没有去审视幻觉是如何被制造出来的。
在生成一条答案的过程中,模型所做的事情实际上是一连串的近似操作。它首先捕捉你问题中的语义信息,然后将这些语义与其训练过程中接触到的上下文模式建立映射关系。接着,它将语义的接近视为可能的相关性,将表达的流畅性视为组织的正确性,将高频共现视为因果关联。在大多数情况下,这套流程运作得非常出色——这也是模型能够让人们对其产生依赖的原因。然而,当某一个环节的映射偏离了原始信息结构,或者它将两个表面相似但底层关系完全不同的事物叠加在一起时,一个表面上流畅合理的句子就开始偏离事实。这种偏离并非一步跳到结论,而是每一步都“差不多”,层层叠加到最后,一个完全被替换的结论看起来也像真的。
这解释了为何验证 AI 生成内容的成本远比看起来要高。你不仅需要检查一句话是否为编造,你还需要同时追问:它引用的概念是否被置换了?推理的步骤是否遗漏了一个你不能忽视的前提?它给出的结论,是因为真实关联成立,还是仅仅因为语言结构本身让它读起来像是正确的?
幻觉问题的核心,不在于模型敢于说谎,而在于你很难锁定误差发生的具体层面。是第一层资料的对应就出现了问题,还是推理链条中间的关系被偷换了,抑或是最终的答案在形式上合理但语义上的等价物已被调包?这种误差追溯的难度,正是“范畴社会学”要反复处理的一种现象:当一个对象穿梭于多个范畴系统之后,它在每一层留下的误差不会被原样传递下去,而是会被下一层系统当作输入继续推导。你去检查输出端,只能看到已经混合后的结果。而中间每一层所做的判断——这个相关、那个不相关、这个暂时忽略——都已经沉入了结果的底层。
这也是为什么一些 AI 应用看似提高了信息流通量,却没有立即转化为等量的经济效益。一部分劳动并没有消失,它只是从“撰写”转移到了“核查、修改、理解误差”。