标签

AI 核心壁垒:标注员的隐形价值

发布时间:2026-05-25 00:31来源:微信阅读:6

提及人工智能,人们总聚焦于芯片、算法与算力。

这恰恰是过去三年最大的认知偏差。

决定 AI 是否好用的关键,并非底层芯片或架构,而是那不可见的环节——由数十万标注员逐条手工打磨出的对齐数据。

这一真相,AI 企业鲜少提及,媒体难以解读,资本更是难以洞察。但它却是这场博弈真正的决胜点。

大众常有一种幻想:将海量文本喂入超级神经网络,它便能自学会思考、推理与对话。

这仅是叙事,并非事实。

实际流程分为两步。第一步是预训练——将人类文字喂给模型,使其掌握"语言的形态"。第二步是后训练(涵盖 SFT、RLHF、宪法式 AI 及安全对齐)——由数十万真人逐条教导它"如何表达、何者禁言、何为优质回答"。

OpenAI 2022 年的一项研究曾揭示:一个 13 亿参数的对齐模型,在用户偏好测试中竟超越了 1750 亿参数的纯预训练模型。参数规模相差逾百倍,但经过后训练的小模型反而更受青睐。

这一结论的意义常被严重低估。它意味着——

扩大模型规模,不如优化模型教学。算力的边际收益正在递减,而对齐的边际收益仍在攀升。

扩大模型规模,不如优化模型教学。算力的边际收益正在递减,而对齐的边际收益仍在攀升。

ChatGPT 于 2022 年 11 月一夜爆红,并非因底层模型突变(GPT-3.5 早已存在),而是对齐工程使其首次学会了得体表达。

这支隐蔽大军的规模远超常人想象。

OpenAI、Anthropic、Google 等巨头几乎不直接雇佣标注员,而是将任务外包给 Scale AI、Surge AI、Appen 等专业机构。Scale AI 2024 年估值已达 138 亿美元,2025 年 Meta 以 143 亿美元收购其 49% 股权时,估值更推高至 290 亿美元——单凭数据标注业务,便孵化出一只巨型独角兽。

其地理分布呈金字塔结构:

塔尖是美国、英国的博士级专家——包括数学家、程序员、律师及医生,时薪 50 至 200 美元,负责最难懂的代码标注、数学推理与医学审核。

塔身是印度、菲律宾、东欧的英语熟练标注员,时薪 5 至 25 美元,承担大量通用偏好排序任务。

塔底是肯尼亚、乌干达、委内瑞拉的低成本审核员,时薪仅 1 至 2 美元,从事最煎熬的工作——阅读并标注含暴力、仇恨、性虐待、自残等内容的文本片段,协助模型学会识别并拒绝此类内容。

2023 年 1 月,《时代》杂志曾曝光:OpenAI 通过 Sama 公司雇佣肯尼亚工人训练 ChatGPT 安全过滤器,工人时薪介于 1.32 至 2 美元之间,长期阅读涉及儿童性虐待、暴力及自残等文本,多人因此留下心理创伤。(此事曾在 AI 伦理界引发震动,但很快被新一轮算力新闻所掩盖。)

这便是 AI"自动智能"叙事背后的真相——每一个令人惊叹的回答背后,都凝聚着标注员的劳动。

若无标注员,便无 ChatGPT。这是一个铁律,也是一个被刻意隐匿的事实。

这是洞察该行业的关键。

预训练成本主要源于算力——受摩尔定律驱动,单位算力价格逐年下降。DeepSeek-V3 公开论文披露的算力训练成本约 558 万美元(注:此为 V3 纯算力开支,不含前期研究、硬件建设及工程师薪资),却训练出了接近 GPT-4o 和 Claude 3.5 Sonnet 的模型。证明了此事可比业界想象更为廉价。

后训练成本主要源于人力——它不受摩尔定律制约。博士级标注员的时薪不会因芯片进步而降低。要实现更精细的对齐,意味着需雇佣更多、更昂贵的人才。这部分成本不仅未降,反而随对齐要求的提升而上涨。

这导致了一个长期趋势:

预训练的相对成本在下降,对齐的相对成本在上升。五年前比例为 50:1,如今为 10:1,未来或达 1:1。

预训练的相对成本在下降,对齐的相对成本在上升。五年前比例为 50:1,如今为 10:1,未来或达 1:1。

因此你会看到一种奇怪现象——DeepSeek 可低成本复现 GPT-4 的预训练,但要复现 ChatGPT 那种"上手即顺手"的体验,依然困难重重。因为后者的护城河并非算法,而是多年积累的标注流程、专家网络及方法论 know-how。这正如美团十余年累积的上亿条真人点评,阿里即便砸钱也难以复制。

此事其实蕴含朴素道理——技术秘密往往不在技术本身,而在驾驭技术的手艺中。同一把刻刀,匠人与学徒刻出的作品天壤之别。AI 亦然——同样的 Transformer 架构,同样的数千亿参数,OpenAI 与某三流团队的产品差异,不在材料,而在手艺。

这门手艺,便藏于标注体系之中。

探讨了众多产业层面之事,回归一个最务实的问题——作为普通用户,你该如何善用 AI。

答案令许多人意外:

普通用户驾驭 AI 的差距,本质上在于是否将自己视为标注员。

OpenAI 雇佣标注员所做之事——撰写示范回答、排序偏好、纠正错误、提供反馈——你完全可以亲力亲为,且仅针对个人偏好。

为 AI 编写一段系统提示,告知其你的身份、专业及偏好——这便是 SFT。

对 AI 回答说"这段不佳,应如此修改"——这便是 RLHF。

展示几篇你的代表作供 AI 模仿风格——这便是 few-shot 示范,比抽象描述风格有效十倍。

将这套方法做到极致者,已远超 99% 的 AI 用户。他们手中的 AI,与他人手中的 AI,已非同一产品。

多数人使用 AI 仍停留在"一问一答"层面,获得的是所有用户的平均答案——一杯温吞水。少数人将自身偏好、领域知识、思维框架及写作风格显性化地传授给 AI,获得的是专为一人定制的智能助手。

这中间的差距(依我之见),是 AI 时代最大且最被忽视的个人红利。

明了上述四点,再审视 AI 行业未来,视角将截然不同。

未来三至五年,行业竞争焦点将从"算力军备竞赛"转向"标注质量军备竞赛"。

具体表现如下:

第一,领域专家争夺战。前沿数学家、顶级程序员、资深律师及持照医生的时间,将被 AI 公司高价收购。Scale AI 旗下 Outlier 平台已在行动,为 ML/AI 博士级标注员提供高达每小时 150 美元的费率,顶尖专业人才更高。

第二,AI 标 AI 的兴起。普通标注员已无法判断 GPT-5 级别模型的输出质量,未来将出现"用 GPT-5 教导 GPT-6"的局面。Anthropic 的宪法式 AI(RLAIF)正走此路。这将大幅降低对齐成本,但也带来新问题——AI 自我教学,会否形成认知闭环。

第三,可验证奖励的强化学习。在数学、代码等具标准答案的领域,以程序自动判分替代人工,开展大规模强化学习。o1、DeepSeek-R1、Claude 的扩展思考能力均沿此路。这是后训练的新前沿。

第四,个性化对齐的爆发。通用 AI 的对齐达到一定高度后便会触顶——再标注也不过是平均人的偏好。真正的增量在于让每位用户的 AI 贴合其个人。Project、Custom GPT、本地记忆、Skills——这些功能的本质均为个人用户的对齐工具。

这四条路线,无一主要依赖芯片。它们均发生在算力之上、应用之下的层级——后训练层。

谈论 AI 最热烈者,往往离 AI 最远。

他们谈论黄仁勋、H100 及万亿参数。这些属实,但仅是冰山一角。

水面之下,是数十万人在标注数据、博士专家在撰写示范、审核员在审视暴力内容、工程师在调整奖励模型、产品经理在收集用户反馈——这些日常发生之事,支撑起了你眼前那个会聊天的"智能"。

看懂这一层,方能看懂该行业。

看懂这一层,方能看懂你手中的 AI——它并非神秘宝盒,而是由几十万人手把手教导、且可继续被你教导的工具。

这个时代真正稀缺的,并非 GPU,而是那些愿意认真告知 AI"何为优质回答"的人。