AI浪潮下的贫富分化:高薪精英与低薪劳工的冰火两重天
首先,我们来分享两个发生在我们身边的故事。
小张,一位拥有985院校计算机硕士学位的毕业生,加入了一家大型科技公司,投身于大模型训练领域。他的年薪高达45万元,加上股票期权,总收入接近70万元。他的日常工作涉及模型参数调整、性能优化以及训练脚本的编写。在社交媒体上,他分享着工作台上精致的咖啡和深夜加班后的打车凭证。
小李,毕业于一所专科学校,目前在河南省一家县城的数据标注公司工作。她的主要任务是坐在电脑前,为图片添加边界框、对文本进行分类以及为对话打上标签。她每天工作10小时,月薪仅为3200元。公司不提供五险一金,也没有加班费,并且项目结束后随时可能面临失业。
她们都在参与人工智能(AI)领域的工作。
尽管身处同一行业,一个年收入高达70万元,另一个月薪却只有3200元。这并非虚构,而是2026年人工智能产业链真实存在的写照。
大多数人看待人工智能,往往只关注到其光鲜亮丽的一面——那些令人惊叹的大模型、发布会上展示的演示效果以及融资新闻中动辄数十亿的巨额数字。
然而,人工智能产业链的运作模式,就像一座巨大的冰山。
浮在水面之上的是算法工程师、产品经理和研究员等高薪精英群体,他们的年薪可达百万。而在水面之下,则隐藏着数百万计的数据标注员、内容审核员和语料采集员等隐形劳动力,他们的月薪仅有三千元左右。
如果没有水面之下的这些劳动者,强大的大型模型根本无法被训练出来。
你是否认为GPT是由某位天才工程师独立开发的?并非如此。它的背后是成千上万名数据标注员的辛勤付出,他们逐一标注数据,逐一判断哪句话更优、哪个回答更准确、哪张图片包含不当内容。
OpenAI在肯尼亚雇佣了大量数据标注员,他们的时薪不到2美元。国内的数据标注中心,多集中在四五线城市和县城,如河南、山东、贵州等地,因为这些地区的人力成本较低。
这些劳动者的工作内容是什么?他们需要审阅暴力图片、阅读有害信息、进行大量重复且枯燥的分类任务。有些人仅仅工作了半年就患上了创伤后应激障碍(PTSD),有些人因此视力受损,还有些人在被解雇时甚至得不到任何经济补偿。
他们没有出现在发布会的现场,也没有出现在融资新闻的报道中,甚至不在AI公司的正式员工名单里——因为他们大多是通过外包合同工作的。
你或许会认为,这种情况很正常,毕竟工程师需要专业技术门槛,而标注员的工作人人都能做,供需关系自然决定了薪资水平。
这种说法有一定道理,但只说对了一半。
首先,供需关系受到了人为的扭曲。
人工智能工程师之所以薪资高昂,是因为大型科技公司之间在激烈地争夺人才。这种争夺并非完全基于实际用人需求,更多的是为了阻止竞争对手获得人才。许多高薪聘请的工程师,入职后并未承担真正核心的工作,但薪资却一分不少地照发。这是一种“人才囤积”的现象。
而数据标注员的薪资之所以如此之低,是因为人工智能公司有意将这部分成本压缩到最低。数据标注本质上是一项劳动密集型工作,技术门槛不高,且容易被替代,因此公司倾向于在人力成本最低的地区寻找劳动力。甚至有些公司会频繁更换数据标注供应商,目的就是为了进一步压低价格。
其次,利润分配存在极度的不均衡。
人工智能产业链的利润,绝大部分集中在上游环节,如模型研发、API销售和解决方案提供。这些环节由大型科技公司掌控,利润率极高。而处于产业链最末端的数据标注环节,利润被层层盘剥。
假设一位数据标注员一天标注500条数据,每条数据的公司支付0.1元,但她最终到手的可能只有0.03元。中间的差价被标注公司、中间商以及平台层层瓜分。
第三,信息不对称现象普遍存在。
数据标注员通常不清楚他们所标注的数据最终将用于何处,以及其价值几何。他们只知道自己今天完成了500个标注任务,获得了50元的报酬。而他们所标注的数据,可能正在被用于训练一个价值百亿的大型模型。
最令人讽刺的是什么?人工智能技术本身正在努力取代标注员的工作。
例如,强化学习中的“人类反馈”(RLHF)需要大量数据标注员的参与。然而,人工智能公司一边雇佣标注员来标注数据,一边也在积极研发自动化标注技术。一旦人工智能能够自主完成数据标注,那么这些标注员的就业机会将不复存在。
一位数据标注公司负责人曾向我透露:“我们深知我们这个行业是过渡性的,人工智能迟早会取代大部分的标注工作。但在那一天到来之前,我们希望能先赚取一笔利润。”
说白了,数据标注员在人工智能产业链中扮演着“燃料”的角色——一旦被消耗殆尽,便失去了其价值。
更具讽刺意味的是,一些数据标注公司已经开始利用人工智能技术来辅助标注工作。人工智能先进行初步标注,然后由人工进行核对和修改。这意味着,同样的工作量,所需的人力却大大减少。过去需要10个人完成的工作,现在可能只需3个人就能搞定。
那么,剩下的7个人又将何去何从?没有人关心。
你可能会觉得数据标注员的生活离你很遥远,但人工智能产业链的这种利润向上集中、成本向下转嫁的剥削逻辑,其实离你非常近。
不妨思考一下以下这些场景——
开源贡献者的代码被用于训练模型,但他们一分钱报酬都未获得。例如,Copilot的训练数据来源于GitHub上的开源代码,但代码的原始作者并未得到任何补偿。微软和OpenAI从中获利,而代码的编写者却一无所获。
知乎等平台上的博主回答被爬取用于训练模型,却未事先征得同意。你的知识、经验和文字,都成为了大型模型的“语料库”,但没有人询问过你是否愿意。
画师的独特风格被人工智能学习,然后AI能在1秒钟内生成一张“类似”的图片并以5元的价格出售。画师花费10年时间学到的技艺,却被一个简单的提示词(prompt)轻易“学会”。
这些情况与数据标注员所面临的困境,本质上是同一件事:人工智能产业链的利润向上游汇聚,而成本则向下游转嫁。上游企业攫取价值,下游劳动者承担代价。
我并非要煽动情绪,更不会发表“资本家该死”这类显而易见的论调。但我认为,有几个方向值得我们深入思考。
第一,我们必须坚守数据标注行业的底线。
数据标注作为人工智能产业链的基础设施,不能因为其“门槛低”就任人随意压榨。最低工资标准、劳动保障以及心理健康支持,这些基本权益不应因为外包模式而被规避。
一些国家已经开始关注这一问题。肯尼亚的数据标注员已经联合起来,要求提高薪资待遇;菲律宾的数据标注工会也在积极争取基本的劳动保障。然而,在国内,关注这一群体的声音仍然十分稀少。
第二,数据贡献应该得到相应的补偿机制。
如果你的数据被用于训练模型,并且该模型创造了利润,那么你理应从中分得一杯羹。这并非是劫富济贫,而是维护基本公平的原则。
目前,一些项目正在探索“数据分红”模式——如果你贡献的数据被模型使用,你就能获得一定的收益。尽管这一模式尚处于早期阶段,但其方向是正确的。
第三,我们不应将人工智能从业者视为一次性消耗品。
数据标注员并非用完即弃的工具。他们在工作中积累了丰富的标注经验和对数据的深刻理解,这些经验本身具有很高的价值。一些标注员通过转型,成功晋升为数据质量审核员或标注项目经理,收入也因此翻了好几倍。
然而,问题在于,大多数数据标注公司根本没有为员工提供职业发展的通道。他们只是招募员工来完成任务,项目结束后便让他们离开。这并非在培养人才,而是在消耗人力资源。
人工智能是一项了不起的技术,它正在深刻地改变着我们的世界。这句话是无可置疑的。
但与此同时,在改变世界的过程中,我们不能假装看不见那些被碾压在技术进步轮子下的人们。
每次有新的大型模型发布,我们都在惊叹“人工智能又进步了”。但很少有人会追问一句:这次的进步,究竟是用谁的血汗浇灌出来的?
年薪70万的工程师和月薪3200元的标注员,她们都在从事人工智能相关的工作。然而,她们的生活却处于两个截然不同的世界。
这个世界并不缺乏技术上的突破,但它迫切需要的是让技术突破所产生的收益,不再仅仅停留在少数人手中。
人工智能不应该仅仅成为少数人的造富工具。