AI新动向:可靠性、使用量与监管并行
近期,人工智能领域涌现出三个值得关注的动向:
首个信号:GPT-5.5 Instant发布,高风险场景下的幻觉声明显著减少52.5%。
第二个信号:中国AI大模型的周调用量回升至7.942万亿Token,环比增长81.7%,再次领先美国。
第三个信号:中央网信办启动为期四个月的专项整治行动,重点打击大模型训练数据安全及AI数据投毒等问题。
这些迹象表明,AI正变得更加可靠,应用更加广泛,同时监管框架也日趋完善。虽然这三个信号各自独立,但它们都指向一个核心要素:数据,是贯穿其中的关键驱动力。
第一部分
GPT-5.5 Instant的发布:
提升专业领域的可靠性
OpenAI于5月6日正式将GPT-5.5 Instant设为ChatGPT的默认模型,同时面向免费和付费用户开放升级。
此次升级的焦点并非模型参数的增加,而是其在专业领域应用的可靠性。内部评估数据显示,在医疗、法律、金融等高度敏感的行业,GPT-5.5 Instant的幻觉声明相比前代模型降低了52.5%。在用户先前标记为事实错误的对话中,不准确声明的比例也下降了37.3%。
这些在技术和事实准确性上的进步,为AI在专业领域的应用提供了更有价值的指导方向。
TalkingData简评
模型可靠性的提升,也更加凸显了其对训练数据的依赖。降低幻觉率并非仅仅依靠增加参数,更在于训练阶段对专业领域数据的深度整合与高质量标注。机器之所以能“更可信”,根本在于能够从高质量数据中进行学习。
第二部分
调用量回升:
AI应用的规模化增长
根据OpenRouter平台的数据,上周(4月27日至5月3日),全球AI大模型的总调用量达到23.9万亿Token,已连续两周呈现增长态势。
其中,中国AI大模型的周调用量攀升至7.942万亿Token,环比增长81.7%,再次超越美国(3.258万亿Token,环比下降34.6%)。
腾讯Hy3 preview(免费版)以3.03万亿Token的调用量位居榜首,环比增长高达799%。DeepSeek-V4-Flash也首次进入榜单,环比增长344%。
调用量数据的变化,反映出AI应用正从初步的功能体验阶段,迈向更广泛的规模化应用。
TalkingData简评
AI的调用量越大,对数据持续供应的质量和效率要求也越高。每一次调用都会产生新的数据,这些数据可用于模型的进一步优化和迭代。
工信部与国家数据局近期联合推出的“模数共振”行动,正是从“数据-模型-场景应用”的良性循环角度,推动这一模式的制度化建设。
第三部分
专项行动启动:
AI应用的治理框架日趋明晰
4月30日,中央网信办发布通知,宣布在全国范围内开展为期四个月的“清朗·整治AI应用乱象”专项行动。
行动的第一阶段将侧重于AI应用服务的源头治理,重点整治包括未按规定履行大模型备案登记、安全审核能力不足、大模型训练语料不安全、AI数据被投毒、以及生成内容未按规定标识等七类突出问题。
第二阶段则聚焦于利用AI技术制造“数字泔水”、编造传播虚假信息等七类内容乱象。
将“大模型训练语料安全”和“AI数据投毒”明确列为重点整治内容,体现了监管机构对数据源头治理的持续关注。
TalkingData简评
对训练语料的审核标准和要求正在变得更加精细化,数据