斯坦福2026AI报告:中美差距消失,AI能力超专家,但全球准备不足
👆👆👆点击蓝字👆👆👆关注我们如果说去年的AI圈还在比拼谁家的模型参数更大、跑分更高,那么今年斯坦福大学以人为本人工智能研究所(HAI)刚刚发布的《2026 AI Index Report》传递了一个令人不安却又无比清晰的信号:当AI模型的能力已经收敛到几乎分不出胜负,人类社会的制度、评估体系和心理准备,正在被远远甩在后面。这份长达近400页的报告由数十位全球顶尖学者联合撰写,数据维度覆盖研发、技术、经济、教育、政策、公众舆论等几乎所有你能想到的侧面。如果你只有时间读一篇关于这份报告的文章,那一定是这一篇。
新基准测试出炉:大模型视频理解能力遭“打脸”,专家90分遥遥领先
日常生活中,当人们依赖多模态大模型处理视频时,往往感觉它似乎无所不知,但仔细一问又显得支支吾吾。尽管各大视频理解榜单上排名靠前,实际体验却往往不尽如人意,这究竟是为何?Video-MME-v2引入了一种全新的非线性关联评分机制,将大模型拉回了现实。2024年,Video-MME团队推出了Video-MME,主要测试模型在不同时长下的跨模态视频理解水平,目前已成为Gemini和GPT等众多大模型的重要评测标准之一。经过近一年的打磨,该团队发布了新一代评估体系,通过严苛的分组连贯性测试,彻底杜绝了模型靠碎片化
AI训练催生数据服务商机,Handshake与Mercor业绩飙升
人工智能企业对庞大数据量的渴求,带动了几家从事行业“幕后”工作的初创公司业绩猛增——这些公司雇佣律师、博士以及执业医师等专业人士,对人工智能模型给出的答案进行评分与审核。 最新的例证是Handshake,这家成立了12年的初创企业最初定位是毕业生求职平台。据两位了解其财务内情的人士透露,Handshake来自AI训练业务的年度总收入已接近100亿美元;而一年前刚启动此项新业务时,其年收入仅在500万到1000万美元之间。 在支付合作承包商的费用后,Handshake的AI训练业务净收入依然接近30亿美元。