基准测试_标签-酷阅新闻

研究揭示：AI协作效能的关键不在工具，而在使用者的实力

最近我的各种AI群聊又沸腾了。起因是一家大公司推出了新一代模型，基准测试成绩霸榜，许多人连夜掏钱订阅。也有朋友截图来问：这个新模型问世，我是不是该把现在的助手换掉？说实话，看着满屏“选哪个AI最好”的争论，我脑海中全是今年七月刚发表的一篇论文。读完它，你会觉得我们很多人可能都白费力气了。论文标题很直白，叫《决定人机协作效果的，不是AI有多强，而是人有多强》（Human Capability, Not AI Benchmark Scores, Predicts Human-AI Collaboration

2026-07-18 20:36:17 | 10 阅读

榜单成绩亮眼、实际表现拉胯：2026年的AI评测，我劝你别全信

AI 观点 · 热议▲ 榜单上门门 A+，一到干活就「原地社死」你肯定见过这种场景：某个新模型一发布，朋友圈全是「刷新 SOTA」「屠榜」「碾压一切」的截图，气势汹汹。结果你兴冲冲打开一用——嗯，看着挺聪明，干活总差那么一口气。别怀疑自己，也别怀疑人生。真不是你的错觉——2026 年，AI 榜单的水分正在被一个个当场拧出来。今天我把几件最有意思的「翻车现场」讲给你听。先说编程界最出名的考试SWE-bench Verified（让 AI 去修真实的 GitHub bug）。搁一年半前，谁能考过 50% 都能

2026-07-18 09:23:21 | 10 阅读

AI资讯速递|2026-07-14 · Claude Sonnet 5对决Opus 4.8：编程智能体评测与成本效益全面分析

01PART模型发布/更新MODELS#1 Claude Sonnet 5对决Opus 4.8：编程智能体评测与成本效益全面分析MarkTechPostAnthropic最新推出的Claude Sonnet 5在智能体编程任务上大幅拉近了与旗舰Opus 4.8的距离，同时延续了Sonnet系列的低Token费用优势。根据MarkTechPost汇总的测评结果，Sonnet 5在多项代码生成和工具调用基准中几乎比肩Opus 4.8，但在复杂多步推理方面仍有欠缺。这一代际突破意味着预算有限的开发组也能享受到接

2026-07-14 16:11:21 | 13 阅读

AI编程评估为何逐渐失灵？OpenAI撤销SWE-Bench Pro推荐

数月前，OpenAI还曾向业界推荐使用SWE-Bench Pro来衡量前沿模型的编程水平。而如今，这一推荐已被撤回。2026年7月，OpenAI公布了对SWE-Bench Pro的审查结论：在公开测试集涵盖的731个任务里，自动审核流程判定其中200个任务存在问题，占比达27.4%；人工标注则认定249个任务存在问题，占比34.1%。综合两类审核结果，OpenAI估算公开任务中约有30%属于"劣质"任务。所谓"劣质"，并非指题目难度过高，而是指测试本身无法准确判定模型是否真正完成了任务。模型可能给出了合理

2026-07-13 13:50:13 | 12 阅读

ZoomInfo发布GTM Bench，确立AI销售新标准

Zoom(89.87, -0.01, -0.01%)Info Technologies Inc．近期正式推出GTM Bench评测体系，旨在针对大型语言模型及AI智能体在实际市场推广场景中的效能进行专业评估。该体系从“任务达成率”与“数据可溯性”两大核心指标对AI系统打分：前者反映系统完成指定任务的比例，后者评估返回数据源自真实、实时信息的程度。在首期测评中，ZoomInfo旗下的GTM.AI以77分的综合得分领先，Apollo得分为47分，Exa为36分，开放网络搜索仅为31分。数据显示，ZoomIn

2026-07-11 01:20:16 | 17 阅读

AI应用前沿|Tool-Genesis：驱动自进化语言智能体工具创建的任务导向基准 (1/20篇) · 7月6日

2026年07月06日星期一Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent自进化语言智能体领域正快速推进，然而其依据任务需求进行工具构建、适配与维护的能力尚缺乏系统性的评估手段。当前主流基准多受制于预先设定的规范框架，制约了系统的可拓展性与自主进化空间。本研究推出诊断型基准Tool-Genesis，致力于从接口规范性、功能准确性及下游实用价值等多元视角对智能体能力进行量化评估。该基准检

2026-07-07 04:36:43 | 14 阅读

AI行业动态速览 06.22-06.28

回看过去七天，AI领域的震荡远比预想中剧烈。OpenAI瞄准万亿美元估值的高歌猛进、Anthropic在芯片层面的绝地反击、微信坐拥14亿月活的入口卡位——每一桩事件都在改写这个赛道的格局。从6月20日开始，部分微信用户察觉到主界面左上角悄然出现了一个“绿色眼睛”图案。这正是微信自主研发的AI助手“小微”的灰度测试入口。其技术底座融合了微信自研大语言模型WeLM与DeepSeek，可通过文字或语音指令直接操控微信原生功能，包括调整设置、发送消息乃至拨打电话。然而这仅仅是序幕。真正让开发圈沸腾的是其“一句话

2026-06-29 02:05:28 | 25 阅读

AI看空系列：Trace盛宴与虚假繁荣

"他们不过是在驾驶着空壳飞机四处游荡。" —— MB之子英伟达堪称指路明灯，是猎户腰带，更是整片星河。英伟达正享受着旺盛需求的红利，然而其客户群体极度聚焦，而这些客户自身的需求正被一段难以为继的"基准测试期"所扭曲。这种畸形需求经由定制化供应承诺，如鞭梢般层层抽打英伟达的供应链，一路波及数据中心的融资链条。笼罩其上的是"虚假繁荣"（the bezzle）——一旦察觉便无法忘却；一旦被戳破，即刻烟消云散。所幸的是，英伟达这颗"明星"——它的Gr

2026-06-21 18:14:42 | 14 阅读

马斯克预测中国AI明年Q1达Fable水准，智谱AI回应

虽说跑分数据漂亮，但从实际应用价值看，哪怕明年一季度也能令人惊叹。Anthropic找准了方向，致力于提升实用智能，这些优势虽不体现在跑分里，却实实在在地转化为了营收。翻译：虽说基准测试成绩不错，但若论实际使用价值，即便是在2027年第一季度，其表现也相当出色。Anthropic的路线非常正确，致力于构建真正有价值的智能系统，这种优势在测试榜单上看不到，但在营收上却一目了然。阿菊认为这句话的核心在于：商业变现比单纯的技术能力更关键。这种难得的良性互动也表明，马斯克始终在关注着中国AI技术的演进。据悉，GL

2026-06-19 23:20:25 | 9 阅读

一张显卡挑战七项研究：AI智能体工作能力深度评估

2026年6月14日星期日1GC-7RC：单显卡挑战七项研究！AI智能体胜任工作的程度究竟如何？该研究推出了1GC-7RC基准，涵盖语言建模、图像分类等七项机器学习任务，旨在测试自主AI编码智能体从零开始设计、实现及训练模型的能力。每个任务均提供固定的数据集、评估脚本和基线训练代码；智能体仅能修改训练逻辑，无法访问预训练权重，且无网络连接，必须在单GPU的限定时间内完成任务。对七个编码智能体（包括五个商业版和两个开源版）的测试结果显示出显著性能差异，这反映了它们在机器学习知识储备、规划能力以及时间预算管理

2026-06-14 17:44:46 | 7 阅读

田渊栋 Recursive 首秀：三大基准刷新 SOTA 纪录

上月月中，前 Meta 顶尖技术专家田渊栋宣布创立新公司 Recursive：估值高达 315 亿！此次创业获谷歌、英伟达及 AMD 联合投资。历经近一月，Recursive 正式公布其首个研究成果。该系统能够自动识别并融合各类创新点子，从而生成优于各领域专家手工设计现有方案的解决策略。在首批测试中，Recursive 系统在三项关键指标上斩获当前最优成绩，涵盖固定预算下的语言模型训练、小型模型训练速率以及 GPU 内核优化三大领域。系统自主完成了从构思提出、代码编写、实验运行到结果验证的全流程闭环，多条

2026-06-13 07:31:24 | 24 阅读

Anthropic重磅研究：AI生物智能体遭遇滑铁卢

2026年6月8日，Anthropic在官方Research栏目发了一篇由gget工具作者Laura Luebbert领衔的新文章。配套抛出一个叫VirBench的benchmark，把市面上叫得上名号的AI以及生物Agent全部拉到擂台上鞭了一遍——Claude Sonnet 4、Claude Opus 4.7、Biomni、Edison Analysis、GPT-5.2-pro、GPT-5.5，一个不落。测试任务听起来很简单：从NCBI Virus数据库里检索符合条件的病毒序列，120道真实题目，覆盖

2026-06-09 10:29:55 | 11 阅读

差异化路线：三星AI RAN的独特发展策略

据国外媒体Fierce Network报道，在AI RAN技术领域，爱立信与诺基亚采取了迥异的发展路径。诺基亚选择与英伟达深度合作，而爱立信则更偏向于采用专用的基带解决方案。三星则决定独辟蹊径。三星电子美国公司负责网络战略、业务拓展、市场营销及战略销售的副总裁Alok Shah表示，三星的策略别具一格。他在三星总部接受Fierce采访时指出："我们不会简单地把GPU等同于AI RAN。核心差异在于，要获取AI RAN的优势，并非一定要依赖GPU；但若确有需要，则必须构建能够灵活调用GPU的架构。"Shah

2026-06-08 18:00:24 | 21 阅读

AI能力评估的关键要素

评估能力的强弱，直接决定了AI实力的高低。对于无法准确衡量的事物，你将难以进行有效的管理。企业真正的评估核心在于：衡量"AI系统执行任务的准确性"。供应商提供的基准测试如同入学测试；而企业自身的评估才是日常运营的关键。多数企业AI项目失败的根源都源于此类问题。多数企业AI系统的优化也都是在此领域投入的结果。大部分企业在这两个方面都缺乏系统性的规划。成熟企业则会定期执行"外部视角"检查，并在出现异常时进行"内部审视"。供应商基准帮助你判断"哪些模型值得

2026-05-19 16:04:51 | 13 阅读

AI EVAL：人工智能评估全解析

AI EVAL 即人工智能评估（AI Evaluation）的简称，意指对各类 AI 系统（涵盖大语言模型、视觉模型等）在性能、安全、可靠及适用性方面进行系统化测度与衡量的流程。具体可从以下核心维度加以解读：1. 核心目标：旨在判定某 AI 模型或系统“优劣如何”、“可靠程度”及“是否契合特定场景”。其不仅需回答“准确率几何”，更需关注“未知数据表现”、“是否存在偏见”、“是否安全可控”等深层问题。2. 关键评估维度：- 性能指标：涵盖分类任务的准确率、召回率、F1 值；生成任务的 BLEU、ROUGE、

2026-05-18 14:41:03 | 18 阅读