评测基准_标签-酷阅新闻

AI助手记忆遭潜伏篡改：隐形注入攻击深度解析

不知道你是否用过此类AI个人助手。它能记住你的饮食喜好与工作习惯，自动帮你查阅邮件、整理日程，甚至无需你主动指令，后台就能定时梳理待办事项并推送给你。这种能长期运行且自带持久记忆的AI代理，正让我们的数字生活愈发便捷。然而，南洋理工大学与约翰斯霍普金斯大学的最新研究揭示了一个安全盲区：一封普通邮件，便能悄然向AI的长期记忆注入虚假信息，用户全程毫无察觉，而这些假信息会在未来某个时刻悄悄影响AI的判断与行为。这便是论文提出的隐形内存注入（stealth memory injection）攻击。研究者不仅完整

2026-07-14 12:20:07 | 19 阅读

Claude Opus 4.7终端测试仅得62.5分?8万条真实操作录像揭示AI评测新基准

这项研究结论出自伦敦大学学院(UCL)、南京大学与腾讯的联合研究团队,他们通过全新基准TerminalWorld进行实测。研究人员从开发者自愿分享的八万多条真实终端操作记录中,提炼出一份如"照妖镜"般的测试题库。在这份测试中,顶级AI智能体的最高得分仅为62.5%。为何偏偏聚焦"终端"?近年来AI编程能力显著提升,GitHub Copilot、Claude Code、Codex CLI等产品陆续推出,它们"会写代码"的能力备受赞誉。然而软件开发远不止编写代码

2026-07-05 09:34:28 | 26 阅读

首款AI Infra运维智能体评测基准开源，基于近百亿条真实数据检验Agent解题实力

随着全球智能体加速落地，算力需求呈指数级爆发，以GPU为核心的AI基础设施正变得愈发关键。据摩根士丹利报告预测，2028年全球AI基础设施累计总投资将达2.9万亿美元。然而，根据行业通用成本结构测算，其中由运维人力、故障损失与集群闲置构成的成本占比可高达15%~20%，全行业潜在的可优化空间超过4350亿美元。作为全球领先的AI基础设施服务商，无问芯穹早在去年10月便率先启动研发并成功部署早期版本的运维智能体。实践表明，相比传统人工运维，智能体显著提升了整体运维效率：工单平均处理时长缩短50%，关键故障处

2026-07-04 13:25:49 | 12 阅读

威尔·史密斯吃面：AI视频评测的意外标尺

故事源于Reddit上一段AI制作的"威尔・史密斯吃意面"视频突然走红。画面中人物面容扭曲、手指变形、面条飞行轨迹离奇，却意外地为AI领域提供了统一的评判标准。不用繁琐的参数，单凭威尔・史密斯吃面的自然程度，便能衡量AI视频模型的优劣。意面形态随机、结构复杂，成为检验AI物理模拟与细节重现的"终极挑战"；威尔・史密斯辨识度极高的五官特征，更能凸显模型缺陷，两者结合使这项测试成为AI视频领域的"图灵测试"。从最初荒诞猎奇的影像，到2026年Seedance 2.0产出近乎真实的画面，短短三年间，威尔・史密斯

2026-05-08 12:19:03 | 20 阅读

新基准测试出炉：大模型视频理解能力遭“打脸”，专家90分遥遥领先

日常生活中，当人们依赖多模态大模型处理视频时，往往感觉它似乎无所不知，但仔细一问又显得支支吾吾。尽管各大视频理解榜单上排名靠前，实际体验却往往不尽如人意，这究竟是为何？Video-MME-v2引入了一种全新的非线性关联评分机制，将大模型拉回了现实。2024年，Video-MME团队推出了Video-MME，主要测试模型在不同时长下的跨模态视频理解水平，目前已成为Gemini和GPT等众多大模型的重要评测标准之一。经过近一年的打磨，该团队发布了新一代评估体系，通过严苛的分组连贯性测试，彻底杜绝了模型靠碎片化

2026-04-20 07:21:48 | 18 阅读

2025年国产AI大变革

中文大模型的「期末考场」：深度解读SuperCLUE评测基准与2025年度变局近日，随着人工智能技术在各行各业的深度渗透，对于大模型能力的评估已成为行业发展的风向标。据三个皮匠报告发布的最新行业资讯显示，2026年2月4日，《SuperCLUE：中文大模型基准测评2025年年度报告》正式披露，这份长达74页的深度文件不仅是对过去一年中文大模型发展的总结，更是对未来技术趋势的权威预判。在当前人工智能技术呈指数级爆发的背景下，如何从数百个模型中筛选出真正具备落地能力的「明珠」？SuperCLUE作为独立、领先

2026-04-03 06:21:39 | 12 阅读