METR_标签-酷阅新闻

AI评测工具告急：Claude Mythos横空出世，传统测试方法已不够用

你是否曾设想过，评估AI实力的工具，有朝一日会被AI本身给"弄垮"？这一天，在2026年5月8日，真实上演了。主角是Anthropic最新、也最神秘的模型——Claude Mythos。这个模型从未向公众开放，普通用户无法接触它，但它最近在AI安全评测机构METR那里创造了一个历史性的纪录：在人类需要花费16小时才能搞定的复杂编程任务上，Claude Mythos实现了50%的成功率。结果，METR的评测系统直接"瘫痪"了。METR（Machine Intelligence Evaluation & Re

2026-05-11 22:15:09 | 10 阅读

AI代理成本正呈指数级上升？

Toby Ord关于AI的近期未来，存在一个极其关键但几乎无人探讨的问题。我们都看过METR的图表，这些图表显示，人工智能代理能够执行的任务时长在过去7年中呈指数级增长。GPT-2只能完成人类只需几秒钟就能完成的软件工程任务，而最新的模型（在50%的情况下）可以完成人类需要几个小时才能完成的任务。鉴于这种趋势没有停止的迹象，人们自然而然地开始对其进行推断，预测我们何时才能期待人工智能能够完成工程师需要一整天、一周甚至一年才能完成的任务。但我们缺少一个关键信息——完成这项工作的成本。在过去的七年里，人工智能

2026-04-18 10:51:42 | 27 阅读

AI编程真的让开发更快吗？

学习笔记011：近期看到腾讯发布的一篇文章，提到一个现象：AI辅助编程，显著降低了非技术背景人士进入软件开发领域的门槛。据相关统计，2025年12月美国iOS应用发布量同比增长56%，2026年1月同比增长54.8%（近四年最快增速）；App Store 2025年新提交应用达55.7万款，创下2016年以来最大增幅。门槛降低带来了机遇，但同时也引发了诸多挑战： 1.低质量应用大量涌现个人开发者可以借助AI批量生成数十款应用并发布上线，期望其中部分能带来收益。美国知名在线社区Reddit也出现了“垃

2026-04-14 14:02:38 | 9 阅读