标签

AI评测工具告急:Claude Mythos横空出世,传统测试方法已不够用

你是否曾设想过,评估AI实力的工具,有朝一日会被AI本身给"弄垮"?这一天,在2026年5月8日,真实上演了。主角是Anthropic最新、也最神秘的模型——Claude Mythos。这个模型从未向公众开放,普通用户无法接触它,但它最近在AI安全评测机构METR那里创造了一个历史性的纪录:在人类需要花费16小时才能搞定的复杂编程任务上,Claude Mythos实现了50%的成功率。结果,METR的评测系统直接"瘫痪"了。METR(Machine Intelligence Evaluation & Re

2026-05-11 22:15:09  |  5 阅读

AI代理成本正呈指数级上升?

Toby Ord关于AI的近期未来,存在一个极其关键但几乎无人探讨的问题。我们都看过METR的图表,这些图表显示,人工智能代理能够执行的任务时长在过去7年中呈指数级增长。GPT-2只能完成人类只需几秒钟就能完成的软件工程任务,而最新的模型(在50%的情况下)可以完成人类需要几个小时才能完成的任务。鉴于这种趋势没有停止的迹象,人们自然而然地开始对其进行推断,预测我们何时才能期待人工智能能够完成工程师需要一整天、一周甚至一年才能完成的任务。但我们缺少一个关键信息——完成这项工作的成本。在过去的七年里,人工智能

2026-04-18 10:51:42  |  7 阅读

AI编程真的让开发更快吗?

学习笔记011:近期看到腾讯发布的一篇文章,提到一个现象:AI辅助编程,显著降低了非技术背景人士进入软件开发领域的门槛。 据相关统计,2025年12月美国iOS应用发布量同比增长56%,2026年1月同比增长54.8%(近四年最快增速);App Store 2025年新提交应用达55.7万款,创下2016年以来最大增幅。 门槛降低带来了机遇,但同时也引发了诸多挑战: 1.低质量应用大量涌现 个人开发者可以借助AI批量生成数十款应用并发布上线,期望其中部分能带来收益。美国知名在线社区Reddit也出现了“垃

2026-04-14 14:02:38  |  4 阅读