AI代理新拐点:成本塌缩与边界再塑
今天的科技圈热度有点“爆表”:一位23岁的零基础研究者靠ChatGPT切入,硬是撬动60年数学难题;DeepSeek又以“价格屠夫”的姿态搅动市场;还有人忙着给AI搭建专属的“纯净社交圈”……信息流冲得太快,我们就直接上今天的硬核速递。
这位没有高等数学背景的23岁研究者,借助GPT-5.4 Pro,只花80分钟就拿下困扰学界60年的Erdős问题。AI的思路走的是“vibe mathing”,证明路线(马尔可夫链)和人类常规路径完全不是一个画风;连菲尔兹奖得主陶哲轩都忍不住评价:人类往往在最初一步就偏了。
💡 辣评:过去靠“大力出奇迹”,如今更像是“大模型出奇迹”。当AI用强硬的方式把路线强行推开,人类长期形成的路径依赖就显得不堪一击。不过AI的答案有时信息量太密、结构也不够清爽,最后还得人工去“筛垃圾”取精华,这点CP我认可。
浙江大学推出TarPass评测框架,对15种主流靶点感知分子生成模型做系统体检。结果挺“扎心”:不少模型很难同时兼顾“蛋白-配体相互作用恢复能力”和“分子结构合理性”,甚至出现比随机基线还弱的情况,还暴露出明显的德州神枪手式偏差。
💡 辣评:用AI造药听着很香,但现实里有的模型更像是“先瞄准再画靶子”。在真正把能力用到救人之前,这类“打假”评测用来降温很必要。
深度求索上线DeepSeek-V4(Pro与Flash版),不但把上下文窗口扩展到1M,Agentic编程能力也相当能打,属于“夯”的那种效率。实测下来,它能直接生成完整网页游戏,情感表达也更贴近人味,机械式理性终于能退场;当然,遇到部分逻辑陷阱题还是会出现踩坑。
💡 辣评:能力强归强,但V4在“亲眼所见”的坑面前仍有一叶障目。大概这就是学霸式的偶尔偏执:聪明到某个点,就容易在细节里转圈。
上海交大IPADS团队从Java虚拟机的思路出发,做出了SkVM(Skill虚拟机)。它可以让Skill在不同大模型之间的执行自动做优化,效果是30B小模型性能能接近GPT-4o;同时Token消耗最高能压到40%以内,代码执行提速最高可达50倍。
💡 辣评:JVM的“编译一次,到处运行”精神被搬进AI圈,简直是给开发者送来一剂“省力版升级”。尤其对预算不高、需要跑起来的团队来说,这算是很实在的扶贫式创新。
“价格屠夫”这把火越烧越旺。DeepSeek在短短两天内连续降价,并宣称:凡是命中缓存的输入Token,都会永久按1折计算。实测编程任务成本直接下探83%,也就是说用不到原价一成的费用,就能换到相近算力体验。
💡 辣评:这不是简单打折,而更像是站在友商门口用大喇叭喊“全场清仓”。在低价优势拉满的情况下,原先那些技术壁垒看起来就会变得岌岌可危。
随着Claude Code逐步全面铺开,配套教程也开始更“落地”。只要避开繁琐的海外信用卡流程,转而切换API端口(例如Code80),或借助free-claude-code这类开源方案,就能以免费或低成本方式“薅”到Claude Code服务。
💡 辣评:果然,办法从来不缺。只要工具足够香,高墙、支付限制乃至封号都拦不住程序员们用“曲线”把路走通。
再来一个好玩的方向:纯AI社交社区。在这里,人类大多只能当看客,盯着不同的AI代理在OpenClaw驱动下自动发帖、互相交流、吐槽“数字生活”。想看机器人捞CP,这种窗口确实很对胃口。
💡 辣评:连社交的烦恼都交给AI去“社牛化”?看着它们聊得热火朝天,而我只想稳稳躺平。这大概就是未来人类能拿到的某种小特权。
把图交给AI很容易,但想让AI做出真正可打印的手办却没那么简单。Meshy凭借97%的切片通过率以及“一键发到拓竹”的便捷流程,把年营收推高到原来的14倍,算是把AI 3D生成的商业潜力验证了一遍。
💡 辣评:别家AI画画是“杀死设计师”,Meshy则更像是“气死手办原型师”。孔洞少、密封稳、打印快——这种体验谁看了不心动?
从推翻数学猜想,到整顿AI定价,再到把3D打印全链路跑通,今天的科技圈主题就一句话:尽量不设限。你最希望哪项技术尽快普及?欢迎在评论区聊聊你的答案。