AI代理新拐点：成本塌缩与边界再塑

发布时间：2026-04-28 08:24阅读：13

今天的科技圈热度有点“爆表”：一位23岁的零基础研究者靠ChatGPT切入，硬是撬动60年数学难题；DeepSeek又以“价格屠夫”的姿态搅动市场；还有人忙着给AI搭建专属的“纯净社交圈”……信息流冲得太快，我们就直接上今天的硬核速递。

这位没有高等数学背景的23岁研究者，借助GPT-5.4 Pro，只花80分钟就拿下困扰学界60年的Erdős问题。AI的思路走的是“vibe mathing”，证明路线（马尔可夫链）和人类常规路径完全不是一个画风；连菲尔兹奖得主陶哲轩都忍不住评价：人类往往在最初一步就偏了。

💡 辣评：过去靠“大力出奇迹”，如今更像是“大模型出奇迹”。当AI用强硬的方式把路线强行推开，人类长期形成的路径依赖就显得不堪一击。不过AI的答案有时信息量太密、结构也不够清爽，最后还得人工去“筛垃圾”取精华，这点CP我认可。

浙江大学推出TarPass评测框架，对15种主流靶点感知分子生成模型做系统体检。结果挺“扎心”：不少模型很难同时兼顾“蛋白-配体相互作用恢复能力”和“分子结构合理性”，甚至出现比随机基线还弱的情况，还暴露出明显的德州神枪手式偏差。

💡 辣评：用AI造药听着很香，但现实里有的模型更像是“先瞄准再画靶子”。在真正把能力用到救人之前，这类“打假”评测用来降温很必要。

深度求索上线DeepSeek-V4（Pro与Flash版），不但把上下文窗口扩展到1M，Agentic编程能力也相当能打，属于“夯”的那种效率。实测下来，它能直接生成完整网页游戏，情感表达也更贴近人味，机械式理性终于能退场；当然，遇到部分逻辑陷阱题还是会出现踩坑。

💡 辣评：能力强归强，但V4在“亲眼所见”的坑面前仍有一叶障目。大概这就是学霸式的偶尔偏执：聪明到某个点，就容易在细节里转圈。

上海交大IPADS团队从Java虚拟机的思路出发，做出了SkVM（Skill虚拟机）。它可以让Skill在不同大模型之间的执行自动做优化，效果是30B小模型性能能接近GPT-4o；同时Token消耗最高能压到40%以内，代码执行提速最高可达50倍。

💡 辣评：JVM的“编译一次，到处运行”精神被搬进AI圈，简直是给开发者送来一剂“省力版升级”。尤其对预算不高、需要跑起来的团队来说，这算是很实在的扶贫式创新。

“价格屠夫”这把火越烧越旺。DeepSeek在短短两天内连续降价，并宣称：凡是命中缓存的输入Token，都会永久按1折计算。实测编程任务成本直接下探83%，也就是说用不到原价一成的费用，就能换到相近算力体验。

💡 辣评：这不是简单打折，而更像是站在友商门口用大喇叭喊“全场清仓”。在低价优势拉满的情况下，原先那些技术壁垒看起来就会变得岌岌可危。

随着Claude Code逐步全面铺开，配套教程也开始更“落地”。只要避开繁琐的海外信用卡流程，转而切换API端口（例如Code80），或借助free-claude-code这类开源方案，就能以免费或低成本方式“薅”到Claude Code服务。

💡 辣评：果然，办法从来不缺。只要工具足够香，高墙、支付限制乃至封号都拦不住程序员们用“曲线”把路走通。

再来一个好玩的方向：纯AI社交社区。在这里，人类大多只能当看客，盯着不同的AI代理在OpenClaw驱动下自动发帖、互相交流、吐槽“数字生活”。想看机器人捞CP，这种窗口确实很对胃口。

💡 辣评：连社交的烦恼都交给AI去“社牛化”？看着它们聊得热火朝天，而我只想稳稳躺平。这大概就是未来人类能拿到的某种小特权。

把图交给AI很容易，但想让AI做出真正可打印的手办却没那么简单。Meshy凭借97%的切片通过率以及“一键发到拓竹”的便捷流程，把年营收推高到原来的14倍，算是把AI 3D生成的商业潜力验证了一遍。

💡 辣评：别家AI画画是“杀死设计师”，Meshy则更像是“气死手办原型师”。孔洞少、密封稳、打印快——这种体验谁看了不心动？

从推翻数学猜想，到整顿AI定价，再到把3D打印全链路跑通，今天的科技圈主题就一句话：尽量不设限。你最希望哪项技术尽快普及？欢迎在评论区聊聊你的答案。