AI数学家上岗,00后创业者获108亿
今日AI领域发生数件值得关注的事件,逐一来看。
这则新闻颇为震撼。
一家名为Axiom Math的公司宣布,自今年2月起提交的8篇数学论文中,已有5篇通过同行评审并正式发表至学术期刊。这些论文涵盖数论、组合数学、代数几何等多个方向,其中一篇还成功证明了Ballantine等人提出的10个猜想中的6个,并发现了一个反例。
该系统名为AxiomProver,其核心逻辑是将自然语言描述的数学问题转换为Lean形式化证明,再由独立检测器对每一步进行验证。它并非让大模型生成看似证明的文本,而是确保每一步都可被机器验证。
创始人洪乐潼,2001年出生,广州人,MIT三年内获得数学与物理双学位,后在斯坦福大学攻读博士期间辍学创业。公司3月完成2亿美元A轮融资,估值达16亿美元(约108亿人民币)。
有投资人表示:“AI将编写所有代码,但数学将验证其有效性。”
有趣的是,Axiom的系统在普特南数学竞赛(北美最难的本科数学竞赛)中获得满分,并解决了困扰学界数十年的两个Erdős猜想。创始数学家Ken Ono甚至辞去弗吉尼亚大学终身教职,全职加入该公司。
上海创智学院的LeapQuest团队今日发布两篇ICML 2026论文,完成了一项此前未被系统研究的任务:使医学AI在推理过程中主动调用视觉工具来“寻找证据”。
传统医学多模态模型被动接收图像后生成解释。但对微小病灶或几秒手术动作,模型是否“看到”存在不确定性。
新方案Ophiuchus的思路是将模型转化为视觉智能体——它能自主决定何时调用SAM2进行分割、何时使用Zoom-in放大关键区域,工具返回结果将进入推理链,驱动后续判断。
结果:Ophiuchus-7B在8个医学VQA基准上获得68.0分,超过OpenAI o3的62.2和GPT-5的59.9。工具调用准确率达97.9%。
这说明:在依赖细粒度视觉证据的场景中,模型大小并非唯一瓶颈,“会看”比“会想”更重要。
Meta今日召开2026年度股东大会。十项股东提案全被否决,最高支持率仅27%。扎克伯格在会上重点强调AI,将战略分为四方面:AI改进核心应用与广告、个人AI智能体、商业智能体、AI硬件。
数据惊人:2026年资本支出预计为1150-1350亿美元,几乎是去年的两倍。
会后,Meta宣布全球推出订阅服务——Instagram Plus、Facebook Plus、WhatsApp Plus(月费2.99-3.99美元)及面向AI用户的Meta One系列(7.99-19.99美元/月)。
扎克伯格称这是“20年来最激动人心的时刻”。但事实上,AI收入尚未完全实现,公司仍处于大量投资阶段。先做产品、确认留存、再货币化——这一逻辑Meta已实践多年,AI时代再次上演。
开源大神Simon Willison今日发文称OpenAI和Anthropic已找到产品市场契合点。
但驱动因素并非来自ChatGPT。ChatGPT周活9亿,付费率仅5.6%,每月10-20美元的收入难以覆盖万亿美元级基础设施成本。
真正让Anthropic扭亏为盈的是Claude Code、Codex等深度嵌入工作流的Agent产品。Simon每月花费200美元订阅Anthropic Max和OpenAI Pro,但实际API价值超过2180美元。
企业端更夸张。Uber几个月内烧光全年AI预算,微软开始取消Claude Code许可证。OpenAI和Anthropic正推行“去中间化”——直接抢Cursor、GitHub Copilot的客户。
评论区有人计算得出:全球3000万开发者,若要覆盖AI基础设施成本,每个开发者需将工资的20%用于Token。
清华PilotDeck开源:清华THUNLP实验室联合面壁智能开源了一个Agent系统,核心卖点是“独立工作舱”——每个项目有独立文件系统、记忆和技能,互不干扰。智能路由在子Agent层面进行模型调度,实测Token成本降低70%。
Gemma 4多词元预测:Google为Gemma 4增加了MTP草稿模型,用投机解码并行生成多个词元,主模型一次校验,推理速度最高提升3倍。主要适用于移动端和边缘计算场景,大型API服务商受益有限。
腾讯Miora国际版公测:腾讯推出AI创意Agent Studio,在同一画布上生成图像、视频、UI/UX、3D,无需在Midjourney、Runway、Figma之间来回切换。内置品牌、故事板、插画等专业Agent,还有Skills商店。
MCP新版本7月28日发布:三个关键特性——服务器能下发HTML界面让用户交互、长任务有了正式管理机制、授权更严安全性更好。不过现在还有多少人在用刚需MCP?感觉热度已下降。
Agent工程范式在变:ginobefun梳理了Agent六大模块的变化趋势——Prompt从写长提示词变成按需加载上下文(Context Engineering),Memory从纯向量检索变成文件系统+检索混合,Tools从Function Call变成直接用CLI和Script。核心观点:好的Agent不是靠模型硬扛,而是用工程系统承载模型的不确定性。
今日日报反复出现的主题:AI正从“能聊天”变成“能干活”。
Axiom Math证明AI能做真正的学术研究,Ophiuchus证明AI能在推理中主动寻找证据,Simon Willison说PMF来自深度嵌入工作流的Agent而非聊天窗口,清华PilotDeck在做的也是让Agent真正成为生产力工具。
聊天机器人的时代正在过去。接下来的战场,是谁能把AI嵌入到真正的工作流程里,让它产出可验证、可量化、可信赖的结果。
Axiom的投资人说得对:AI将编写所有代码,但数学将证明其是否有效。这句话放到更大的语境里也成立——AI能做很多事,但只有可验证的输出才值得信任。