标签

AI速览 7月2日 周四精选

发布时间:2026-07-02 10:04阅读:2

MIT Technology Review深入报道了一个常被忽视的现象:主流大语言模型在内容生成时展现出明显的「从众效应」。实验显示,当要求Claude、ChatGPT、Gemini生成随机数时,它们几乎给出相同答案(如7),后续请求也呈现高度可预测的模式。这种趋同性不仅限于随机数生成,还延伸到观点表达、创意写作和决策建议中,严重限制了大模型的多样性和创新潜力。一家初创企业正尝试通过引入多样性注入机制来突破这一困境。

**说人话:**虽然各家人工智能品牌不同,但答案却像提前商量好了一样——连随机说个数都差不多,这确实值得深思。

前英伟达视觉与机器人研究员、清华大学助理教授李一鸣创立的「厘清智能」在两个月内完成数亿元种子轮融资,投资方阵容强大:顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND,以及智元机器人、灵心巧手、世纪金源等产业资本。团队提出PhysicalAIInfra基础设施,包含自研数据管线(将数据量从几十万小时提升至百万到千万小时)和物理引擎(实现Real-to-Sim-Real闭环),支持切割、旋拧、插拔等精细操作技能训练,可跨灵巧手、机械臂等本体部署。李一鸣明确表示「不想被贴上世界模型的标签」,认为世界模型只是解决问题的技术路线之一。

**说人话:**清华教授从英伟达回国创业,短短两个月就获得数亿融资——因为他的AI不仅能聊天,还能让机器人真正动手干活。

灵动芯光完成数千万元天使++轮融资(磐霖资本领投),专注于硅基光子集成芯片,核心解决AI算力集群中芯片间光互联问题。随着AI大模型对算力需求的爆发,传统铜线电互联已达物理极限,光I/O技术成为让数万颗芯片协同工作的关键。公司掌握DWDM多波长硅光集成光源技术,可实现32-64波长复用,带宽容量远超竞品的CWDM方案。创始人陈教授为清华大学电子工程系教授,技术源自十余年科研成果转化。公司预计光I/O将在2027-2028年进入产业化爆发期。

**说人话:**AI芯片数量激增、算力持续增长,但芯片之间的「数据高速公路」带宽不足——这家公司用光代替电来解决这一瓶颈。

哥伦比亚大学等机构研究者提出了BayesBench,这是首个系统评估大模型在多轮对话中信念更新能力的基准。研究发现,虽然模型规模扩大确实改善了潜在变量推断和证据积累能力,偶尔能匹配贝叶斯后验分布,但这些改进不能可靠地传递到下游预测任务,暴露了「推断潜在结构」与「利用它理性更新目标信念」之间的显著鸿沟。该基准覆盖7个大模型(3B-70B),包含贝叶斯估计、贝叶斯预测和潜在框架贝叶斯预测三个递进任务层级。

**说人话:**AI虽然能在对话中不断获取新信息,但未必真正做到了「理性思考」——它记住了信息,却不一定能用这些信息做出更优判断。

ICML 2026 RLxF Workshop接收论文提出了一个关键问题:多轮对话中大模型的改进究竟是来自有效反馈,还是仅仅因为有了更多尝试机会?研究者设计了控制性学生-教师协议,在Omni-MATH、Codeforces、BBEH Linguini和ARC-AGI1四个基准上评估13个开源模型。核心发现是:自我生成的反馈几乎没有超过无引导自我改进的效果,而最强外部教师能产生显著更大的反馈特异性增益——这意味着有用的反馈必须提供超越「再试一次」的指导。

**说人话:**让AI「自己给自己提意见」基本无效,真正有效的是来自外部的精准指导——就像学生自查作业和老师指出错误,效果截然不同。

研究者提出了HASTE,一个分层多智能体系统,解决ML工程Agent在不同竞赛中重复发现已知技术的问题。系统将跨竞赛知识组织为三个作用域层级(全局层、领域层、竞赛特定层),每层配备匹配的Agent级别,由编排器协调领域专家并通过LLM驱动的抽象在层级间促进知识迁移。受控消融实验证实,层级化知识组织显著优于扁平化和冷启动方法,为AI Agent的跨任务知识复用提供了新范式。

**说人话:**当前AI每次处理新任务都从零开始,HASTE让AI像人一样积累「经验」,下次遇到类似问题直接调用已学到的技能。

航墨科技完成近亿元天使轮融资(中投万方、三贤科技、北航天汇、诚美资本等投资),核心技术源自北航机器人所863项目。公司首创智能变刚度关节模组FlexmoJoint,是国内首个实现机器人关节抗冲击、能量回收及多样性刚度能力的产品。该技术使外力估计误差降低23%,能耗减小31.2%。公司还推出了全球首款视觉感知全地形自适应AI外骨骼IRMO M1,众筹金额已达700万元。2025年全球机器人关节模组市场规模约100亿美元,中国市场2030年预计超640亿元。

**说人话:**这家公司让机器人关节像人一样「有弹性」——遇到碰撞会缓冲,而非硬碰硬,这在工业和安全场景中非常实用。

宠爱友家完成数千万元人民币融资,核心产品包括AI鲜食料理机、AI智能项圈、AI伴宠机器人等智能硬件。公司以AI大模型能力为核心壁垒,将智能硬件采集的宠物行为、健康、进食等多维数据,通过AI算法识别宠物营养需求,反向定义功能粮配方和喂养方案。公司负责人曹勇拥有5年宠物赛道创业经验,曾将业务做到单月营收峰值800万元,此前任蚂蚁金服数字商业总监。

**说人话:**给宠物戴上智能项圈,AI就能分析其健康状况,进而推荐合适的食物——宠物界的「个性化健康管理」。

研究者形式化了LLM Jury(多个大模型评审员达成共识评分的机制)的统计行为,在Huber污染模型下证明:当哪怕只有一个评委以大模型典型方式失效(模式坍塌、谄媚、安全过滤)时,PoLL无论评审团规模多大都会产生无界偏差。这一发现对当前广泛采用的LLM-as-a-Judge评估范式提出了根本性质疑,意味着简单地增加评审员数量并不能解决评审质量问题。论文提出了RoPoLL(鲁棒评审面板)作为解决方案。

**说人话:**让多个AI投票打分看似公平,但只要其中一个AI「带偏」了,整个评分系统就会彻底失灵——人数多并不能保证公平。

研究者提出了AgRefactor,一个自进化的Agent工作流系统,用于将现实世界软件代码自动转换为可用于高层次综合(HLS)的可综合代码。HLS提供了从概念到硅片的快速路径,但软件与硬件编程实践之间的巨大鸿沟使得自动化转换极具挑战性。AgRefactor采用迭代优化策略,解决了现有大模型方法灵活性不足、难以扩展、计算成本高的三大痛点,为AI辅助芯片设计领域提供了实用工具。

**说人话:**软件程序员现在无需学习硬件设计语言——AI Agent能自动把普通代码翻译成能在芯片上运行的硬件描述。

研究者系统探索了多Agent审议方法在法律推理任务中的应用。随着AI越来越多地应用于法律领域,基于大模型的自主Agent(Agentic AI)成为提高司法可及性的重要方向。然而,多Agent方法在法律领域此前几乎未被研究。论文比较了不同多Agent协作策略(辩论、角色扮演、陪审团审议等)在法律推理任务中的表现,为AI辅助司法提供了新的技术路径。

**说人话:**让多个AI分别扮演原告律师、被告律师和法官来模拟庭审辩论,最终帮助人们更好地理解法律问题。

研究者提出了Contrastive Reflection方法,用于迭代优化控制大模型Agent的Prompt。核心思想源自信息检索领域的实践:改进Prompt更像「调试」而非「盲目搜索」——工程师需要知道哪个行为失败了、哪个邻近行为仍然有效、两者的区别是什么、以及修改是否能泛化。该方法通过对比成功和失败的案例来指导Prompt优化方向,在IR评估任务中展示了显著效果,为Agent Prompt工程提供了可操作的工程化方法。

**说人话:**与其让AI反复试错来优化提示词,不如直接对比「什么管用、什么不管用」——像程序员debug一样精准修复问题。

研究者探索了将大模型训练为零样本工作流生成器的可能性。传统上大模型擅长解决单个实例问题,但缺乏跨实例的结构一致性。工作流能编码任务级别的可复用算法模式,提供跨实例鲁棒性、可解释的调试轨迹和可复用性。论文提出让大模型直接从任务描述生成结构化工作流,无需手动设计,大幅提升了AI系统的部署可靠性。

**说人话:**以前AI只能解决单个问题,现在能直接生成一套「标准操作流程」,以后遇到同类问题直接套用。

研究者提出了基于强化学习的框架,用于解决微型超声(μUS)前列腺癌检测中的关键挑战。μUS是一种新兴的、有前景的前列腺癌成像方式,但准确识别可疑组织高度依赖临床经验,导致显著的观察者间差异。由于监督信号稀疏且嘈杂(通常仅限于核心级别的癌症标注),训练可靠的深度模型非常困难。该RL框架学习「往哪里看」的策略,有效降低了模型对密集标注的依赖。

**说人话:**给AI一个「会找重点」的眼睛——用强化学习教它在超声图像中精准定位可疑区域,帮医生更快发现前列腺癌。

研究者识别了大模型中一种新的公平性失效模式——「演绎性刻板印象」(deductive stereotyping):模型将群体级别的统计规律应用于个体案例,产生逻辑上自洽但社会上有偏见的推理。与传统的直接偏见不同,这种偏见更隐蔽,因为推理链条本身看起来是合理的。论文提供了统计解释,并提出了Fair-GCG方法来通过对抗性引导缓解这一问题。研究发现,虽然推理能力通常能改善公平性,但这种特定失效模式仍然顽固存在。

**说人话:**AI不是「直接歧视」,而是「推理出歧视」——它用群体数据「合理地」得出对个人的偏见判断,这种隐蔽的偏见比明面上的歧视更危险。

今日AI新闻呈现出一个有趣的「软硬一体」趋势分化。清华系两笔重磅融资——厘清智能(Physical AI基础设施)和灵动芯光(硅基光子芯片)——都指向同一个判断:2026年AI竞赛的主战场正在从「模型能力」向「系统能力」转移。李一鸣说「世界模型只是运送荔枝的马」这句话精准概括了当下的行业焦虑:光有好模型不够,数据采集、物理引擎、硬件部署必须全栈打通。

与此同时,学术界在反思大模型的根本性局限。MIT Tech Review的「群体思维」报道揭示了模型多样性的虚假繁荣;BayesBench发现大模型能推断但不一定能利用推断结果;反馈机制研究证明自我反馈约等于浪费算力。这些研究共同指向一个方向:当前大模型的认知架构存在系统性缺陷,不仅是训练数据的问题,更是推理机制的根本局限。

值得关注的第三个趋势是「AI+垂直领域」的加速落地。从宠物科技、机器人关节到法律推理和医学影像,AI正在从「通用对话」转向「专业执行」。这可能是2026年下半年最重要的商业机会——不是谁拥有最大的模型,而是谁能在特定场景中打通从数据到决策的完整链路。

整理时间:2026年07月02日 06:21 数据