AI速览 7月2日周四精选

发布时间：2026-07-02 10:04阅读：2

MIT Technology Review深入报道了一个常被忽视的现象：主流大语言模型在内容生成时展现出明显的「从众效应」。实验显示，当要求Claude、ChatGPT、Gemini生成随机数时，它们几乎给出相同答案（如7），后续请求也呈现高度可预测的模式。这种趋同性不仅限于随机数生成，还延伸到观点表达、创意写作和决策建议中，严重限制了大模型的多样性和创新潜力。一家初创企业正尝试通过引入多样性注入机制来突破这一困境。

**说人话：**虽然各家人工智能品牌不同，但答案却像提前商量好了一样——连随机说个数都差不多，这确实值得深思。

前英伟达视觉与机器人研究员、清华大学助理教授李一鸣创立的「厘清智能」在两个月内完成数亿元种子轮融资，投资方阵容强大：顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND，以及智元机器人、灵心巧手、世纪金源等产业资本。团队提出PhysicalAIInfra基础设施，包含自研数据管线（将数据量从几十万小时提升至百万到千万小时）和物理引擎（实现Real-to-Sim-Real闭环），支持切割、旋拧、插拔等精细操作技能训练，可跨灵巧手、机械臂等本体部署。李一鸣明确表示「不想被贴上世界模型的标签」，认为世界模型只是解决问题的技术路线之一。

**说人话：**清华教授从英伟达回国创业，短短两个月就获得数亿融资——因为他的AI不仅能聊天，还能让机器人真正动手干活。

灵动芯光完成数千万元天使++轮融资（磐霖资本领投），专注于硅基光子集成芯片，核心解决AI算力集群中芯片间光互联问题。随着AI大模型对算力需求的爆发，传统铜线电互联已达物理极限，光I/O技术成为让数万颗芯片协同工作的关键。公司掌握DWDM多波长硅光集成光源技术，可实现32-64波长复用，带宽容量远超竞品的CWDM方案。创始人陈教授为清华大学电子工程系教授，技术源自十余年科研成果转化。公司预计光I/O将在2027-2028年进入产业化爆发期。

**说人话：**AI芯片数量激增、算力持续增长，但芯片之间的「数据高速公路」带宽不足——这家公司用光代替电来解决这一瓶颈。

哥伦比亚大学等机构研究者提出了BayesBench，这是首个系统评估大模型在多轮对话中信念更新能力的基准。研究发现，虽然模型规模扩大确实改善了潜在变量推断和证据积累能力，偶尔能匹配贝叶斯后验分布，但这些改进不能可靠地传递到下游预测任务，暴露了「推断潜在结构」与「利用它理性更新目标信念」之间的显著鸿沟。该基准覆盖7个大模型（3B-70B），包含贝叶斯估计、贝叶斯预测和潜在框架贝叶斯预测三个递进任务层级。

**说人话：**AI虽然能在对话中不断获取新信息，但未必真正做到了「理性思考」——它记住了信息，却不一定能用这些信息做出更优判断。

ICML 2026 RLxF Workshop接收论文提出了一个关键问题：多轮对话中大模型的改进究竟是来自有效反馈，还是仅仅因为有了更多尝试机会？研究者设计了控制性学生-教师协议，在Omni-MATH、Codeforces、BBEH Linguini和ARC-AGI1四个基准上评估13个开源模型。核心发现是：自我生成的反馈几乎没有超过无引导自我改进的效果，而最强外部教师能产生显著更大的反馈特异性增益——这意味着有用的反馈必须提供超越「再试一次」的指导。

**说人话：**让AI「自己给自己提意见」基本无效，真正有效的是来自外部的精准指导——就像学生自查作业和老师指出错误，效果截然不同。

研究者提出了HASTE，一个分层多智能体系统，解决ML工程Agent在不同竞赛中重复发现已知技术的问题。系统将跨竞赛知识组织为三个作用域层级（全局层、领域层、竞赛特定层），每层配备匹配的Agent级别，由编排器协调领域专家并通过LLM驱动的抽象在层级间促进知识迁移。受控消融实验证实，层级化知识组织显著优于扁平化和冷启动方法，为AI Agent的跨任务知识复用提供了新范式。

**说人话：**当前AI每次处理新任务都从零开始，HASTE让AI像人一样积累「经验」，下次遇到类似问题直接调用已学到的技能。

航墨科技完成近亿元天使轮融资（中投万方、三贤科技、北航天汇、诚美资本等投资），核心技术源自北航机器人所863项目。公司首创智能变刚度关节模组FlexmoJoint，是国内首个实现机器人关节抗冲击、能量回收及多样性刚度能力的产品。该技术使外力估计误差降低23%，能耗减小31.2%。公司还推出了全球首款视觉感知全地形自适应AI外骨骼IRMO M1，众筹金额已达700万元。2025年全球机器人关节模组市场规模约100亿美元，中国市场2030年预计超640亿元。

**说人话：**这家公司让机器人关节像人一样「有弹性」——遇到碰撞会缓冲，而非硬碰硬，这在工业和安全场景中非常实用。

宠爱友家完成数千万元人民币融资，核心产品包括AI鲜食料理机、AI智能项圈、AI伴宠机器人等智能硬件。公司以AI大模型能力为核心壁垒，将智能硬件采集的宠物行为、健康、进食等多维数据，通过AI算法识别宠物营养需求，反向定义功能粮配方和喂养方案。公司负责人曹勇拥有5年宠物赛道创业经验，曾将业务做到单月营收峰值800万元，此前任蚂蚁金服数字商业总监。

**说人话：**给宠物戴上智能项圈，AI就能分析其健康状况，进而推荐合适的食物——宠物界的「个性化健康管理」。

研究者形式化了LLM Jury（多个大模型评审员达成共识评分的机制）的统计行为，在Huber污染模型下证明：当哪怕只有一个评委以大模型典型方式失效（模式坍塌、谄媚、安全过滤）时，PoLL无论评审团规模多大都会产生无界偏差。这一发现对当前广泛采用的LLM-as-a-Judge评估范式提出了根本性质疑，意味着简单地增加评审员数量并不能解决评审质量问题。论文提出了RoPoLL（鲁棒评审面板）作为解决方案。

**说人话：**让多个AI投票打分看似公平，但只要其中一个AI「带偏」了，整个评分系统就会彻底失灵——人数多并不能保证公平。

研究者提出了AgRefactor，一个自进化的Agent工作流系统，用于将现实世界软件代码自动转换为可用于高层次综合（HLS）的可综合代码。HLS提供了从概念到硅片的快速路径，但软件与硬件编程实践之间的巨大鸿沟使得自动化转换极具挑战性。AgRefactor采用迭代优化策略，解决了现有大模型方法灵活性不足、难以扩展、计算成本高的三大痛点，为AI辅助芯片设计领域提供了实用工具。

**说人话：**软件程序员现在无需学习硬件设计语言——AI Agent能自动把普通代码翻译成能在芯片上运行的硬件描述。

研究者系统探索了多Agent审议方法在法律推理任务中的应用。随着AI越来越多地应用于法律领域，基于大模型的自主Agent（Agentic AI）成为提高司法可及性的重要方向。然而，多Agent方法在法律领域此前几乎未被研究。论文比较了不同多Agent协作策略（辩论、角色扮演、陪审团审议等）在法律推理任务中的表现，为AI辅助司法提供了新的技术路径。

**说人话：**让多个AI分别扮演原告律师、被告律师和法官来模拟庭审辩论，最终帮助人们更好地理解法律问题。

研究者提出了Contrastive Reflection方法，用于迭代优化控制大模型Agent的Prompt。核心思想源自信息检索领域的实践：改进Prompt更像「调试」而非「盲目搜索」——工程师需要知道哪个行为失败了、哪个邻近行为仍然有效、两者的区别是什么、以及修改是否能泛化。该方法通过对比成功和失败的案例来指导Prompt优化方向，在IR评估任务中展示了显著效果，为Agent Prompt工程提供了可操作的工程化方法。

**说人话：**与其让AI反复试错来优化提示词，不如直接对比「什么管用、什么不管用」——像程序员debug一样精准修复问题。

研究者探索了将大模型训练为零样本工作流生成器的可能性。传统上大模型擅长解决单个实例问题，但缺乏跨实例的结构一致性。工作流能编码任务级别的可复用算法模式，提供跨实例鲁棒性、可解释的调试轨迹和可复用性。论文提出让大模型直接从任务描述生成结构化工作流，无需手动设计，大幅提升了AI系统的部署可靠性。

**说人话：**以前AI只能解决单个问题，现在能直接生成一套「标准操作流程」，以后遇到同类问题直接套用。

研究者提出了基于强化学习的框架，用于解决微型超声（μUS）前列腺癌检测中的关键挑战。μUS是一种新兴的、有前景的前列腺癌成像方式，但准确识别可疑组织高度依赖临床经验，导致显著的观察者间差异。由于监督信号稀疏且嘈杂（通常仅限于核心级别的癌症标注），训练可靠的深度模型非常困难。该RL框架学习「往哪里看」的策略，有效降低了模型对密集标注的依赖。

**说人话：**给AI一个「会找重点」的眼睛——用强化学习教它在超声图像中精准定位可疑区域，帮医生更快发现前列腺癌。

研究者识别了大模型中一种新的公平性失效模式——「演绎性刻板印象」（deductive stereotyping）：模型将群体级别的统计规律应用于个体案例，产生逻辑上自洽但社会上有偏见的推理。与传统的直接偏见不同，这种偏见更隐蔽，因为推理链条本身看起来是合理的。论文提供了统计解释，并提出了Fair-GCG方法来通过对抗性引导缓解这一问题。研究发现，虽然推理能力通常能改善公平性，但这种特定失效模式仍然顽固存在。

**说人话：**AI不是「直接歧视」，而是「推理出歧视」——它用群体数据「合理地」得出对个人的偏见判断，这种隐蔽的偏见比明面上的歧视更危险。

今日AI新闻呈现出一个有趣的「软硬一体」趋势分化。清华系两笔重磅融资——厘清智能（Physical AI基础设施）和灵动芯光（硅基光子芯片）——都指向同一个判断：2026年AI竞赛的主战场正在从「模型能力」向「系统能力」转移。李一鸣说「世界模型只是运送荔枝的马」这句话精准概括了当下的行业焦虑：光有好模型不够，数据采集、物理引擎、硬件部署必须全栈打通。

与此同时，学术界在反思大模型的根本性局限。MIT Tech Review的「群体思维」报道揭示了模型多样性的虚假繁荣；BayesBench发现大模型能推断但不一定能利用推断结果；反馈机制研究证明自我反馈约等于浪费算力。这些研究共同指向一个方向：当前大模型的认知架构存在系统性缺陷，不仅是训练数据的问题，更是推理机制的根本局限。

值得关注的第三个趋势是「AI+垂直领域」的加速落地。从宠物科技、机器人关节到法律推理和医学影像，AI正在从「通用对话」转向「专业执行」。这可能是2026年下半年最重要的商业机会——不是谁拥有最大的模型，而是谁能在特定场景中打通从数据到决策的完整链路。

整理时间：2026年07月02日 06:21 数据

← 上一篇：HR智能体训练营：零基础打造六大模块AI助手下一篇：AI进化史⑥：阿尔法折叠与生命奥秘 →

AI速览 7月2日 周四精选

AI速览 7月2日周四精选