AI前沿速递：Grok 4.3发布，OpenAI推宠物模式，多模态模型引关注

发布时间：2026-05-06 08:13阅读：12

时间：2026-05-06 08:09 · 收录 10 条要闻 · 焦点：xAI、人工智能、前沿科技

xAI发布了Grok 4.3版本，定位为实用性强的过渡模型。其API价格大幅下调40%-60%，处理速度提升至196 Tokens/s，并支持高达100万Token的长文本上下文。该模型在代理任务和办公辅助方面表现显著，尤其擅长生成文档、表格及演示文稿。然而，在Intelligence Index排行榜上，其表现落后于GPT-5.5和Claude Opus 4.7，复杂推理、事实核查的稳定性以及幻觉率均有待改进。

• 详细信息：https://mp.weixin.qq.com/s/-ewhh9yqowqFdieLSecrJA

OpenAI的编程助手Codex引入了“宠物模式”，允许用户在桌面上饲养一个虚拟的“赛博宠物”。通过输入“/pet”指令即可激活，该宠物能实时反映Codex的工作状态（如运行中、等待输入、可复核）并提供进度提示。用户无需打开主应用即可了解工作进展，并可通过“hatch-pet”技能定制宠物的形象。

• 详细信息：https://www.ithome.com/0/945/989.htm

百度智能云推出了名为Hogee的一站式AI短剧创作平台。用户只需上传剧本或输入创意，AI便能自动生成角色、场景及分镜视频，实现了从文本到成片的完整流程。该平台支持.txt、.docx、.pdf等五种格式的剧本上传，并集成了OpenClaw数字员工矩阵，提供社交媒体运营、营销素材制作及数据分析等服务。

• 详细信息：https://ai-bot.cn/hogee/

DeepSeek在GitHub上公开了其多模态大模型及相关技术报告。报告提出了一种“基于视觉原语的思考”框架，将点、边界框等空间标记视为推理的基本单元，赋予模型精确的空间指代和推演能力，克服了传统链式思维在复杂空间参照任务中的局限。该模型架构精简，视觉标记效率高，在计数和空间推理基准测试中的表现可与GPT-5.4、Claude-Sonnet-4.6等先进模型媲美。

• 详细信息：https://www.ithome.com/0/945/740.htm

阿里通义开源了名为Qwen-Scope的可解释性工具套件，该工具基于稀疏自编码器（SAE）技术，支持Qwen3及Qwen3.5系列共7款模型。Qwen-Scope能够在推理阶段精确控制输出结果，利用少量种子数据完成数据分类和长尾样本合成，并能定位异常特征，以优化语言混用和重复生成等问题。

• 详细信息：https://mp.weixin.qq.com/s/3y3cjMJG070RmqZReE6j2A

限时免费体验：https://gzh.yijiayun.com

美国国防部宣布已与SpaceX、OpenAI、谷歌、英伟达、Reflection、微软及亚马逊云（AWS）等7家顶尖AI公司达成合作协议，旨在加速美军向“人工智能主导”的作战力量转型，并增强其在所有战争领域的决策优势。此举标志着美军将先进的民用AI技术深度整合入国防体系，推动AI在军事指挥、情报分析及作战决策等方面的规模化应用。

• 详细信息：https://mp.weixin.qq.com/s/huUEz1pjnhjeQpwSmalblg

DeepSeek现已推出专门的Coding Agent，名为DeepSeek-TUI。该工具由一位名为“鲸鱼兄弟”的DeepSeek爱好者使用Rust语言开发，在GitHub上迅速获得关注，达到2.3k星标并登上热榜。它是一款在终端运行的TUI编程工具，专为DeepSeek优化，功能类似Claude Code。

• 详细信息：https://www.qbitai.com/2026/05/412914.html

关于马斯克与奥特曼的庭审细节持续曝光。马斯克承认xAI曾通过蒸馏OpenAI的模型来训练Grok。庭审中，他曾情绪激动地大喊，并被律师追问其对OpenAI的捐款承诺（承诺10亿，实际到账3800万，兑现率不足4%）。马斯克强调了自己对OpenAI的贡献，包括声誉和命名，并最终承认在纯粹的货币意义上，他仅捐赠了3800万美元。

• 详细信息：https://www.qbitai.com/2026/05/412080.html

一款名为talkie-1930-13b的“老头AI”模型近期备受关注。该模型拥有1930年代的知识，经过微调后能够胜任软件工程师的工作。仅用250个训练样本，它就解决了第一个编程问题。这款AI的出现，引发了关于AI是否会与程序员竞争的讨论。

• 详细信息：https://www.qbitai.com/2026/05/412896.html

清华AIR DISCOVER Lab的研究表明，具身人工智能正经历一场以视觉为中心的感知范式转型。视觉作为信息密度最高且与自然人机交互最契合的模态，被认为是解锁通用机器人智能和实现仿真到真实无缝迁移的关键。

• 详细信息：https://www.qbitai.com/2026/05/412870.html

← 上一篇：AI融资新阶段：从烧钱到盈利的转变下一篇：OpenAI 加速打造 AI 手机 →