Codex升级与Grok4.3 Beta来袭

发布时间：2026-05-01 10:14阅读：41

OpenAI对Codex进行了大幅升级：不再局限于开发场景，而是被扩展成面向日常办公的个人工作助手。新版本加入了基于岗位角色的动态 UI，用户可以把Slack等常用工具接入进来，系统会自动给出插件建议并随任务调整界面布局。与此同时，它在电子表格与幻灯片的生成能力上做了全面提效，并支持跨组件进行直接注释。性能层面，Computer Use模式整体速度提升了20%。另外，Codex CLI还增加了可跨轮次追踪目标的/goal命令；Codex App端则新增/side侧边聊天命令，可在不打断主会话的情况下进行旁路沟通。

OpenAI近期对Codex再次进行重大更新，让它覆盖的范围从开发者扩展到所有日常办公需求。官方表示，Codex如今已经升级为面向团队的个人工作助手，并支持用户在不写代码的情况下完成日常计算机操作。

本次更新的一大亮点是角色驱动的动态 UI。用户可以选择不同岗位角色，并接入Slack、Google Workspace、Microsoft 365等常用应用。基于所选角色与当前任务，Codex会自动推荐更合适的插件与提示，同时把界面布局同步调整以贴合工作进程。

在性能方面，官方给出的数据更为具体：Computer Use模式在部分典型用例中速度提升42%，而整体的计算机与浏览器操作则约提升20%。一位OpenAI内部人士提到，这也是他第一次看到LLM操控GUI的速度接近人类水平。

此外，新版本还增强了幻灯片与表格生成能力，允许在浏览器、artifacts以及代码等位置进行直接注释，同时优化了上手流程与界面呈现方式，降低使用门槛。

在命令能力上，Codex CLI 0.128.0新增/goal命令，可跨轮次持续跟进并围绕单一目标推进；结合GPT-5.5使用时，该功能可在更长时间内连续处理复杂任务。与此同时，Codex App端加入了/side侧边聊天命令，其用法思路类似Claude Code里的/btw。

xAI正式上线了Grok 4.3 Beta模型。官方称这是新预训练模型，规模与Grok 4.20相当，但在架构上做了改进。该模型的知识截止时间为2025年12月，目前已向订阅用户和API开放。

xAI宣布推出Grok 4.3 Beta，这是一款新的预训练模型。

官方表示，该模型的规模可对标Grok 4.20，同时架构做了调整优化；知识截止日期为2025 年 12 月。

目前，该模型已面向SuperGrok与Premium+订阅用户开放，API端也已同步上线。

根据Artificial Analysis的测评，Grok 4.3在Artificial Analysis Intelligence Index中取得53分。

整体表现略高于Muse Spark和Claude Sonnet 4.6。

OpenRouter平台上线了一款名为Owl Alpha的stealth模型。相关介绍称，该模型面向Agent工作负载进行设计，可提供百万级上下文窗口；同时在Kilo等平台也提供免费使用。

OpenRouter现已上线Owl Alpha这款stealth模型。页面信息显示，它聚焦Agent工作负载，支持原生工具调用，并适配更长上下文任务。

在代码生成、自动化工作流以及执行复杂指令等方面，该模型表现突出，并兼容Claude Code、OpenClaw等常见生产力工具。

此外，它也在Kilo Code等平台提供限时免费名额。

Anthropic面向Claude Enterprise客户推出了Claude Security公开测试版。该工具以Claude Opus 4.7为底座，能够像安全专家一样扫描代码库以定位潜在漏洞，并输出需要人工审批的修补建议。

Anthropic近日面向Claude Enterprise用户推出Claude Security公开测试版。该工具基于Claude Opus 4.7，可用于代码库漏洞扫描、对抗性验证，并给出可直接供审阅的修补建议。

用户可在Claude.ai侧边栏、专用页面，或通过Claude Code on the Web直接使用。其扫描范围支持按仓库、目录或分支设置，并可执行定时扫描任务。

扫描结果支持以CSV或Markdown导出，也可以借助webhook推送到Slack、Jira等协作工具。最终补丁需要经过人工审批后再应用。

Claude Team与Max用户的访问权限即将开放。

Gemini CLI发布v0.40.0版本，带来了超过150项关键改进。新版本提供对本地Gemma模型的实验性支持，用户可用其进行智能模型路由；同时，Agent还新增全新的分层记忆系统与自动提取技能能力。

Google Gemini CLI已发布v0.40.0版本，引入了超过150项改进。

核心更新包括：对本地Gemma模型（实验性）提供初始支持，用于智能路由；新增分层记忆系统，可在项目、子目录、私有与全局四个层级持久保存上下文；并上线Auto Memory（实验性）功能，能基于历史会话自动提取技能。

此外，本版本还加入了用于任务跟踪的Task Tracker（实验性）能力。

界面层面也做了精简，包括更紧凑的工具输出以及主题描述信息。

MCP资源支持已完成最终化落地。

新增用于保障安全的壳命令验证与核心工具白名单，避免不安全使用方式。

原生桌面通知现在已加入到产品中。

新版本还带来了/memory inbox以及/new命令，方便用户更快捷地进行操作。

界面提供了色盲友好主题，进一步优化视觉体验。

针对内存占用与离线搜索等场景，也完成了多项性能优化。

Qoder正式推出移动端应用与远程控制功能，让用户随时掌握桌面端Agent任务进展。与此同时，Qoder还发布了持续迭代的生产级数字员工产品QoderWake，其首个数字程序员角色已在实际场景中投入使用，目前该产品已全面开启邀测。

阿里系Qoder近日正式上线远程控制功能及移动端应用，并同步推出数字员工产品QoderWake。

Qoder移动端支持远程操控桌面端Qoder产品完成任务（Web版已上线，iOS与Android应用正在上架中）。

移动端首发接入Qoder CLI的全部能力；后续也将把Qoder IDE、QoderWork以及数字员工QoderWake等全系产品打通。

QoderWake是官方宣称业界首个安全可控、持续进化的生产级数字员工产品，采用Harness-First架构。每次执行结束后会把经验沉淀到记忆、技能、策略、验证规则与工作流五个维度，支持自主执行、自动回溯与主动复盘，同时内置防腐机制以持续优化。

目前QoderWake已开启邀测，个人与企业都可在官网申请雇佣或定制专属数字员工，后续还将上线数字分析师等新角色。

Cloudflare宣布与Stripe合作推出新协议。现在，在用户授权的前提下，AI Agent可以自动完成创建云账户、购买域名并部署应用的全部上线流程。

Cloudflare近日披露，Agent现在可以代表用户直接完成部署上线的关键步骤：创建Cloudflare账户、开通付费订阅、注册域名并获取API token。

全程无需用户登录管理面板、无需复制粘贴API token，也不需要手动填写信用卡信息。

该能力由双方共同设计的新协议支撑，并作为Stripe Projects（公开测试阶段）的一部分推出。

OpenClaw通过文章对项目安全工作进行回顾；同时项目连续发布两轮版本更新，重点改善了Agent群聊体验。新版本集成DeepInfra与NVIDIAprovider，并对系统可靠性与安全性进行了整体强化。

OpenClaw近日在官方博客中详细回顾了项目在安全方面遇到的挑战与对应改进，并同步发布了两个版本更新。

安全方面，OpenClaw从今年1月至今已接收到大量安全公告。项目通过构建信任模型、将核心能力部分转移到插件层、强化发布流程、加入可观测性等措施完成了实际修复，并获得NVIDIA、腾讯等多家企业的工程与安全支持。

在版本更新上，OpenClaw 2026.4.29优化了群聊体验、支持后续承诺、增强执行安全与控制，并集成了NVIDIAprovider以及模型目录。

此前发布的2026.4.27版本则把DeepInfra作为内置provider、优化文件附件处理，引入操作员管理的代理路由；同时强化Matrix审批与预览、改进模型选择，并提升网关、频道与会话的可靠性。

Nous Research发布了Hermes Agent更新，推出了"Hermes Curator"全新功能。该功能能够自动评估并清理冗余技能，同时进一步升级自我改进循环。本次更新还新增多个推理提供商与消息平台。

Nous Research发布Hermes Agent v0.12.0版本。

此次更新的核心亮点是Hermes Curator系统：后台Agent默认以7天为周期自动评估技能库，官方称能有效解决技能冗余问题。

自我改进循环也进行了升级：改为基于评分的模式；同时ComfyUI v5与TouchDesigner-MCP成为默认内置组件。

推理提供商方面，LM Studio升级为一级提供商，并新增四个云服务商。

消息平台则新增Microsoft Teams插件，并支持腾讯元宝原生接入，同时完成Spotify与Google Meet的集成。

此外，TUI冷启动性能提升约57%。

更新包已在GitHub开放下载，包含213位贡献者提交的360多个修复PR。

OpenAI推出了名为Advanced Account Security的ChatGPT账户安全设置。该功能通过抗钓鱼通行密钥、物理安全密钥等方式提供更高强度保护，所有用户都可以自行开启。

近期，OpenAI正式向ChatGPT账户用户推出Advanced Account Security这项可选设置。该功能面向数字攻击风险更高的用户，以及希望获得最高级别账户保护的用户，提供更强的安全保障。

该设置集成了防钓鱼登录、更安全的账户恢复、缩短登录会话时长、自动排除训练数据等多项增强保护。用户可在Web端的安全设置中自行启用，同时该保护也同样适用于Codex账户。

OpenAI还宣布，自2026 年 6 月 1 日起，Trusted Access for Cyber项目的个人成员必须启用Advanced Account Security。

Google Photos计划在今年夏季推出一项AI驱动的数字衣橱功能。它可以自动识别并整理相册中的衣物，帮助用户更自由地进行搭配，并通过虚拟预览查看上身效果。上线初期将优先推送给安卓用户。

Google Photos推出了一项由AI驱动的新能力，可自动识别并整理照片库里可见的衣物，生成个人数字衣橱。

用户可以按类别筛选、自由组合搭配，并将灵感保存为不同场景的看板；同时借助Try it on进行整体虚拟预览。

该功能将于今年夏季先面向Android用户推送，之后再上线iOS。

快手推出桌面端通用AI智能体KroWork。该产品面向非程序员，能够自主执行任务；同时还可把重复工作流固化成本地桌面应用，运行时无需消耗Token，实现双击即用。

快手近日正式上线桌面端通用AI智能体KroWork。产品定位为面向非程序员的知识工作者：用户只需用自然语言下达指令，AI即可规划并执行任务；并可将重复性工作流沉淀为本地桌面应用，实现一键运行，且无需额外消耗Token或积分。

KroWork通过安全沙箱机制完成操作：在接触外部内容之前需要用户授权，并且支持查看每一步执行过程。国内版本集成Qwen、Kimi、Deepseek等主流模型；国际版则支持OpenAI与Anthropic的最新旗舰模型。

即日起，该产品开放注册，国内外同步首发；首次注册可获得免费积分奖励。

DeepSeek发布多模态技术报告《Thinking with Visual Primitives》，并开源相关代码，系统讲解基于DeepSeek-V4-Flash基座的识图模式细节。其核心创新在于把传统语言思维链升级为“语言逻辑 + 空间坐标”的双轨思路，使模型能够直接在图像上输出点或框来实现精确视觉定位。值得注意的是，官方相关帖子与技术报告在发布一段时间后被删除。

近日，DeepSeek发布多模态技术报告《Thinking with Visual Primitives》，对已灰度上线的识图模式背后的技术要点作出说明。

该模式基座为DeepSeek-V4-Flash。其关键创新是把传统语言思维链扩展为“语言逻辑 + 空间坐标”双轨思维：模型在推理过程中可直接输出点或框完成视觉定位。

借助多级视觉压缩架构，高分辨率图像的KV缓存仅保留约90个视觉条目，压缩比超过7000倍。报告称，该模型在多类高难视觉QA任务中表现优于GPT-5.4、Claude-Sonnet-4.6等模型。

训练流程覆盖预训练、冷启动与强化学习：从超过4000万个高质量样本中筛选数据，并为计数、空间推理、迷宫导航、路径追踪四类任务合成精确的思考轨迹，同时采用稠密奖励机制。

项目技术报告与部分代码已在GitHub开源，模型权重预计将来整合进DeepSeek基础模型发布。

智谱发布技术博客，分享了他们在超大规模Coding Agent推理中通过同步机制解决因KV Cache竞态引发的乱码与复读问题，并提出LayerSplit分层存储方案，用于显著提升系统吞吐量。

近日，智谱AI发布技术博客，介绍其在超大规模Coding Agent推理实践中遇到并解决的系统级问题。其GLM-5系列模型在高并发、长上下文的Coding Agent场景下出现乱码、复读以及生僻字等异常。

经过排查，问题被归因于两个底层竞态Bug：其一是PD分离架构下因异步Abort信号缺失导致的KV Cache复用竞态；其二是HiCache多级KV Cache流水线缺少“数据加载完成”的同步约束，使得read-before-ready访问发生。

团队通过引入跨节点同步机制与显式同步约束修复了上述问题，使异常发生率从约万分之十几降至万分之三以下。在此基础上，他们进一步设计了KV Cache分层存储方案LayerSplit。

当Cache命中率达到90%时，系统吞吐量可提升10%至132%，并且随着上下文长度增长，收益更明显。相关修复已通过Pull Request #22811提交至SGLang社区。

OpenAI发布技术博客称，其多个模型在回复中异常高频使用哥布林、小精灵等词汇。调查发现，这与训练ChatGPT时对Nerdy性格的定制有关：奖励模型在强化学习中无意间给这类词汇打高分。

近日，OpenAI发布技术博客，披露了其模型自GPT-5.1开始频繁提及“哥布林”（goblin）和“小精灵”（gremlin）等奇幻生物词的调查结果。

数据显示，GPT-5.1上线后，“goblin”的出现次数暴涨175%，“gremlin”上涨52%；到了GPT-5.4阶段问题进一步加剧。

根因指向ChatGPT的“Nerdy”性格定制：该性格只占所有回复的2.5%，却贡献了66.7%的goblin提及。OpenAI表示，在训练该性格时，奖励模型对带有生物比喻的回复给出了更高分数，促使模型在强化学习中学会并泛化这种表达习惯，形成反馈循环。

其他受影响词汇还包括浣熊、巨魔、食人魔以及鸽子。OpenAI已在2026 年 3 月下架Nerdy性格，移除相关奖励信号并在训练数据中过滤生物词条。

但GPT-5.5的训练在找到根因之前已启动，因此该模型仍保留类似倾向；目前OpenAI在编程工具Codex中通过系统提示词进行压制。

Cursor在官方博客分享了其持续优化Agent框架的具体做法。主要思路是通过离线评估套件（包含公开基准CursorBench）与在线A/B实验量化改进成效。

Cursor在官方博客中发文，详细说明其持续优化Agent框架的具体方法。

为了更好量化改进效果，团队建立了覆盖公开基准CursorBench与在线A/B测试的多层衡量体系，大幅降低了意外工具调用错误。

与此同时，Cursor为不同大模型做了更深度的适配与定制：为其配置专属工具格式与提示，使其能有效解决用户在对话中途切换模型时出现的缓存失效等技术问题。

团队还指出，未来AI辅助编程将逐步走向多Agent协同委派与编排的工作模式。

AISI公布评估结果，认为OpenAI的GPT-5.5早期检查点在多步网络攻击模拟任务中的表现与Anthropic的Claude Mythos Preview相当。同时，OpenAI表示将在未来几天向关键网络安全防御者推送专门面向网络安全的GPT-5.5-Cyber模型。

英国AI安全研究所（AISI）近日发布了针对OpenAIGPT-5.5早期检查点的网络安全评估结果。

评估显示，该模型在多步网络攻击模拟任务上与Anthropic的Claude Mythos Preview水平相近，并成为继后者之后第二个完成AISI端到端攻击模拟的模型。

与此同时，OpenAICEOSam Altman宣布将在未来几天向关键网络安全防御者推送GPT-5.5-Cyber，这是一款专门为网络安全打造的模型。

他表示将与整个生态系统及政府合作建立可信访问机制，以加快保护企业与基础设施。

Qwen团队推出Qwen-Scope可解释性工具集，并在多个开源平台上线了十四组SAE权重。这套工具可以自动提取模型内部的可解释特征，帮助开发者更精准地进行推理控制、数据分类以及训练优化。

2026年，Qwen团队发布Qwen-Scope，这是一套基于Qwen3与Qwen3.5系列模型的稀疏自编码器集合。

该工具利用稀疏性约束提取高度可解释的内部特征，并支持推理控制与数据合成等能力。

官方已开源14组SAE权重，覆盖7个大模型。官方称其数据合成能效比提升约15倍。

相关资源已在HuggingFace与ModelScope上线，技术报告也同步公开。

OpenAI更新了Stargate项目进展，宣布原计划在2029年于美国建成10GW人工智能基础设施的目标已提前达成并超额完成。在过去90天内新增超过3GW容量。

OpenAI更新Stargate项目进展，该项目旨在为通用人工智能提供算力基础设施。

该公司此前承诺2029年在美国建成10GW基础设施，如今已提前超额完成；过去90天新增超3GW容量。

该旗舰站点位于德克萨斯州阿比林，运行在Oracle Cloud Infrastructure之上，并部署NVIDIA GB200系统。

官方表示，最新模型GPT‑5.5是在该站点完成训练的。

Google DeepMind启动AI co-clinician研究计划，探索多模态Agent如何在专家监督下辅助医疗护理。在与哈佛医学院和斯坦福医学院合作的模拟研究中，该系统在140项评估里有68项达到或超过初级保健医生水平。

Google DeepMind近日宣布AI co-clinician新研究计划，目标是研究多模态Agent如何作为临床团队协作成员，在专家临床监督下辅助医疗与患者护理。

该计划基于Gemini与Project Astra的实时音视频能力，并在由哈佛医学院与斯坦福医学院共同设计的高保真模拟研究中进行验证：AI co-clinician在140项咨询技能评估中有68项达到或超过初级保健医生表现。

系统采用双Agent架构（Planner监控Talker），以确保安全边界，并已在OpenFDA RxQA药物知识开放式问答中超越多项前沿模型。

目前，该研究正与美国、印度、澳大利亚、新西兰、新加坡以及阿联酋等地的学术机构协同推进，并将分阶段扩展到临床医生信赖测试项目。

Genspark宣布与Microsoft达成全球战略合作。其AI Agent已作为原生插件嵌入Microsoft 365生态。

Genspark近日宣布与Microsoft建立全球战略合作伙伴关系，将自身AI Agent直接嵌入Microsoft 365及Microsoft Agent 365生态。

在PowerPoint、Excel、Word等日常办公应用中实现原生集成智能工作流，底座基于Azure基础设施。

Genspark的AI Slides、Sheets、Docs Agents已作为原生插件在Microsoft 365中可用。

据报道，小红书近期发布内部信，宣布组织升级并整合社区、电商和商业化三大核心业务；同时成立AI一级部门Dots，并组建海外业务部门Rednote。

近日，小红书向全员发布内部信，宣布新一轮组织升级。本次调整将社区、电商、商业化三大业务及公司技术体系进行全面整合，目的是提升核心业务整体经营能力。

与此同时，小红书成立AI一级部门Dots以及企业智能部，从产品技术和组织层面加大对AI的投入。

此外，小红书还宣布成立海外业务部门Rednote，启动国际化业务从0到1的新阶段，并设立Lab 1327以探索新产品孵化机制。

根据内部信信息披露，小红书App月活用户已超过4亿。

提示：内容由AI辅助创作，作者橘鸦Juya。

← 上一篇：人工智能赋能劳动节：博益科技系列海报下一篇：第九届数字中国峰会落幕：人工智能赋能新型工业化论坛在福州举行 →