AI发展新趋势:从屏幕理解到智能代理
最近在观察苹果这轮Siri AI升级时,我脑海中浮现出一个场景:你正盯着手机屏幕,上面显示着航班信息、日程安排、朋友发来的地址以及相册里的票据照片。过去,你需要手动把这些内容一段段复制给AI处理。但未来,AI或许会直接问你:需要我帮你搞定这些吗?
如果只是纠结“苹果是否终于追上AI潮流”,那这场讨论就只是场无聊的产品发布会回顾。真正值得关注的是,苹果、Kimi Work、Syll、Holo3.1等产品共同指向的趋势:AI正在跳出聊天窗口,深入屏幕、桌面、浏览器和文件夹之中。
传统聊天机器人的最大问题,在于它无法感知你当前看到的内容。你已经打开了邮件、表格和网页,却仍需像汇报工作一样,把上下文重新描述一遍。这一步操作极其反直觉。苹果这次强调的屏幕理解与个人上下文功能,正是为了省去这种“来回搬运信息”的麻烦。
下一代AI助手,首先必须理解你正在看什么。
我更愿意用一个简单粗暴的标准来判断AI工具是否在进步:它能否减少我作为中间人的参与?
MarkTechPost 引用的哈佛大学与 Perplexity 的研究中有个有趣的对比:搜索助手的对话像一次简短查询,而 Agent 对话则更像一段持续的工作流程。虽然具体数据可能随着更多研究更新,但方向很明确。我们不缺能提供链接的AI,缺的是能将“查找资料、判断、整理、交付”这一整套流程自动完成的AI。
因此像 Syll 这种跨越 API、Shell、网页和桌面 GUI 的个人自动化项目值得关注。它未必能立刻成为大众产品,但它把问题说得很清楚:如果助手只能待在输入框里,就像一个聪明的同事被关在会议室里,却碰不到外面的任何设备。
Agent 真正改变的,是任务的组织方式。
这波变革不仅发生在手机上。Product Hunt 上的 agentcad 把 AI agent 接入 CAD 软件,OpenAI 也在将 Codex 推向更多角色和工作流。你会发现,AI产品最有意思的战场,正从“谁的聊天窗口更好看”转向“谁能进入真实工具”。
这让人联想到当年插件和快捷指令带来的感觉,只是这次执行者更主动。设计师想修改模型,开发者希望AI能理解代码库,运营人员想让它整理素材和表格。每个行业都有自己的屏幕界面。如果AI看不懂这些屏幕,就只能在旁边提供建议;一旦能看懂,就开始参与实际生产。
AI进入专业工具后,价值才开始变得具体。
这里也有我担心的地方。AI越懂你的屏幕,就越接近你的隐私、账号、文件和工作痕迹。Simon Willison 最近关注 OpenAI 的 Lockdown Mode,原因就在这里:当 AI 能联网、能读文件、能调用工具,风险就不只是“它说错了”,还可能是“它把不该带走的东西带走了”。
因此我对下一代AI助手的期待其实很朴素:它要聪明,但也要有门锁。能看见当前屏幕,最好也能明确告诉我它看见了什么;能执行任务,最好每一步都能撤回和审计。
读者可以先试一个小动作:下次用 AI 处理工作时,不要只问“帮我写一下”。试着把任务拆成“看什么、用什么、改哪里、不要碰哪里”。你会更早感受到 Agent 时代的味道,也会更早发现它的边界。
AI 越能行动,边界就越重要。
所以这轮苹果 AI 真正值得看的,不是它有没有把 Siri 包装得更酷,而是它把一个老问题重新摆到桌面上:AI 到底是在陪你聊天,还是在理解你正在做的事?如果答案开始偏向后者,下一场竞争就会发生在每一块屏幕上。
Apple reveals new AI architecture built around Google Gemini modelsHacker News
Siri AIApple
Siri AI at WWDC 2026Simon Willison AI
Syll: Open-Source Personal Automation with Cross-Surface ExecutionarXiv cs.AI
A New Study from Harvard and Perplexity Finds AI Agents Perform 26 Minutes of Autonomous Work per Session vs 33 Seconds for SearchPlanet AI
Codex for every role, tool, and workflowOpenAI News
Holo3.1: Fast & Local Computer Use AgentsHugging Face Blog
OpenAI Help: Lockdown ModeSimon Willison AI