AI周报:AGI 进程缓慢,多模型与工具重磅更新
今日精选观点:“当下的 AI 技术距离真正的通用人工智能 AGI,仍有漫长之路。”该论断出自 AI 界资深学者 Gary Marcus,是他时隔六年,重新审视 2020 年对 AGI 预测后得出的新结论。👇 资深专家六载复盘 AI 演进:迈向通用人工智能 (AGI) 的三大短板,仅攻克其一 1 Krea 2 基础模型 API 正式开放 Krea 2 作为一款从零开始训练的基础模型,现已通过 @fal、@ComfyUI 及 @NousResearch 的 Hermes Agent 开放 API 接口,在美学质感与细节掌控之间找到完美平衡。 2 Qwen3.5 推理速度刷新纪录:单卡达 580 tokens/秒 Qwen3.5 模型在 NVIDIA GPU 搭载的 TokenSpeed 推理引擎中,峰值速度突破 580 tokens/秒,这主要归功于 FlashAttention-4 优化与 KV Cache 技术的加持。 3 Hao AI Lab 开源实时视频生成技术 Hao AI Lab 开源了 FastVideo Dreamverse 技术,使得单块 NVIDIA B200 GPU 仅需 4.2 秒即可生成 5 秒视频,效率实现飞跃。 4 Runway 推出 MCP 协议助力多平台集成 Runway MCP 让用户能直接在 Claude、ChatGPT、Cursor 和 Replit 等环境中调用 Gen-4.5、Seedance 2.0 等前沿模型以生成内容。 AI Research 1 Pareto AI 携手 Thoughtful Lab 发布首份开放情感智能基准 @pareto_ai 联合 @thoughtfullab 推出 AttuneBench,基于 5 万余条第一人称标注数据及 200 场真实对话,对 11 个主流模型的情感理解能力进行了评估。 📚 延伸阅读 大模型的情商(EQ)表现如何?最高分仅54.3? 2 融合密码学与可信执行环境的新型隐私分析方案 研究者提出一种结合加密聚合与可信执行环境的隐私分析新路径,无需设备持续在线即可提供可验证的隐私与安全承诺。 3 专家回顾 AGI 发展:神经符号 AI 虽有突破但其他目标仍滞后 某专家重温其 2020 年文章,指出虽然在神经符号 AI(如 Claude Code)方面有所进展,但在机器可解释知识库、可靠推理系统及世界模型构建等方向上仍缺乏实质性突破。 📚 延伸阅读 资深专家六载复盘 AI 演进:迈向通用人工智能 (AGI) 的三大短板,仅攻克其一 AI Agents 1 Harvey 开源高难度法律智能体基准测试 Harvey 开源了法律智能体基准测试 (LAB),要求智能体在杂乱的文件系统中依据模糊指令输出最终交付物,需通过 7.5 万项专家标准,任一失败即视为整体未通过。 📚 延伸阅读 Harvey 法律智能体迎来 SWE-bench 基准测试,各大模型得分均为个位数 2 开源工具 Pentest Agent Suite 实现自动化漏洞挖掘 开源工具 Pentest Agent Suite 正式上线,内置 50 个针对不同类型漏洞的智能体,覆盖 XSS、SQL 注入等 19 类常见漏洞,支持自动执行扫描、构建利用链并过滤无效报告。 📚 延伸阅读 开源项目解析:工具 Pentest Agent Suite 如何实现自动化漏洞挖掘 3 GitHub 项目 AgentHub 构建虚拟开发团队工作流 GitHub 项目 AgentHub 已上线,为 Claude Code 组建了一个包含产品经理、技术主管等 46 个角色的虚拟开发团队,提供可视化桌面应用,并在代码测试未通过时实施强制阻断。 💡 推荐理由 近期 Agent 编排方案层出不穷,昨日有主打个人助理场景的 Alook,今日这款则是专为开发 OPC 打造的助手:) AI Infrastructure 1 Jerry Liu 推出 Rust 重写的极速 PDF 解析器 LiteParse v2 Jerry Liu 发布了基于 Rust 重构的 LiteParse v2 解析器,支持 50 多种文档格式,声称在速度与准确度上均超越现有开源方案。 AI Applications 1 a16z 合伙人指出 AI 应用层机遇在于垂直工作流而非通用智能体 a16z 合伙人 Joe Schmidt 表示,AI 应用层的真正机会在于那些涉及跨系统上下文、遗留系统集成及合规审批的垂直复杂工作流,而非与实验室在通用浅层编排上正面交锋。 AI Engineering 1 开源社区推出全栈 AI 工程免费课程,强调手动实现核心组件 Alvaro Cintas 在 GitHub 发布了一套包含 435 课时、分为 20 个阶段的免费 AI 工程课程,要求学员亲手编写反向传播与注意力机制等核心模块,以构建全栈能力。 📚 延伸阅读 • 大模型的情商(EQ)表现如何?最高分仅54.3? • Harvey 法律智能体迎来 SWE-bench 基准测试,各大模型得分均为个位数 • 开源项目解析:工具 Pentest Agent Suite 如何实现自动化漏洞挖掘 • 资深专家六载复盘 AI 演进:迈向通用人工智能 (AGI) 的三大短板,仅攻克其一 #AI日报 #每日AI资讯 #人工智能 #大模型 #Agent #AI智能体 #Harness 感谢关注,明日再会 POWERED BY PIP INTELLIGENCE SYSTEM