可编程部_标签-酷阅新闻

Vortex：赋能 AI 智能体的高性能可编程稀疏注意力框架

一问题背景在推理、AI 智能体、强化学习等应用场景中，LLM 输出长度不断增加，解码阶段的键值（KV）缓存数据传输成为系统核心瓶颈，稀疏注意力技术因此获得广泛运用。当前稀疏注意力既作为 DeepSeek、GLM-5.1 等主流模型的基础架构，也可作为插件对现有预训练模型进行性能优化。二架构设计与核心组成Vortex 系统由 vFlow 前端编程语言、解释器、基于 vTensor 的执行后端三大部分构成，同时与现代化 LLM 服务栈深度整合，在可编程性与运行效率之间取得良好平衡。（一）核心抽象：vTenso

2026-06-14 23:43:50 | 11 阅读