NVIDIA Dynamo实战解析:Agentic AI推理迈入生产新阶段
伴随Agentic AI与多模态任务的高速发展,AI推理底层架构正由单点调优向多节点分布式协同演进。本次线上分享由NVIDIA资深架构师与业界技术大牛联袂呈现,聚焦NVIDIA Dynamo 1.1版本,带来两场硬核技术解读:
长效运行Agent:借助KV Cache感知路由及多级卸载技术提升前缀命中率,并探讨RoleBasedGroup在K8s环境下如何保障有状态Agent服务的高可用与容错机制
多模态推理体系:解析E/P/D三段式解耦架构与Embedding缓存调优,如何驱动视频生成及多模态应用的规模化部署
KV Cache智能调度:SLA Planner依托负载预估与性能模型,弹性伸缩实例规模,在保障低延迟指标的前提下削减部署开销
参与本次线上直播,掌握NVIDIA Dynamo自顶层设计至K8s生产部署的全链路技术方案。感兴趣的朋友,欢迎免费预约:
扫码免费预约直播
详情说明: