5G切换优化新策略：对偶图与多智能体强化学习

发布时间：2026-03-29 17:45阅读：16

随着5G/6G网络的迅速扩展，基站密度不断增加，切换（Handover, HO）管理成为移动通信领域最为关键且复杂的挑战之一。当用户设备（UE）在不同区域间移动时，系统需要实时判断何时、如何将连接从当前基站转移到下一个基站。

传统方法依赖静态规则和人工设定的小区个体偏移量（Cell Individual Offset, CIO）参数，在流量模式和用户分布变化时，往往遇到难题：

来自 Telefónica Research 的研究团队（Salvatori、Vannella、Macaluso等人）在最新论文 "Dual-Graph Multi-Agent Reinforcement Learning for Handover Optimization"（arXiv:2603.24634）中，提出了一种全新的多智能体强化学习（MARL）框架，彻底重新定义了这一问题。

论文的核心发现是：CIO 自然地定义在网络图的「边」上，而非节点上。每个 CIOij 描述的是小区 i 和 j 之间的切换偏置，其影响是局部且成对的。

传统方法将 CIO 视为集中式的动作向量或分配给每个基站节点——这忽略了CIO固有的图结构。本文建议将原始网络图（节点=基站）转换为对偶图（Dual Graph）：

原图中的每条「边」（邻居对 CIO）→ 在对偶图中变为「节点」

原图中的每个「节点」（基站）→ 在对偶图中变为「边」

在对偶图表示下，每个智能体控制一个 CIO 变量，并仅通过本地的 M-hop 邻域观测关键性能指标（KPIs），从而实现可扩展的去中心化决策。

论文在此框架上提出了 TD3-D-MA（Discrete Twin Delayed Deep Deterministic Policy Gradient for Multi-Agent），其核心设计包括三个层次：

① 离散化 TD3（TD3-D）

将连续动作 TD3 算法调整至离散 CIO 空间（通常为负6至正6 dB的离散集合），采用 Gumbel-Softmax 松弛实现可微策略优化，并设计三阶段探索机制（随机探索、软采样、贪心执行）。

② 共享参数 GNN Actor

所有智能体共享同一个图神经网络（GNN）Actor，在对偶图上进行消息传递，每个节点（CIO 边）聚合 M-hop 邻域的 KPI 特征后输出动作。消融实验表明，Interaction Network（IN）架构在稳定性和性能上优于 GCN、GAT 和 Transformer。

③ 区域化双 Critic（CTDE）

训练阶段采用集中式训练、去中心化执行（CTDE）范式：将原始网络划分为多个重叠子网络区域，每个区域训练一个独立的 Double Critic，有效解决密集部署下的信用分配问题（Credit Assignment），同时保持计算成本可控。

论文基于 ns-3 系统级仿真器，使用真实网络运营商参数进行评估，涵盖异构流量模式和不同网络拓扑。主要结论：

本文的价值不仅在于提出了一种新算法，更在于提供了一种思维方式的转变：将网络控制问题的结构特征（CIO 定义在边上）明确编码进学习架构中，使 AI 系统能够「理解」网络拓扑，而不是将其视为黑盒向量处理。

这种「以图结构驱动多智能体设计」的方法，对未来的 RAN 智能化、6G 网络自治管理具有重要的方法论意义。

论文

← 上一篇：全国首个AI检验互认项目落地，广东引领医疗创新下一篇：AI数学提分的高效路径 →