标签

5G切换优化新策略:对偶图与多智能体强化学习

发布时间:2026-03-29 17:45来源:微信阅读:6

随着5G/6G网络的迅速扩展,基站密度不断增加,切换(Handover, HO)管理成为移动通信领域最为关键且复杂的挑战之一。当用户设备(UE)在不同区域间移动时,系统需要实时判断何时、如何将连接从当前基站转移到下一个基站。

传统方法依赖静态规则和人工设定的小区个体偏移量(Cell Individual Offset, CIO)参数,在流量模式和用户分布变化时,往往遇到难题:

来自 Telefónica Research 的研究团队(Salvatori、Vannella、Macaluso等人)在最新论文 "Dual-Graph Multi-Agent Reinforcement Learning for Handover Optimization"(arXiv:2603.24634)中,提出了一种全新的多智能体强化学习(MARL)框架,彻底重新定义了这一问题。

论文的核心发现是:CIO 自然地定义在网络图的「边」上,而非节点上。每个 CIOij 描述的是小区 i 和 j 之间的切换偏置,其影响是局部且成对的。

传统方法将 CIO 视为集中式的动作向量或分配给每个基站节点——这忽略了CIO固有的图结构。本文建议将原始网络图(节点=基站)转换为对偶图(Dual Graph):

原图中的每条「边」(邻居对 CIO)→ 在对偶图中变为「节点」

原图中的每个「节点」(基站)→ 在对偶图中变为「边」

在对偶图表示下,每个智能体控制一个 CIO 变量,并仅通过本地的 M-hop 邻域观测关键性能指标(KPIs),从而实现可扩展的去中心化决策。

论文在此框架上提出了 TD3-D-MA(Discrete Twin Delayed Deep Deterministic Policy Gradient for Multi-Agent),其核心设计包括三个层次:

① 离散化 TD3(TD3-D)

将连续动作 TD3 算法调整至离散 CIO 空间(通常为负6至正6 dB的离散集合),采用 Gumbel-Softmax 松弛实现可微策略优化,并设计三阶段探索机制(随机探索、软采样、贪心执行)。

② 共享参数 GNN Actor

所有智能体共享同一个图神经网络(GNN)Actor,在对偶图上进行消息传递,每个节点(CIO 边)聚合 M-hop 邻域的 KPI 特征后输出动作。消融实验表明,Interaction Network(IN)架构在稳定性和性能上优于 GCN、GAT 和 Transformer。

③ 区域化双 Critic(CTDE)

训练阶段采用集中式训练、去中心化执行(CTDE)范式:将原始网络划分为多个重叠子网络区域,每个区域训练一个独立的 Double Critic,有效解决密集部署下的信用分配问题(Credit Assignment),同时保持计算成本可控。

论文基于 ns-3 系统级仿真器,使用真实网络运营商参数进行评估,涵盖异构流量模式和不同网络拓扑。主要结论:

本文的价值不仅在于提出了一种新算法,更在于提供了一种思维方式的转变:将网络控制问题的结构特征(CIO 定义在边上)明确编码进学习架构中,使 AI 系统能够「理解」网络拓扑,而不是将其视为黑盒向量处理。

这种「以图结构驱动多智能体设计」的方法,对未来的 RAN 智能化、6G 网络自治管理具有重要的方法论意义。

论文