数据空间环境下协作式人工智能的发展路径与实践
数据空间环境下协作式人工智能的发展路径与实践
图1:三种类型的协作式人工智能解决方案
为充分释放人工智能模型在实际应用场景中的价值,需利用大量且多元的数据进行针对性微调。数据空间有助于企业获取其他数据提供方的外部资源,但部分数据(如核心业务信息及敏感个人数据)无法以原始形式直接共享。为便于这些数据在跨组织协作中的应用,企业应采用本地预处理、匿名化和抽象化等方案。
联邦学习作为近年来广泛关注的技术,其核心理念是各参与方基于自有私有数据完成模型训练,仅共享本地模型参数,最终形成联合模型。在此模式下,私有数据始终保留在本地,有效保障数据主权并降低敏感信息泄露风险。然而,此类技术也带来一系列新挑战:
1.传统联邦学习依赖中央服务器进行模型聚合,这与数据空间去中心化和数据主权保护的原则相冲突。因此,有必要开发全透明、去中心化的联邦学习系统,以适应企业业务需求,包括赋予参与方撤销模型贡献的权利。
2.联合开发的人工智能系统的质量与安全性高度依赖于各方贡献的模型。因此,需建立自动检测与剔除低质量或恶意模型及贡献方的机制,同时识别“搭便车”的主体,即获益但未有效贡献数据的参与者。
3.不同企业在联合模型中的贡献与收益可能存在明显差异。若缺乏公平合理的补偿体系,企业可能更倾向于通过双边协议进行模型知识迁移,而非加入联合开发。
4. 即使只共享模型参数,也可能存在敏感信息还原与泄露风险。因此,应完善匿名化和安全防护措施,并配置数据治理工具,以提升联邦学习方案的透明度与可信度。
作为模型微调的替代或补充方案,检索增强生成技术(Retrieval-Augmented Generation, RAG)在提升生成式人工智能模型推理性能方面展现出显著潜力。该技术通过从外部知识库中检索与特定查询高度相关的信息,并将这些信息无缝融入模型上下文,使模型能够基于更全面的数据资源生成更优质的推理结果。
在数据空间场景下应用检索增强生成技术以构建协作式人工智能解决方案时,联邦检索增强生成技术(Federated Retrieval-Augmented Generation, F-RAG)成为当前前沿的研究方向之一。此技术能够将生成式人工智能模型与分布于数据空间内不同企业的多源异构数据高效对接。
然而,在数据空间实际部署联邦检索增强生成技术仍面临诸多挑战:
1.数据空间中的数据资产通常仅向合作方开放,且须遵循事先设定的数据访问与使用政策。由于联邦检索增强生成技术需求支持单次查询涉及数千次未曾发生过交互的数据请求方和数据提供方之间的自动化条款协商,因此亟需建立高效的协商机制,以便充分释放数据空间资产对检索增强生成模型的价值。
2.数据被第三方生成式人工智能模型调用,需确保数据主权在整个生命周期内得到切实保障。
3.生成式人工智能模型的推理效果直接依赖于检索到的信息质量。在部分关键应用场景下,信息的时效性尤为重要,因此有必要引入新的评价体系,针对信息的最新性及其与特定查询需求的高度相关性进行科学评估。
当前,各企业均已部署成熟的人工智能模型,通过具备主权属性的跨组织专业人工智能体间协作,推进模型在复杂且高度关联任务中的协同应用。
为实现跨组织人工智能体高效协作,需确立去中心化、主权保障、数据隐私与安全保护等核心原则,确保用户对智能体交互过程享有充分可视性及控制权。推动主权型去中心化智能体协作落地过程中,亦面临诸多挑战:
1.智能体与任务发现机制,实现智能体对自身贡献的主权管理,需要解决分布式智能体的适配发现、参与意愿与方式决策,以及自主协作网络的形成机制。
2.智能体通信机制,如采用简单多对多通信策略,或将导致通信消息激增、问题求解时延与成本指数级上升,并增加敏感信息非预期泄露的风险。
3.涌现式决策制定,在智能体自主协作体系中,需解决如何在维持主权和去中心化通信前提下,高效实现智能体间协作、协同规划及统一决策。
4.个体利益与恶意贡献防控,企业在监控智能体协作时需考虑,如何构建能够抵御基于个体利益驱动和差异化政策影响的协作体系,同时在无中央监管机制下,有效识别并排除恶意贡献行为。
此外,多智能体协作场景下,企业与外部人工智能系统进行安全交互时,模型可靠性验证尤为重要。尽管通过标准化评估可保障模型基本质量,但实践中依然面临如下难题:全球范围内尚未建立统一认证体系和标准,导致跨境协作认证流程复杂;认证标准制定及调整周期长、成本高,难以适应人工智能技术快速演进;人工智能系统频繁迭代更新,若缺少自动化更新机制,则认证工作负担加重,难以实现有效落地。
传统联邦学习架构主要依赖中央服务器对所有本地模型更新进行聚合,并向参与方分发最终的联合模型。在此模式下,模型的访问权限、用途及使用期限均由单一主体决定。参与者通常无法撤回其模型贡献,导致所提供的知识难以自主控制,隐私保护问题亦未得到根本解决。
针对上述挑战,本文提出一种兼顾隐私保护与主权属性的去中心化联邦学习方案。该框架包含两个核心维度:
图2:数据空间中的去中心化联邦学习
生态与治理:本框架基于数据空间原则,旨在构建安全且可信赖的生态系统,实现分布式模型更新的去中心化交换及聚合。具体措施包括制定公平有效的贡献激励机制、可互操作并自动执行的贡献政策,以及在现有网络拓扑和模型更新机制基础上的深度扩展,以支撑主权化与去中心化的模型训练。
主权与隐私:在共享模型更新过程中,应加强隐私保护措施,以防止敏感信息的泄露;同时,需要为模型贡献者提供相应的政策支持与技术手段,确保其有权撤回已提交的模型贡献。
联邦学习通过聚合本地训练模型参数来构建联合模型。然而,参数仅为数值序列,与原始训练数据的对应关系难以追溯,导致传统的数据验证与质量控制机制在联邦学习场景下难以适用。由此产生了诸如恶意参与方对模型进行投毒、植入后门,以及“搭便车”者提交虚假参数以获取模型收益等风险。针对这些挑战,本文提出基于密码学验证技术与异常检测方法,对联邦学习参数的真实性及质量实施有效管控。
图3:联邦学习参数的真实性验证和质量控制
在密码学验证技术方面,利用基于可验证零知识证明的方法,可以有效验证模型更新参数的真实性。在保障原始数据不泄露的情况下,实现对“模型是否确实基于客户端自有数据进行训练”的检验,从而兼顾隐私保护与信任构建,推动客户端与全局模型之间参数交互的双向证明及验证,提升联邦学习方案的可信度。
在异常检测技术方面,通过识别并剔除可能影响模型训练质量的“搭便车者”等异常参数贡献,实现对参数质量的有效管控,从而降低全局模型端数据收集的总体成本。
在某些情况下,企业可能不愿意参与联合模型的开发。例如,企业可能认为其专有数据的价值高于通过联合模型获得的收益,或认为其他参与方将从联合模型中获得更多优势。此外,部分企业已拥有自有模型,其架构与拟开发的联合模型存在不兼容性,若参与合作,需舍弃或对自有模型进行重新训练,导致较高的成本投入。
针对上述挑战,本文提出了一种面向数据空间的去中心化知识交互框架,以实现涵盖大语言模型协同的全域训练方案。该框架能够使模型在完全去中心化的环境下进行交互与共同学习,无需交换模型参数,有效推动多方协作与创新。
图4:三种不同框架中信息交换机制:中心化联邦学习、去中心化联邦学习和去中心化知识交换
该框架整合了四个关键技术领域的核心理念,有效突破模型异构所带来的瓶颈:①去中心化联邦学习;②基于大语言参数的高效模型联邦训练;③协作人工智能中的安全感知治理;④数据空间及多智能体协同机制。此外,该去中心化知识交互框架配备完善的安全防护体系,能够有效防止恶意主体对协作结果造成干扰与破坏。
图5:具有数据主权功能的联邦RAG
传统多智能体协作通常以单一主体的目标为核心,即便外部智能体被委托执行任务,其主要职责仍是支持任务发起方的利益。若要实现具有主权属性的跨组织多智能体协作,各参与智能体除了共同完成整体目标,还需兼顾各自代表企业的利益、偏好与政策。这对协作模式提出新的要求,需要发展主权编排方法,以有效应对协作中复杂问题并规避各种潜在风险。
图6:用于可信赖的跨组织人工智能代理协作的主权多代理编排
首先,智能体需具备自主决策权限,以独立判断是否参与及如何参与特定任务。不同于由外部调度器统一管控的非主权模式,主权化智能体协作网络应基于所属组织的规则和优先级进行运作,而非单一请求方的指令。
其次,需构建透明且去中心化的协作框架作为智能体互动基础。为实现可信赖、可溯源与可解释的决策过程,智能体间的交互应严格遵循既定协议,并采用符合核心主权原则的通信机制。高效的自主决策体系还需配套完善的机制支持,如公正的投票系统、完整的讨论日志以及贡献溯源方法等。
最后,针对智能体协作的编排策略,需设计足以抵御个体利益冲突及恶意行为的安全保障。在充分平衡各主体利益的同时,应及时识别并隔离不可信、存在恶意或质量较低的贡献,从而保障协作过程的稳定性与可靠性。
企业在与其他企业的人工智能模型与智能体进行协作时,需充分确保对方所提供模型的可靠性。目前,全球各国通过制定法律法规、发布行业指南及建立认证体系等手段应对该问题,但实现自动化认证仍面临诸多挑战。认证自动化的核心是加强证据管理能力,使认证机构及企业能够自动积累人工智能系统认证所需数据。业界已提出人工智能物料清单(AI Bill of Materials, AI BOM)机制,以全面记录人工智能系统组件,包括模型、数据、代码和基础设施。然而,该机制本身尚不足以完成全面认证。数据可信度保障等级技术为企业间数据共享的信任提供支持。将此技术应用于人工智能物料清单,可对其可信度进行量化评估,优化人工智能可靠性评估流程并简化认证环节。
图7:人工智能认证及互认机制
依托专属数据构建的私有人工智能模型,是企业实现核心竞争力及高阶决策能力的重要基础。然而,企业数据本身存在局限,促使跨企业数据共享与协作成为必要条件。在此背景下,数据空间通过搭建安全、可信的分布式数据共享体系,为去中心化和协作式人工智能的研发与应用提供了关键支撑,并为企业基于数据空间推动私有人工智能技术的落地实施、开展数据驱动决策,以及探索新的商业价值指明了技术路径。
展望未来,随着数据空间技术不断完善及协作式人工智能持续迭代发展,有必要进一步健全跨领域、跨行业标准体系,以应对模型异构、统一认证、激励机制公平等核心挑战。通过推动协作式人工智能在多行业场景中的深化应用,将进一步助力企业实现数据驱动的智能转型,为数字经济的高质量发展注入坚实动力。
-END-