标签

AI赋能核电:文件密级智能识别系统应用实践

发布时间:2026-04-10 17:30来源:微信阅读:7

点击右上角关注我们

1. 项目背景

本项目依托YOLOv8目标检测算法,融合集成学习与OCR技术,搭建了一套端到端的核电文件密级标识智能识别体系。借助人工智能技术的革新,系统能够精准识别并定位文件中的加密章、解密章等密级标记,涵盖多种背景与尺寸的印章变化,大幅提升了密级标识识别的精准度与效率,削减了人工审核开支,为核电行业的文档安全管理提供了坚实的技术保障。

2. 典型应用场景

核电文档密级管控:该案例服务于核电工程管理中各类文档的密级标识自动识别与管控,同样适用于需要对印章类内容进行识别与管理的业务场景。

3. 技术实现

1.1 系统整体架构

本项目以YOLOv8为核心模型,针对密级标识检测任务实施了多项技术创新。通过调整输出层结构、优化损失函数、引入集成学习与OCR规则匹配等策略,进一步强化了模型在密级标识识别任务中的表现。

在模型架构上,鉴于密级标识仅含单一类别,简化了分类损失,仅保留置信度损失与边界框回归损失,利用DFL和CIoU Loss分别处理前景背景区分与边界框优化,有效提升检测精度与定位稳定性。为增强系统鲁棒性,引入集成学习机制,构建多个基学习器(YOLOv8模型),通过算法动态调整样本权重,优化整体决策效果。在推理环节,结合OCR技术对检测出的印章区域进行文字识别,依据预设规则(如识别“商密”“解密”“核心”等关键词)进行二次校验,显著降低误检率。

2.1 核心技术

(1)算法与模型分析

本案例采用预训练+微调的模式进行模型训练,预训练模型选用Ultralytics发布的yolov8x,预训练数据集采用COCO数据集,通过预处理、训练、后处理全流程策略,训练文件密级标识检测模型。

1. 训练流程

(2)基于集成学习的密级标识检测方案

核电文件密级标识检测任务在集成学习中可归纳为如下场景:

现有k个数据集及其对应标签(例如(数据1,有物体),(数据2,无物体),有无物体即标签),每个数据集及其对应标签都有海量数据。目标是通过调整每次学习器的样本分布权重,使决策器效果达到最优。

核电文件密级标识图片蕴含极强的文字规则特征,因此决策器可利用OCR模型识别密级标识内容,并依据文字规则进行匹配,若存在大于m的符合规则的OCR内容,则判定该文字存在符合规则的章(加密章或解密章)。

基于集成学习的核电文件密级标识识别方案

上图密级标识识别器输出的结果是yolov8算法识别出的目标密级标识图片,将目标图片通过OCR模型识别为文字,再通过规则匹配统计出符合规则的OCR内容,若输出符合规则的密级标识识别器数值大于m,则说明该文字存在符合规则的印章。

(3)自适应目标识别

在核电文档中,解密章通常样式单一,但加密章样式繁多,且随着时间推移可能出现训练集中未见过的新加密密级标识。若仍沿用原模型推理,精度将下降。为解决此问题,

设计了改进模型的预测头,嵌入交叉注意力Transformer模块。若出现新样式,引导用户提供密级标识图片,利用卷积模块将图片编码为向量,与yolov8的head模块输出向量进行交叉注意力计算,进而输出网格中是否存在对应样式的印章。

模型结构如下:

自适应密级标识识别方案

3.2 创新亮点

案例技术创新点主要体现在以下方面:

在算法与模型上:先对yolov8算法模型进行预处理,生成密级标识识别数据方案,按批次输入预处理数据、前向传播、反向传播,在模型超参数配置完成后,对yolov8进行预训练与微调,最后通过边界框解码、置信度提取、非极大值抑制对yolov8进行后处理。

4. 应用效果

项目在AI Studio平台上完成模型训练与验证,采用合成数据与真实标注数据相结合的方式,共生成训练样本约5000张,验证集500张。

在验证集上的测试结果显示,系统在密级标识检测任务中表现卓越:平均准确率达99.4%,召回率为95.8%,mAP50达到98.2%,mAP50-95为94.2%,各项指标均显著优于传统人工审核及常规目标检测模型。系统在实际场景中可实现实时检测,单张图像处理时间低于100毫秒,满足高并发、高效率的业务需求。

目前,该系统已在中广核电的文档管理系统中完成试点部署。通过实际应用反馈,系统有效减少了90%以上的人工审核工作量,提升了文档处理效率,规避了因漏检、误检引发的信息安全风险,获得了业务部门的高度认可。

5. 总结

本系统在技术先进性、准确性、效率及成本方面具备显著优势。其采用的YOLOv8模型在速度与精度间取得了良好平衡,结合集成学习与OCR规则融合机制,进一步增强了系统的鲁棒性和可解释性。在数据层面,通过合成数据增强解决了标注数据匮乏的问题,降低了数据准备成本。在模型层面,通过简化损失函数与结构优化,实现了更快的训练速度和更高的检测精度。系统推广应用后可显著提升核电及其他能源企业的文档安全管理水平,降低人为因素导致的信息泄露风险,预计全面推广后,文档处理效率可提升80%以上。

完成单位:中广核工程有限公司

主要完成人:方丽、汪鹏、徐晨曦、颜斯泰、易德龙、陈艳