ROC曲线下面积(Area Under the ROC Curve,AUC)是类不均衡/二分排序等问题中的标准评价指标之一.本文主要聚焦于半监督AUC优化方法.现有大多数方法局限于通过单一模型进行半监督AUC优化,对如何通过模型集成技术融合多个模型则鲜有...
详细信息
ROC曲线下面积(Area Under the ROC Curve,AUC)是类不均衡/二分排序等问题中的标准评价指标之一.本文主要聚焦于半监督AUC优化方法.现有大多数方法局限于通过单一模型进行半监督AUC优化,对如何通过模型集成技术融合多个模型则鲜有涉及.考虑上述局限性,本文主要研究基于模型集成的半监督AUC优化方法.具体而言,本文提出一种基于Boosting算法的半监督AUC优化算法,并提出基于权重解耦的加速策略以降低算法时间/空间复杂度.进一步地,在优化层面,本文通过理论分析证明了所提出的算法相对于弱分类器的增加具有指数收敛速率;在模型泛化能力层面,本文构造了所提出算法的泛化误差上界,并证明增加弱分类器个数在提升训练集性能的同时并不会带来明显的过拟合风险.最后,本文在16个基准数据集上对所提出算法的性能进行了验证,实验结果表明所提出算法在多数情况下以0.05显著水平优于其他对比方法,并可在平均意义上产生0.9%~11.28%的性能提升.
在设备故障诊断领域,操作说明、维修记录等文本数据具有极大的应用价值,充分挖掘和利用这类数据能大幅度提升故障诊断的工作效率.现有研究常用语义特征抽取及无监督聚类方法挖掘文本数据,辅助进行故障定位,但这类方法通常无法解释故障原因和给出提供相应维修方案的理由,据此生成的故障维修方案不易于理解.文章基于现有的成熟预训练语言模型BERT(bidirectional encoder representation from transformers),提出了一种基于BERT的短文本分类模型和知识图谱结合的故障定位方法,以充分挖掘和利用铁路CIR设备的文本数据中蕴含的知识和规律.所用方法首先基于CIR设备的功能层次关系确定故障模块,然后借助基于BERT的文本分类技术实现故障的初步定位,最后结合知识图谱进一步确定故障原因等信息辅助进行故障诊断,基于知识图谱积累的故障诊断知识提供故障维修方案易于维修人员理解,有助于知识的管理和工程效率的提升.在文本分类技术方面,文章利用铁路CIR设备故障维修台账记录数据进行实验,实验结果证明,基于BERT的短文本分类模型相较传统分类模型在性能上有较大的提升;在故障诊断方面,文章提出的文本分类和知识图谱结合的故障定位方法为经验相对不足的设备维护人员进行快速故障诊断提供了支持,也具备一定的实践意义.
暂无评论