版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:南京大学信息管理学院南京210023 江苏省数据工程与知识服务重点实验室南京210023
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2019年第3卷第4期
页 面:90-96页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 120502[管理学-情报学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家社会科学基金重大项目"情报学学科建设与情报工作未来发展路径研究"(项目编号:17ZDA291) 南京大学研究生跨学科科研创新项目"大数据环境下情报学理论方法知识库构建研究"(项目编号:2018ZDW03)的研究成果之一
主 题:不平衡数据 模糊C-均值聚类 分类 欠采样 集成学习
摘 要:【目的】解决二分类任务中因类间数据不平衡导致少数类分类准确度低的问题。【方法】提出一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法(ECFCM),即对多数类样本进行基于FCM聚类的欠采样,将聚类中心样本与全部少数类样本组成平衡数据集;利用基于Bagging的集成学习算法对平衡数据集进行分类。【结果】在4组不平衡数据集上的Matlab仿真实验结果表明,ECFCM算法的Acc、AUC和F_1提升幅度最高为5.75%(Spambase), 13.84%(Glass2)和7.54%(Spambase)。【局限】本文采用标准数据集验证ECFCM算法的有效性,当采用实际应用中的不平衡数据时,需要有针对性地研究不平衡数据分类算法。【结论】ECFCM算法分类性能良好,在一定程度上有利于提高不平衡数据中少数类的分类准确度。