文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别...
详细信息
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.
本文提出了一种高效的多目标数据关联算法AC-GADA(Ant Colony-Genetic Algorithm Data Association),该算法以蚁群、遗传算法为基础,利用种群差异性使个体携带信息素,构建了全局信息素扩散模型,并引入了交叉变异策略和种群适应度模型....
详细信息
本文提出了一种高效的多目标数据关联算法AC-GADA(Ant Colony-Genetic Algorithm Data Association),该算法以蚁群、遗传算法为基础,利用种群差异性使个体携带信息素,构建了全局信息素扩散模型,并引入了交叉变异策略和种群适应度模型.通过大量的实验数据证明,该算法在获得较高关联准确率的同时可以有效地提高关联速度.
暂无评论