版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:河北理工大学经济管理学院唐山063009 北京交通大学计算机与信息技术学院北京100044
出 版 物:《情报杂志》 (Journal of Intelligence)
年 卷 期:2008年第27卷第3期
页 面:5-7,10页
核心收录:
学科分类:02[经济学] 0202[经济学-应用经济学] 020208[经济学-统计学] 07[理学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0714[理学-统计学(可授理学、经济学学位)] 070103[理学-概率论与数理统计] 0701[理学-数学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文本分类 特征选择 基尼指数 特征加权 向量空间模型
摘 要:随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用***方法对特征加权。但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。针对***方法存在的问题,提出了一种基于特征基尼指数的特征加权方法***。实验结果显示,这种加权方法具有很好的分类性能。