咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本分类的中文垃圾短信过滤研究 收藏
基于文本分类的中文垃圾短信过滤研究

基于文本分类的中文垃圾短信过滤研究

作     者:莫阳 

作者单位:桂林电子科技大学 

学位级别:硕士

导师姓名:黄文明

授予年度:2017年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:文本分类 文本加权 垃圾短信过滤 特征扩展 词向量 迭代决策树 

摘      要:随着人工智能技术的成熟,以机器学习技术为基础的反垃圾短信技术开始流行,其中最主要的一类方法便是基于短信内容的机器学习垃圾分类方法。垃圾短信的过滤问题本质是一个二分类问题,对于基于内容的统计学习垃圾短信过滤方法,采用文本分类技术将待分类短信样本加载进训练好的分类模型来实现自动分类,这类方法在短信分类中计算速度较快且分类效果较好,同时避免了人为介入的规则设置,智能化的水平更高。\n 本文首先针对 KNN算法在文本分类的决策规则上存在的样本权重相同的缺点,提出了基于文本加权的KNN文本分类算法,并应用于垃圾短信的分类;在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第一个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第二个加权公式,最后将引入的两种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进,提升短信分类效果。\n 其次,针对关联规则在短文本分类特征扩展过程中存在的扩展特征类别偏向不统一而导致扩展特征质量不高的缺点,设计了一种改进的特征扩展算法模型,1)首先提出一个类别频繁因子(label frequency factor,LFF)概念,根据LFF值对不同类别的频繁词集挖掘采取不一样的最小支持度阈值,使得每个类别的频繁词集得到充分挖掘;2)对于频繁词集中扩展特征的类别倾向性分析,通过人工设置阈值计算特征的类别倾向的方法人工干预过多,且阈值会随着数据集的改变而改变,本文融合X2检验算法对扩展特征进行二次筛选,以产生高质量的特征扩展词语集合并作为训练集和测试集扩展特征的背景知识库,避免了人工设参,提高了程序和算法可控性。\n 最后,考虑在传统的文本分类表示模型中,典型的比如空间向量模型-TFIDF算法对于短信这种短文本内容的分类,即便通过特征扩展,文本规模也很难与长文本相提并论,存在特征稀疏、信息量不够的缺点。本文通过词向量模型将短信文本的表示映射到N维向量空间中,使得短信文本具有更深层的特征表示。同时考虑到词向量模型改良了特征的深层表示、解决了特征高维稀疏的问题,而迭代决策树算法GBDT模型更加适用于非高维稠密特征,因此将在词向量模型融合迭代决策树算法(GBDT)在文本分类的应用上进行实践,通过词语的分布式表示即词向量的方式并用在GBDT模型上对短信进行分类。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分