版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:西北民族大学中国民族语言文字信息技术重点实验室兰州730030
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2014年第40卷第6期
页 面:185-189页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家"973"计划基金资助项目(2013CB329303) 国家自然科学基金资助项目(61032008) 国家科技支撑计划基金资助项目(2009BAH41B07) 中央高校基本科研业务费专项基金资助项目(ycx13014)
主 题:藏文信息处理 改进卡方统计量 文本表示 自动断句 向量空间模型
摘 要:藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。