版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:北京邮电大学信息与通信工程学院北京100876 北京邮电大学模式识别实验室北京100876
出 版 物:《软件》 (Software)
年 卷 期:2013年第34卷第12期
页 面:148-151页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
基 金:111 Project of China under Grant No.B08004 key project of ministry of science and technology of China under Grant No.2011ZX03002-005-01 National Natural Science Foundation of China(61273217) the Ph.D.Programs Foundation of Ministry of Education of China(20130005110004)
摘 要:WAF(词激活力)是一种基于统计的描述词与词关系的算法,WAF不单纯是考虑的词之间的关联,还考虑了词前后顺序,词与词之间的距离,包含了概率和语言规则两种信息量。本文提出一种实体结构化数据的关系特征抽取算法,并基于该特征实现实体聚类。首先提取出实体结构化数据的语义和语境特征,以此来文本建模,然后对每个属性基于WAF值进行相似度计算,最后进行实体聚类。