在信息爆炸的时代,每天都有数以万计的文本产生,本研究的目的是将文件依据主题聚集成群,方便使用者阅读,可应用于新闻或入口网站的管理,将主题相似的新闻或信息呈现在一起。本研究以近似词汇样式匹配(Approximate Word Pattem Matching...
详细信息
在信息爆炸的时代,每天都有数以万计的文本产生,本研究的目的是将文件依据主题聚集成群,方便使用者阅读,可应用于新闻或入口网站的管理,将主题相似的新闻或信息呈现在一起。本研究以近似词汇样式匹配(Approximate Word Pattem Matching)为特征抽取(Feature Extraction),采纳词汇样式距离信息于频率测量,建立近似词汇样式加权频率与idf(pwf-idf)的向量空间模型。为了有效分群,我们以档与档之间的同义联结(synonymityassociation)当做相似度,并提出一个简易而有效的递归合并高相似度数据的聚集方法。
暂无评论