传统的主题提取算法存在一些已知的问题。为了更好地满足SEWM-2004中文W eb检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced top ic search,H ITS)等算法,提出了一种以站点作为查询的资源单位,并...
详细信息
传统的主题提取算法存在一些已知的问题。为了更好地满足SEWM-2004中文W eb检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced top ic search,H ITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CW T 100G上的超链接分析(hyperlink ana lys is w ith inCW T 100G,HAC)。HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页。两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点。
为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TE IRES IA S的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法B ioM atrix,并实现了基于此算法的中英文邮件过滤...
详细信息
为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TE IRES IA S的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法B ioM atrix,并实现了基于此算法的中英文邮件过滤系统。过滤系统由数量控制过滤提供垃圾邮件训练集,通过提取其中的特征模式对邮件进行分类,可以识别出约94.2%的垃圾邮件,误过滤率约0.04%。与B ayes过滤算法对比的实验结果表明,将生物序列模式提取技术应用于邮件过滤具有较好的研究和实用价值。
暂无评论