版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:南京大学计算机软件新技术国家重点实验室
出 版 物:《计算机科学》 (Computer Science)
年 卷 期:2004年第31卷第7期
页 面:84-86,208页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:多策略 主题集中式 爬虫设计 相关性 重要性 万维网
摘 要:万物网搜索引擎的建立、操作和维护需要许多的资源,而且在信息时效性和对特定用户的针对性方面还存在着不稳定性。在主题集中式万维网爬虫方面的研究希望通过利用主题减少对信息的爬行范围,同时提高信息的利用率。相关的一些研究者已采用不同的方法进行了主题集中式爬虫的设计。本文讨论了多策略的主题集中式爬虫系统的设计,它具有低网宽消耗和容易执行的特点。实验表明:本系统可综合网页的相关性和重要性两方面的需要,并表现出良好的稳定性。同时,本系统在选择优先战略方面是可调和,有很强的灵活性。