版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:重庆大学
学位级别:硕士
导师姓名:唐朝伟
授予年度:2012年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:eDonkey网络 Kad网络 主动式爬虫 网页DOM树 文件共享系统
摘 要:伴随着P2P技术的发展,P2P文件共享软件利用丰富的P2P网络的资源,实现了共享文件的快速定位、网络备份以及高速下载,开创了文件共享的新时代。eMule作为当前全球最流行的P2P文件共享系统之一,它支持eDonkey2000网络和Kad网络网内文件搜索,给网络用户下载多媒体内容带来了全新的体验。同时,eMule网络也成为了不良非法内容传播的温床,严重影响了网络应用环境,其分散隐秘的传播方式,给世界各国网络监管部门带来了很大挑战。 针对eMule网络资源传输不易发现和不易定位的问题。根据eMule网络结构及其资源传播特点,本文设计并实现了面向eMule的主动式网络爬虫系统,以两种方式采集eMule资源数据,为网络安全监管和网络安全态势的宏观分析提供了数据基础;该系统也为P2P网络测量提供了一个很好的技术平台。主要工作及成果如下: ①在web网络传播方面,设计并实现了web网页爬虫模块:1)改进开源网络爬虫Heritrix的链接过滤功能,并引入ELFhash算法优化其URL队列管理策略,通过测试验证改进后抓取线程数和网页采集速率有明显提高。2)为避免传统web网络爬虫的重复性问题,本文采用增量更新机制,有效提高采集网页的质量;实验得出抓取网页的平均查准率为95.5%,满足项目需求。3)为深入web网页中各单独信息块抽取eMule资源,结合自定义抽取规则,采用基于DOM树的信息抽取方法,实验表明信息抽取的平均准确率为97.8%,明显高于同类系统。 ②在eMule文件共享系统传播方面,主动式爬虫系统中设计并实现了eMule网络爬虫模块:1)采用主动测量的方法,设计基于eMule网络中两种不同协议的网络爬虫E-Crawler,多机并行处理,解决了传统网络爬虫只测量单一协议网络的问题。2)结合网络音视频传播特点,为搜索特定热度文件在eMule网络中传播情况,采用自动添加关键字搜索的方式,使E-Crawler爬行更加具有主动性。3)为了提高E-Crawler爬行速率,采用基于正反馈的爬行策略,优先与大型服务器、连接成功率高的节点进行通信,有效节省了与已失效的服务器或已离线节点通信的时间。实验结果表明:共享文件类型以音视频为主,同时统计发现ed2k服务器地理分布、eMule网络中节点分布;基于正反馈策略的E-crawler具有较好的节点获取速度。