版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:北京交通大学
学位级别:硕士
导师姓名:瞿有利
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:Web数据提取 视觉信息 DOM树 抽取规则描述语言 Ajax动态页面
摘 要:Web数据提取技术在网络数据挖掘、情报获取、商业竞争和大数据分析中发挥着重要作用。随着互联网的普及和快速发展,网络中承载的海量数据信息已经成为一个宝贵的资源,但由于Web页面难以获取、数据形式不统一,加上随处可见的噪声信息等原因使Web数据不能得到充分利用。如何有效的抽取Web页面中包含的结构化数据成为一个热门的研究方向。本文分析了 Web页面获取困难的原因和网页的视觉信息特点,针对DOM树匹配算法、Web数据提取规则描述语言和Web数据自动化抽取技术进行深入研究,主要工作内容如下:(1)本文对传统DOM树匹配的特点进行剖析,结合Web数据自动化提取过程提出了基于XPath和LCS的DOM树匹配算法。该算法不仅降低了DOM树匹配的时间复杂度提升了DOM树匹配的效率,而且结合XPath进行数据抽取提高了数据抽取的准确性。(2)分析了 Web2.0中常用的动态网页技术和网页视觉特征,提出了面向提取规则描述的WDERD语言,解决了Web数据提取中动态页面难以获取的困难。该语言描述了网页操作、数据标记、循环过程和网页渲染等操作过程,详细描述了Web数据提取的整个过程。针对WDERD语言提取规则的生成过程,本文设计了通过Chromium嵌入式框架自定义插件扩展,对用户操作动作和操作页面元素进行记录,自动化生成Web数据提取规则的WDERD语言描述,让普通用户可以通过简单页面交互生成WDERD语言规则描述完成Web数据的抽取任务。(3)本文设计并实现了基于视觉信息的Web数据提取系统。系统分为WDERD语言解析模块、页面获取模块、DOM树匹配模块、数据记录模块、数据项提取模块和数据存储模块。通过与OXPath包装器和八爪鱼数据采集器进行Web数据提取实验对比,结果表明基于视觉信息的Web数据提取系统在保证Web数据提取准确率的同时提升了Web数据提取的效率。