基于视觉信息的Web数据高效提取技术研究-内蒙古大学图书馆

文献详情 >基于视觉信息的Web数据高效提取技术研究收藏

基于视觉信息的Web数据高效提取技术研究

作者：王鹏

作者单位：北京交通大学

学位级别：硕士

导师姓名：瞿有利

授予年度：2019年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]

主题：Web数据提取视觉信息 DOM树抽取规则描述语言 Ajax动态页面

摘要：Web数据提取技术在网络数据挖掘、情报获取、商业竞争和大数据分析中发挥着重要作用。随着互联网的普及和快速发展,网络中承载的海量数据信息已经成为一个宝贵的资源,但由于Web页面难以获取、数据形式不统一,加上随处可见的噪声信息等原因使Web数据不能得到充分利用。如何有效的抽取Web页面中包含的结构化数据成为一个热门的研究方向。本文分析了 Web页面获取困难的原因和网页的视觉信息特点,针对DOM树匹配算法、Web数据提取规则描述语言和Web数据自动化抽取技术进行深入研究,主要工作内容如下:(1)本文对传统DOM树匹配的特点进行剖析,结合Web数据自动化提取过程提出了基于XPath和LCS的DOM树匹配算法。该算法不仅降低了DOM树匹配的时间复杂度提升了DOM树匹配的效率,而且结合XPath进行数据抽取提高了数据抽取的准确性。(2)分析了 Web2.0中常用的动态网页技术和网页视觉特征,提出了面向提取规则描述的WDERD语言,解决了Web数据提取中动态页面难以获取的困难。该语言描述了网页操作、数据标记、循环过程和网页渲染等操作过程,详细描述了Web数据提取的整个过程。针对WDERD语言提取规则的生成过程,本文设计了通过Chromium嵌入式框架自定义插件扩展,对用户操作动作和操作页面元素进行记录,自动化生成Web数据提取规则的WDERD语言描述,让普通用户可以通过简单页面交互生成WDERD语言规则描述完成Web数据的抽取任务。(3)本文设计并实现了基于视觉信息的Web数据提取系统。系统分为WDERD语言解析模块、页面获取模块、DOM树匹配模块、数据记录模块、数据项提取模块和数据存储模块。通过与OXPath包装器和八爪鱼数据采集器进行Web数据提取实验对比,结果表明基于视觉信息的Web数据提取系统在保证Web数据提取准确率的同时提升了Web数据提取的效率。

本地馆藏 | 借阅须知 | 我要预约

已订购，未入库

sda

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

CADAL相关文献

基于视觉信息的Web数据高效提取技术研究

读者评论与其他读者分享你的观点

请选择收藏分类：

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

CADAL相关文献

基于视觉信息的Web数据高效提取技术研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：