检索结果-内蒙古大学图书馆

应用科技 2009年第8期36卷 52-55页

作者：陈远斌哈尔滨工程大学网络信息中心黑龙江哈尔滨150001

web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依... 详细信息

web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.

关键词： web数据抽取扩展DOM树新颖度

来源：评论

学校读者我要写书评

暂无评论

web网页的自动分割与数据区域抽取

Web网页的自动分割与数据区域抽取

引用

中国电子学会第十二届全国青年学术年会

作者：孙鹤立冯博琴黄健斌西安交通大学计算机科学与技术系陕西西安 710049 西安电子科技大学计算机学院陕西西安 710071

用基于HTML标签树的数据块查找方法对web网页进行区域分割,在此基础上结合网页聚类和跨网页数据区域匹配自动识别一个网页中的动态数据区域。实验结果表明提出的方法能够提高web网页中动态数据区域识别的召回率和准确率。

关键词： web数据抽取动态数据区域识别跨网页分析

来源：评论

学校读者我要写书评

暂无评论

一种web评论自动抽取方法

引用

软件学报 2010年第12期21卷 3220-3236页

作者：刘伟严华梁肖建国曾建勋中国科学技术信息研究所北京100038 北京大学计算机科学技术研究所北京100871

web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致... 详细信息

web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.

关键词： web用户评论结构化数据记录 web数据抽取

来源：评论

学校读者我要写书评

暂无评论

基于视觉信息和标签路径的数据抽取

引用

中国海洋大学学报（自然科学版） 2015年第5期45卷 114-119页

作者：张巍邹晓明谈凤真中国海洋大学信息科学与工程学院山东青岛266100

结合网页的视觉信息和DOM树结构,研究从Deep web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度... 详细信息

结合网页的视觉信息和DOM树结构,研究从Deep web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点。根据xpath属性将各条数据记录的数据项对齐。对整个抽取过程生成模板,可以使抽取效率得到很大提高。对8个Deep web网站进行了抽取数据实验,结果表明本文方法是有效的。

关键词： Deep web数据抽取视觉信息标签路径

来源：评论

学校读者我要写书评

暂无评论

页面包装器自动生成的改进算法

引用

计算机工程与应用 2004年第22期40卷 113-115,122页

作者：李文奇张忠能上海交通大学计算机科学与工程系上海200030

论文提出了一种页面包装器自动生成的改进算法,在对两个HTML页面进行匹配生成页面包装器的过程中,该算法使用树型数据模型作为基础,比原算法具有更高的执行效率。

关键词： web数据抽取包装器匹配算法算法优化

来源：评论

学校读者我要写书评

暂无评论

基于文献的农业领域本体自动构建方法研究

引用

计算机应用与软件 2014年第8期31卷 71-74页

作者：王超李书琴肖红西北农林科技大学信息工程学院陕西杨凌712100

农业领域本体的构建将为农业垂直搜索引擎提供知识组织基础。在对本体构建技术进行深入研究的基础上,设计实现基于文献的农业领域本体构建方法。使用web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析... 详细信息

农业领域本体的构建将为农业垂直搜索引擎提供知识组织基础。在对本体构建技术进行深入研究的基础上,设计实现基于文献的农业领域本体构建方法。使用web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析和改进的层次聚类发现领域概念间关系,构建农业领域本体。通过实验验证,该方法提高了领域概念间关系聚类效果和领域本体构建效果。最后加以应用实施,实现了基于本体的农业垂直搜索引擎。

关键词：领域本体本体构建 web数据抽取关联分析改进的层次聚类算法

来源：评论

学校读者我要写书评

暂无评论

基于缩进轮廓的HTML文档重复模式挖掘方法

引用

计算机科学 2011年第8期38卷 165-168页

作者：朱沿旭王怀民史殿习尹刚袁霖李翔国防科学技术大学计算机学院长沙410073 信息工程大学电子技术学院郑州450004

HTML文档重复模式挖掘是找到web页面编码模版的关键,是web数据自动抽取和web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的web页面来说仍然是一个挑战。为了提高性能... 详细信息

HTML文档重复模式挖掘是找到web页面编码模版的关键,是web数据自动抽取和web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。

关键词：重复模式挖掘 web数据抽取 web内容挖掘缩进轮廓串联重复波段

来源：评论

学校读者我要写书评

暂无评论

基于可视块的多记录型复杂网页信息提取算法

引用

计算机科学 2019年第10期46卷 63-70页

作者：王卫红梁朝凯闵勇浙江工业大学计算机科学与技术学院

网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Bas... 详细信息

网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Based Information Extraction,VBIE),通过启发式规则构建可视块与可视块树,然后通过区域聚焦、噪声过滤及可视块筛选,实现了对复杂网页中数据记录的提取。该方法摒弃了以往算法对网页结构的特定假设,无需对HTML文档进行任何人工标记,保留了网页的原始结构,且能够在单页面上实现无监督的信息提取。实验结果表明,VBIE的网页信息提取精确度最高可达100%,在主流搜索引擎的结果页面和社区论坛的帖子页面上的F1均值分别为98.5%和96.1%。相比目前方法中在复杂网页上提取效果较好的CMDR方法,VBIE的F1值提高了近16.3%,证明了该方法能够有效解决复杂网页的信息提取问题。

关键词： web数据抽取 web挖掘数据记录提取网页数据提取结构化信息

来源：评论

学校读者我要写书评

暂无评论

基于树形结构的web信息抽取

引用

福建师范大学学报（自然科学版） 2009年第3期25卷 39-46页

作者：任仲晟薛永生福建师范大学数学与计算机科学学院福建福州350108 厦门大学计算机科学系福建厦门361005

提出了一种基于树形结构的web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实... 详细信息

提出了一种基于树形结构的web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现web结构化数据抽取.

关键词： web数据抽取 web挖掘信息抽取

来源：评论

学校读者我要写书评

暂无评论

基于树形结构的网页数据抽取模式研究及应用

基于树形结构的网页数据抽取模式研究及应用

引用

作者：高永胜大连理工大学

学位级别：硕士

随着互联网的快速发展,网络逐步成为信息互通和共享的重要平台,如何从海量的网页文件中获取有价值的信息成为人们关注的焦点。网页是一种半结构化的数据文档,文档结构和数据形式较复杂,要想从网页中获取有用的数据需要通过数据抽取技术... 详细信息

随着互联网的快速发展,网络逐步成为信息互通和共享的重要平台,如何从海量的网页文件中获取有价值的信息成为人们关注的焦点。网页是一种半结构化的数据文档,文档结构和数据形式较复杂,要想从网页中获取有用的数据需要通过数据抽取技术手段来完成。本文首先对国内外数据抽取技术进行分析研究,从理论上探讨数据抽取涉及到的相关概念和技术,主要包括SGML、XML以及当前常用多种数据抽取方法,并分析了各种数据抽取方法的优势和不足。然后结合web页面的结构特点,分析页面中不同位置的文本对数据抽取的贡献,区分噪音数据和有效数据,将待抽取网页数据进行预处理,达到规范化要求,并利用正则表达式原理有效剔除了与抽取内容无关的噪音内容,最大程度上保留了诸如网页的标题、正文、相关链接等主题信息,在此基础上,本文对经典的XWrap数据抽取方法加以改进,提出基于树形结构的网页数据抽取模式,将经过预处理的web网页数据解析转换为DOM树,并与用户交互生成抽取规则,对DOM树进行分割和匹配,抽取出用户关心的数据信息,生成XML数据,并进行映射存储。在对web数据进行预处理时,利用对称二叉树原理对HTML文档进行规范化转换,并提出对噪音数据剔除要区分2个层次处理。最后,本文将基于树形结构的网页数据抽取模式应用于实际项目航运船舶配载系统中,并进行了数据抽取实验,实验表明,在较高查准率93.6%下,达到了较高的96.5%的召回率,与XWrap的查准率95.5%和召回率92%进行对比,本文在查准率稍低的情况下达到了较高的召回率,其综合度量指标F-measure的F1值0.95大于XWrap的0.937,具有优势。应用该模式实现了对各个港口的航运信息及船舶信息的收集和数据存储,为航运船舶配载系统自动选船、自动配载、自动生成航运配载方案提供准确、有效的数据支持。

关键词： web数据抽取 DOM树树匹配抽取规则

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：