咨询与建议

限定检索结果

文献类型

  • 28 篇 学位论文
  • 21 篇 期刊文献
  • 3 篇 会议

馆藏范围

  • 52 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 43 篇 工学
    • 29 篇 计算机科学与技术...
    • 25 篇 软件工程
    • 13 篇 仪器科学与技术
    • 1 篇 电子科学与技术(可...
    • 1 篇 控制科学与工程
    • 1 篇 水利工程
    • 1 篇 网络空间安全
  • 16 篇 管理学
    • 15 篇 管理科学与工程(可...
    • 1 篇 图书情报与档案管...

主题

  • 52 篇 web数据抽取
  • 6 篇 包装器
  • 5 篇 信息抽取
  • 5 篇 web挖掘
  • 3 篇 扩展dom树
  • 3 篇 xml
  • 3 篇 web数据挖掘
  • 3 篇 dom
  • 3 篇 web数据语义标注
  • 3 篇 web数据集成
  • 3 篇 dom树
  • 3 篇 条件随机场
  • 2 篇 抽取规则
  • 2 篇 正则表达式
  • 2 篇 解析页面
  • 2 篇 web隐藏数据库
  • 2 篇 开源社区
  • 2 篇 匹配算法
  • 2 篇 表格特征
  • 2 篇 结构化信息

机构

  • 4 篇 沈阳建筑大学
  • 4 篇 山东大学
  • 3 篇 国防科学技术大学
  • 3 篇 北京大学
  • 3 篇 厦门大学
  • 3 篇 哈尔滨工程大学
  • 2 篇 西华大学
  • 2 篇 天津大学
  • 2 篇 中国科学技术信息...
  • 2 篇 浙江工业大学
  • 2 篇 东北大学
  • 1 篇 福建师范大学
  • 1 篇 重庆交通大学
  • 1 篇 大连理工大学
  • 1 篇 桂林电子科技大学
  • 1 篇 煤矿灾害防控全国...
  • 1 篇 复旦大学
  • 1 篇 郑州航空工业管理...
  • 1 篇 乌鲁木齐八一中学...
  • 1 篇 西安交通大学

作者

  • 3 篇 任仲晟
  • 2 篇 严华梁
  • 2 篇 梁朝凯
  • 2 篇 韩子扬
  • 2 篇 宋玉忠
  • 2 篇 尹刚
  • 2 篇 郑新录
  • 2 篇 刘伟
  • 2 篇 liu wei
  • 2 篇 薛永生
  • 2 篇 song yu-zhong
  • 2 篇 曲著伟
  • 2 篇 xue yong-sheng
  • 2 篇 吴克介
  • 2 篇 冯季昉
  • 2 篇 yan hua-liang
  • 2 篇 李贵
  • 2 篇 张方
  • 2 篇 yin gang
  • 2 篇 ren zhong-sheng

语言

  • 52 篇 中文
检索条件"主题词=Web数据抽取"
52 条 记 录,以下是31-40 订阅
排序:
一种基于扩展DOM树的web数据自动抽取方法
收藏 引用
应用科技 2009年 第8期36卷 52-55页
作者: 陈远斌 哈尔滨工程大学网络信息中心 黑龙江哈尔滨150001
web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依... 详细信息
来源: 评论
web网页的自动分割与数据区域抽取
Web网页的自动分割与数据区域抽取
收藏 引用
中国电子学会第十二届全国青年学术年会
作者: 孙鹤立 冯博琴 黄健斌 西安交通大学计算机科学与技术系 陕西西安 710049 西安电子科技大学计算机学院 陕西西安 710071
用基于HTML标签树的数据块查找方法对web网页进行区域分割,在此基础上结合网页聚类和跨网页数据区域匹配自动识别一个网页中的动态数据区域。实验结果表明提出的方法能够提高web网页中动态数据区域识别的召回率和准确率。
来源: 评论
一种web评论自动抽取方法
收藏 引用
软件学报 2010年 第12期21卷 3220-3236页
作者: 刘伟 严华梁 肖建国 曾建勋 中国科学技术信息研究所 北京100038 北京大学计算机科学技术研究所 北京100871
web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致... 详细信息
来源: 评论
基于视觉信息和标签路径的数据抽取
收藏 引用
中国海洋大学学报(自然科学版) 2015年 第5期45卷 114-119页
作者: 张巍 邹晓明 谈凤真 中国海洋大学信息科学与工程学院 山东青岛266100
结合网页的视觉信息和DOM树结构,研究从Deep web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度... 详细信息
来源: 评论
页面包装器自动生成的改进算法
收藏 引用
计算机工程与应用 2004年 第22期40卷 113-115,122页
作者: 李文奇 张忠能 上海交通大学计算机科学与工程系 上海200030
论文提出了一种页面包装器自动生成的改进算法,在对两个HTML页面进行匹配生成页面包装器的过程中,该算法使用树型数据模型作为基础,比原算法具有更高的执行效率。
来源: 评论
基于文献的农业领域本体自动构建方法研究
收藏 引用
计算机应用与软件 2014年 第8期31卷 71-74页
作者: 王超 李书琴 肖红 西北农林科技大学信息工程学院 陕西杨凌712100
农业领域本体的构建将为农业垂直搜索引擎提供知识组织基础。在对本体构建技术进行深入研究的基础上,设计实现基于文献的农业领域本体构建方法。使用web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析... 详细信息
来源: 评论
基于缩进轮廓的HTML文档重复模式挖掘方法
收藏 引用
计算机科学 2011年 第8期38卷 165-168页
作者: 朱沿旭 王怀民 史殿习 尹刚 袁霖 李翔 国防科学技术大学计算机学院 长沙410073 信息工程大学电子技术学院 郑州450004
HTML文档重复模式挖掘是找到web页面编码模版的关键,是web数据自动抽取web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的web页面来说仍然是一个挑战。为了提高性能... 详细信息
来源: 评论
基于可视块的多记录型复杂网页信息提取算法
收藏 引用
计算机科学 2019年 第10期46卷 63-70页
作者: 王卫红 梁朝凯 闵勇 浙江工业大学计算机科学与技术学院
网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Bas... 详细信息
来源: 评论
基于树形结构的web信息抽取
收藏 引用
福建师范大学学报(自然科学版) 2009年 第3期25卷 39-46页
作者: 任仲晟 薛永生 福建师范大学数学与计算机科学学院 福建福州350108 厦门大学计算机科学系 福建厦门361005
提出了一种基于树形结构的web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实... 详细信息
来源: 评论
基于树形结构的网页数据抽取模式研究及应用
基于树形结构的网页数据抽取模式研究及应用
收藏 引用
作者: 高永胜 大连理工大学
学位级别:硕士
随着互联网的快速发展,网络逐步成为信息互通和共享的重要平台,如何从海量的网页文件中获取有价值的信息成为人们关注的焦点。网页是一种半结构化的数据文档,文档结构和数据形式较复杂,要想从网页中获取有用的数据需要通过数据抽取技术... 详细信息
来源: 评论