咨询与建议

限定检索结果

文献类型

  • 4 篇 期刊文献
  • 4 篇 学位论文
  • 2 篇 会议

馆藏范围

  • 10 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 10 篇 工学
    • 7 篇 计算机科学与技术...
    • 5 篇 软件工程
    • 4 篇 仪器科学与技术
  • 3 篇 管理学
    • 3 篇 管理科学与工程(可...
  • 1 篇 文学
    • 1 篇 新闻传播学

主题

  • 10 篇 页面结构分析
  • 6 篇 dom
  • 5 篇 坐标树
  • 5 篇 启发式规则
  • 5 篇 内容抽取
  • 2 篇 标记统计
  • 1 篇 统一检索
  • 1 篇 网页信息抽取
  • 1 篇 重叠索引
  • 1 篇 关键信息块
  • 1 篇 树型结构
  • 1 篇 信息提取
  • 1 篇 向量空间模型
  • 1 篇 深度优先遍历
  • 1 篇 子树广度
  • 1 篇 文档图像检索系统
  • 1 篇 vips算法
  • 1 篇 html
  • 1 篇 密度分布特征
  • 1 篇 文本分类

机构

  • 5 篇 北京邮电大学
  • 5 篇 燕山大学
  • 4 篇 北京电子科技学院
  • 1 篇 成都信息工程学院
  • 1 篇 北京大学
  • 1 篇 中国石油大学
  • 1 篇 甘肃省科学技术情...

作者

  • 5 篇 刘飚
  • 5 篇 刘艳敏
  • 4 篇 方勇
  • 4 篇 封化民
  • 4 篇 宋国森
  • 2 篇 liu biao
  • 2 篇 liu yanmin
  • 2 篇 feng huamin
  • 2 篇 song guosen
  • 2 篇 fang yong
  • 1 篇 董娟
  • 1 篇 施韶亭
  • 1 篇 林昌平
  • 1 篇 lin chang-ping
  • 1 篇 zheng jiao-ling
  • 1 篇 冯所前
  • 1 篇 郑皎凌
  • 1 篇 wang quan
  • 1 篇 shi shaoting
  • 1 篇 王权

语言

  • 10 篇 中文
检索条件"主题词=页面结构分析"
10 条 记 录,以下是1-10 订阅
排序:
基于页面结构分析的网页信息抽取方法研究
基于页面结构分析的网页信息抽取方法研究
收藏 引用
作者: 董娟 中国石油大学
学位级别:硕士
随着Internet的快速发展,越来越多的人们在网络上搜索需要的信息。然而,在互联网上,几乎所有的网页都包含着与主题无关的噪音信息,比如广告条、导航栏等。它们严重影响着搜索引擎的检索结果,因此网页信息抽取技术应运而生。在众多的网... 详细信息
来源: 评论
含有位置坐标树的Web页面分析和内容提取框架
收藏 引用
清华大学学报(自然科学版) 2005年 第S1期45卷 1767-1771页
作者: 封化民 刘飚 刘艳敏 方勇 宋国森 北京电子科技学院信息安全与保密重点实验室 北京100070 北京邮电大学电信工程学院 北京100876 燕山大学信息工程学院 秦皇岛066004
随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,... 详细信息
来源: 评论
Web页面主题信息抽取研究与实现
收藏 引用
计算机工程与应用 2006年 第21期42卷 146-148页
作者: 刘艳敏 刘飚 封化民 宋国森 方勇 燕山大学信息工程学院 河北秦皇岛066004 北京邮电大学电信工程学院 北京100876 北京电子科技学院信息安全与保密重点实验室 北京100070
Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页... 详细信息
来源: 评论
基于新型坐标树的页面分析和内容提取框架
基于新型坐标树的页面分析和内容提取框架
收藏 引用
作者: 刘飚 北京邮电大学
学位级别:硕士
随着互联网的发展和动态网页生成技术的成熟,网页的数量呈爆炸性的增长。而为了商业上的考虑和网站的维护,很多网页都充斥着很多重复性高且与网页主题内容无关的信息。例如:广告、表单和版权声明等。这些内容充斥在每个网页但是却多... 详细信息
来源: 评论
大规模复杂文档图像快速检索系统的研究与实现
大规模复杂文档图像快速检索系统的研究与实现
收藏 引用
作者: 冯所前 北京大学
学位级别:硕士
本文针对包含不同分辨率、不同颜色灰度、中文、日文和英文等多种文字的大规模文档图像检索问题,提出了一种新的基于图像特征的文档图像检索方法。该方法在对文档图像进行预处理后,提取文档图像的密度分布特征(DensityDistributionFea... 详细信息
来源: 评论
Web内容抽取及语义识别算法研究
Web内容抽取及语义识别算法研究
收藏 引用
作者: 刘艳敏 燕山大学
学位级别:硕士
随着Internet的发展,互联网作为一个功能强大的网络媒体,它实际上是一个双刃剑,它在作正面的媒体宣传和导向时,也难免被敌对势力所利用。因此,基于网页内容的信息安全技术研究已经成为信息安全的一个重要分支。而基于内容的信息安全的... 详细信息
来源: 评论
Web信息抽取技术在统一检索系统中的应用研究
收藏 引用
计算机应用与软件 2010年 第10期27卷 120-122,137页
作者: 王权 施韶亭 甘肃省科学技术情报研究所 甘肃兰州730000
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 详细信息
来源: 评论
基于DOM规范的网页分析技术研究
收藏 引用
成都信息工程学院学报 2007年 第z1期22卷 113-117页
作者: 林昌平 郑皎凌 成都信息工程学院软件工程系 四川成都610225
基于DOM树模型进行网页建模,同时利用深度优先的递归算法对DOM树模型进行遍历。通过将HTML文档转换为DOM树,对其遍历后给树的节点唯一标号来对网页进行分析。为了更直观的分析网页结构还采用图形界面的形式来显示树型DOM文档。实验表明... 详细信息
来源: 评论
基于新型坐标树的页面分析和内容提取方法
基于新型坐标树的页面分析和内容提取方法
收藏 引用
第二届全国信息检索与内容安全学术会议(NCIRCS-2005)
作者: 刘飚 刘艳敏 封化民 方勇 宋国森 北京邮电大学电信工程学院 燕山大学信息工程学院 北京电子科技学院信息安全与保密重点实验室 北京邮电大学电信工程学院 燕山大学信息工程学院
Web页面中“噪音”是影响基于网页内容的Web分类质量的一个重要因素,快速而准确的识别网页的主题内容是提高分类准确率的关键技术之一。针对HTML的半结构化特征和DOM缺乏位置信息的不足,本文提出了一种新型的Web页面分析和内容提取框架... 详细信息
来源: 评论
基于新型坐标树的页面分析和内容提取方法
基于新型坐标树的页面分析和内容提取方法
收藏 引用
第二届全国信息检索与内容安全学术会议
作者: 刘飚 刘艳敏 封化民 方勇 宋国森 北京邮电大学电信工程学院 北京100876 燕山大学信息工程学院 秦皇岛066004 北京电子科技学院信息安全与保密重点实验室 北京100070 北京邮电大学电信工程学院 北京100876 北京电子科技学院信息安全与保密重点实验室 北京100070
Web页面中"噪音"是影响基于网页内容的Web分类质量的一个重要因素,快速而准确的识别网页的主题内容是提高分类准确率的关键技术之一.针对HTML的半结构化特征和DOM缺乏位置信息的不足,本文提出了一种新型的Web页面分析和内容... 详细信息
来源: 评论