检索结果-内蒙古大学图书馆

6th International Conference for Convergence in Technology (I2CT)

作者： Shete, Dipali Bojewar, Sachin Sanghvi, Ankit ARMIET Solapur India ARMIET Dept Informat Technol Vidyalankar Inst Technol Solapur India ARMIET Dept Comp Engn Solapur India

ISBN: (纸本)9781728188768

Over the last few years, web data extraction has gained popularity. Product information on the Ecommerce website floods the internet with big data. Web-based business sites these days have gotten one of the most significant hotspots for getting a large amount of relevant data. Wide range of software application designs to extract relevant data from web pages in order to draw in more business. The extracted data can be used for retailer business and data analysis purposes. The web pages on such sites are based on different technologies, and the generated web documents are in structured or unstructured formats. Manually extract such relevant product data and multimedia type Information from the websites is complex and time-consuming. After extraction of data needs to be classified because web content contains unwanted data e.g. design information, advertising content. This paper describes different Procedures for web document classification and extraction.

关键词： Web data mining KNN SVM random forest neural network Wrapper html parser

来源：评论

学校读者我要写书评

暂无评论

A fuzzy-based framework for evaluation of website design quality index

引用

INTERNATIONAL JOURNAL ON DIGITAL LIBRARIES 2021年第1期22卷 15-47页

作者： Kaur, Satinder Gupta, Sunil Kumar Guru Nanak Dev Univ Dept Comp Engn & Technol Amritsar Punjab India IK Gujral Punjab Tech Univ Kapurthala Punjab India Beant Coll Engn & Technol Dept Comp Sci & Engn Gurdaspur Punjab India

An unrecognized significance of the web acts as a driving force for the massive and rapid growth of websites in each domain of social life. For making a successful website, it is necessary for developers to embrace appropriate web testing and evaluation methodology. Some valuable works in the past have striven to appraise the web applications quantitatively. Various parameters have been considered which are again sub-parameterized to measurable indicators. But their weighing criterion has not been appropriately taken into account according to the domain of the website. Also, the relative degrees of interactions among parameters have not been taken into consideration. The work presented in this paper aims at describing a framework, Quality Index Evaluation Method to gauge the design quality of a website in the form of index value. An automated tool has been designed and coded to measure the metrics quantitatively. A weighing technique based on Fuzzy-DEMATEL (Decision Making Trial and Evaluation Laboratory Method) has been applied on these metrics. Fuzzy trapezoidal numbers have been used for assessment of parameters and the final design quality index value. To verify the use of framework in different website domains, it has been exercised on eight academic (four institutional and four digital libraries), five informative and four commercial websites. The results have been validated through the most widely used method in literature, i.e., user judgment. Opinions of users for each website have been quantified and aggregated with fuzzy aggregation technique. Experimental results show that the proposed framework provides accurate and consistent results in very less time.

关键词： Website design quality evaluation Fuzzy-DEMATEL Fuzzy trapezoidal Website design quality index html parser

来源：评论

学校读者我要写书评

暂无评论

A Web Information Extraction method Based on html parser

A Web Information Extraction method Based on HTML Parser

引用

International Forum on Mechanial and Material Engineering (IFMME 2013)

作者： Zhang, Zhiming Huang, Shuaishuai Li, Ping Jiangxi Normal Univ Sch Software Nanchang Peoples R China

ISBN: (纸本)9783037858004

With the rapid development of Internet, and surge in the amount of information on the Internet, how to accurately and quickly get the information of the users really need, such as the title, links, and pictures, is the hotspot. This paper proposed a fast web information extraction method based on html parser, this paper validated the effect of the proposed method by extracting commodities information of e-commerce website, the results show that the accuracy of the information extraction by our method is higher than the extraction method based on regular expressions, and the extraction time is greatly shortened.

关键词： Web information extraction html parser regular expressions extraction accuracy

来源：评论

学校读者我要写书评

暂无评论

The BBC News Hunter: A Novel Crawler for BBC News

The BBC News Hunter: A Novel Crawler for BBC News

引用

The Second International Conference of Young Computer Scientists, Engineers and Educators,ICYCSEE 2016

作者： Mingxin Wang Ning Wang Boran Wang Can Tian Yanchun Liang Guozhong Zhao Xiaosong Han College of Software Jilin University Key Laboratory for Symbol Computation and Knowledge Engineering of National Education Ministry College of Computer Science and Technology Jilin University Zhuhai Laboratory of Key Laboratory for Symbol Computation and Knowledge Engineering of Ministry of Education Zhuhai College of Jilin University Daqing Oilfield Personnel Development Institute CNPC

In order to distinguish and extract the topic information from other interferential information on the BBC news website for the study in social computing, the BBC News Hunter was proposed in this paper. The whole system consists of 6 subsystems, respectively named: UI, Control, Download, Analysis,Storage and Log. Numerical experiments show that satisfactory results can be obtained from the BBC news website, whose average accuracy as well as efficiency are acceptable.

关键词： BBC Crawler News html parser Multithread

来源：评论

学校读者我要写书评

暂无评论

邮址精确提取及邮件针对性发送系统开发

邮址精确提取及邮件针对性发送系统开发

引用

作者：赵瑞浙江理工大学

学位级别：硕士

邮件针对性发送是以电子邮件为传播载体的一种网络营销形式，应用非常广泛。对于邮件营销来说，用户邮箱地址的获取至关重要，直接影响邮件营销的效果。一方面，如果盲目地获取大量邮箱地址，不仅会造成资源的浪费，还会遭到用户的反感... 详细信息

邮件针对性发送是以电子邮件为传播载体的一种网络营销形式，应用非常广泛。对于邮件营销来说，用户邮箱地址的获取至关重要，直接影响邮件营销的效果。一方面，如果盲目地获取大量邮箱地址，不仅会造成资源的浪费，还会遭到用户的反感。另一方面，如果仅仅通过电子邮件订阅方式获取用户邮址，可能会错失大量潜在客户。因此，我们希望找到一种获取潜在用户邮址的方式，既能精准地获取目标用户的邮址，让潜在客户有机会获取到感兴趣的资讯信息，又可以最大限度地保证不打扰到其他用户。本系统旨在精确提取到潜在客户的邮箱地址，主要包括邮址精确提取和邮件针对性发送两大模块。在邮址精确提取模块，本系统采用基于搜索引擎关键字的搜索方式，提取到与该关键词相关的邮箱地址，并且通过多种过滤方式及有效性检测实现邮址的精准提取。在邮件针对性发送模块，系统首先向用户试探性发送一封资讯信息，然后根据用户退信、回复以及退订标记剔除非潜在客户邮址，提高邮件发送的针对性。为了提高系统的精准性和针对性，本文主要做了以下几点工作：第一，通过链接过滤来提高邮址的精准度。首先，本系统会对搜索引擎返回结果页面上的无关链接进行过滤，然后，本系统会将关键词与获取链接的标题进行匹配，进一步过滤无关链接，从而提高邮址与输入关键词的相关度。第二，采用多线程抓取提高邮址提取的效率。在获取到超链接队列后，本系统采用多线程技术实现批量工作的分配，提高了解析链接的效率。同时为了避免出现占用资源超过系统限制导致的程序假死状态，对多线程的数量做了限制。第三，采用深度搜索技术。深度搜索即获取搜索结果链接对应页面内的链接以及其展开的下级链接的过程。用户可以根据需要设置不同的搜索深度。但为了提高提取邮箱地址的相关度，本系统对搜索深度的最大值做了限制（最大搜索深度3）。第四，对页面进行邮箱地址匹配时，采用htmlparser与正则表达式结合的方式，提高了提取效率。和采用输入流逐行匹配的方式相比，使用htmlparser直接抽取纯文本内容进行匹配的方式，效率更高。第五，通过邮址纠错、邮址校验和邮址有效性检测来提高邮址的质量。第六，系统可以实时标记发送状态、退信情况以及回复情况，并及时剔除非目标用户的邮址，提高后续邮件发送的精准度。

关键词：搜索引擎邮址提取 html parser 正则表达式邮件发送

来源：评论

学校读者我要写书评

暂无评论

政府资助项目个性化推送系统设计与实现

政府资助项目个性化推送系统设计与实现

引用

作者：张松峰首都经济贸易大学

学位级别：硕士

政府资助项目作为政府信息公开的一个重要组成部分,是企业全方位了解国家方针和科技政策的窗口。面对种类繁多和分布散乱的政府项目,大多数企业往往在项目搜索和查询上花费了太多时间,为此,本文提出建立政府资助项目个性化推送系统,拟... 详细信息

政府资助项目作为政府信息公开的一个重要组成部分,是企业全方位了解国家方针和科技政策的窗口。面对种类繁多和分布散乱的政府项目,大多数企业往往在项目搜索和查询上花费了太多时间,为此,本文提出建立政府资助项目个性化推送系统,拟解决政府与企业间信息传递障碍和信息传递滞后等问题。通过该系统企业能够快速、高效、准确的收到与自己企业领域相关的政府项目申报资讯,从而提高企业申报政府资金的成功率。为此,本文主要做了以下几方面的工作： 1)政府资助项目抓取。对分散在各级政府官网的资助项目信息进行抓取。以Heritrix框架为基础,通过对Heritrix框架进行整合和扩展,为政府资助项目私人定制了抓取方式。 2)项目数据解析、提取与整合。对抓取的html网页数据进行提取,以html parser网页解析为基础,通过对Extractor进行扩展,将抓取的网页数据进行结构化处理,为下一步TF-IDF模型计算做准备。 3)以微信作为推送平台,利用TF-IDF模型对文本项目和企业兴趣分别进行建模,提取其特征向量,通过余弦相似度计算,通过微信公众平台最终实现政府项目的个性化推送。 4)系统性能分析。首先对项目抓取效率做了性能评估,其次对用户满意度进行了分析,最后,对个性化推送效果做了调研分析。

关键词：政府资助项目个性化推送 Heritrix html parser 微信平台

来源：评论

学校读者我要写书评

暂无评论

A Method For Judging Web-page Type

A Method For Judging Web-page Type

引用

8th International Conference on Computational Intelligence and Security (CIS)

作者： Xue Hong-jun Chen Tao Xue Li-min Naval Command Coll Dept Informat Warfare Study Nanjing Jiangsu Peoples R China

ISBN: (纸本)9780769548968

This paper introduces a concept of information entropy to judge web-page types, which associates with the method put forward by Roadrunner that pre-purifying topic pages and then using proportional relation to judge the type of pages. With some typical pages from large website home, the average precision could be reached to 96.7%, which lays foundation for further information extracting work

关键词： web-page segmentation html parser web-page type

来源：评论

学校读者我要写书评

暂无评论

基于元搜索的Web信息搜索技术研究

基于元搜索的Web信息搜索技术研究

引用

作者：张春磊吉林大学

学位级别：硕士

伴随着互联网的普及和发展，网络信息内容日益增加，这些信息中不但包含文本形式的内容，图片、音频、视频等内容也夹杂其中。如何在网络资源中快速准确地筛选和整理用户所需信息成为信息检索领域的一个研究热点。数据挖掘技术在人工智... 详细信息

伴随着互联网的普及和发展，网络信息内容日益增加，这些信息中不但包含文本形式的内容，图片、音频、视频等内容也夹杂其中。如何在网络资源中快速准确地筛选和整理用户所需信息成为信息检索领域的一个研究热点。数据挖掘技术在人工智能领域也称之为知识发现，它是通过分析已有数据，从海量数据中找寻相同的规律，并将发现的规律进行展示的技术。而Web信息搜索技术是数据挖掘技术在互联网上的一项拓展。搜索引擎最早的收录方式是人工收录，人工收录的方法建立的搜索引擎以雅虎为代表。这种方法将互联网的信息经过人工搜集、筛选并进行相关分类，之后将整理好的结果收录到网站中。但是这种方法由于人工维护成本高昂、用户知识结构各不相同等因素不能满足用户多方面需求。伴随着数据挖掘技术的发展，自动化的搜索引擎应运而生。搜索引擎通过网络机器人程序将互联网中所有数据进行数据关联并进行爬行抓取，从而得到信息索引。同时，它为用户提供一个信息检索平台，用户可以通过该平台使用关键词进行检索。搜索引擎可分为：全文搜索引擎、目录搜索引擎、元搜索引擎等。其中元搜索引擎是网页搜索引擎的进一步延伸，用户可以在一个用户交互平台中根据关键词选择在多个搜索引擎中进行相关检索操作，元搜索的特点就在于可以独立调用其他搜索引擎，实现信息的跨引擎融合，满足用户快速整合信息的需求。元搜索引擎与传统搜索引擎相比，前者能够获得更加精确而全面的信息。本文系统地阐述了Web信息提取技术的相关原理和研究现状，同时介绍了Web信息提取技术的关键步骤。重点研究了搜索引擎的流程以及关键性技术，并对元搜索进行了深入研究。本文的主要工作主要体现在： (1)对Web信息提取技术的研究背景以及Web信息提取技术的分类和步骤进行了阐述。 (2)对Web信息提取模型、html语言和DOM文档对象进行了介绍。 (3)对SSH框架中Struts、Spring、Hibernate框架进行了介绍，对网站的结构信息进行了分析。 (4)对搜索引擎的背景和分类以及关键技术进行了总结，以AJAX技术、html parser等技术设计并实现了一个元搜索引擎。 (5)对搜索引擎得到的结果进行了分析比对。 (6)对搜索引擎程序进行了测试。本文的研究以原有搜索引擎技术为基础，为实现更好的元搜索和开发更优秀的网络信息检索工具提供了一些参考。

关键词：元搜索 JSP html parser

来源：评论

学校读者我要写书评

暂无评论

Deep Web查询结果后处理

Deep Web查询结果后处理

引用

作者：毛桂春吉林大学

学位级别：硕士

随着网络快速猛进的发展,人们在网上公布的信息愈来愈多,与此同时网络上出现了各种各样的网页结构。目前,整个Web主要由两大部分构成,一部分是Surface Web,另一部分则是Deep Web。Surface Web指的是在传统的搜索引擎上经过查询就可以检... 详细信息

随着网络快速猛进的发展,人们在网上公布的信息愈来愈多,与此同时网络上出现了各种各样的网页结构。目前,整个Web主要由两大部分构成,一部分是Surface Web,另一部分则是Deep Web。Surface Web指的是在传统的搜索引擎上经过查询就可以检索到的页面,Deep Web则不同,大多数传统的搜索引擎并不能完全搜索到它们,它们隐藏在网页的索引表单之后,存储在巨大的动态数据库里,用户需要通过在查询接口上提交查询关键词后才能显示出来。根据2007年7月的一个调查显示,大约有43000—960000个Deep Web网站,而且它包含的信息内容是Surface Web的500倍还要多。在随后的2004年4月的一项调查报道显示,Deep Web站点已经达到307000之多。在短短的4年里Deep Web站点增长了3—7倍。由于Deep Web含有惊人的数据信息,所以对Deep Web信息进行抽取是非常必要的,但是由于网页结构多种多样,还掺杂了很多用户根本就不感兴趣的信息,例如广告之类的信息,它们不但占据网页的大部分篇幅,而且还影响了计算机打开网页的速度,对用户造成了困扰。本文为了解决该问题,主要对已经搜索到的网上售书领域网页的内容进行抽取,通过去除网页上的无用信息来方便用户搜索需要的内容。目前,国内外对信息抽取技术方面已经有了很多的研究成果,提出了许多信息抽取技术,例如基于自然语言的信息抽取技术、基于XML的信息抽取技术,基于DOM树的信息抽取技术等,但是它们受网页结构的影响非常大,面临现在网页结构的复杂多样,实现比较准确的信息抽取十分困难。本文提出了利用领域本体来帮助信息抽取的技术,本体用来描述某个领域内概念以及这些概念之间的关系,使这些概念和关系在共享范围内有着明确的且唯一的定义,以便能够达成共识,因此它不受网页结构的限制,只要构建的本体内容足够丰富,就能够实现使用本体指导信息准确抽取。本文主要由两部分构成,第一部分为本体构建,第二部分为查询结果信息抽取。由于目前大多数网页都是用html语言编写,该语言使用了大量的标签来对页面进行排版,本文充分利用了这一点,使用html标签和网上售书领域网页的结构特点,利用查询接口和相应的查询结果页面之间信息相互补充的方法来构建网上售书领域的本体,通过使用RSEM模型来确定本体的领域知识,然后用本体构建工具Protege来构建本体。在信息抽取部分,首先用html parser对待抽取的网页进行页面解析,在解析过程中去除用户不感兴趣的信息部分,如广告、导航栏等信息,得出待抽取信息的html树,把此html树和经过Jena解析后的OWL文件进行信息匹配,识别出网页中信息部分,并对其进行提取。最后把抽取的结果按照排序算法进行排序,并将最终结果存储到数据库中,完成抽取任务。在本文最后,为了证明此方法的可行性,对网上售书领域的几个比较有代表性的网站进行了抽取实验,如当当网、中华图书网、亚马逊网等,并和RSEM模型进行了试验比较,结果证明了该方法的可行性。

关键词： Deep Web 本体信息抽取 html parser RSEM

来源：评论

学校读者我要写书评

暂无评论

基于热点网站内容分析的超链接提取研究

基于热点网站内容分析的超链接提取研究

引用

作者：郎凤举中国海洋大学

学位级别：硕士

互联网上的信息十分广泛,而这里面有许多是人们关心的热点信息,这些热点网站上的内容,代表了互联网信息最受关注的部分,本文的目的就是对NBA热点网站内容进行分析,解析其中的超链接以及对应的正文信息,然后再通过URL与正文反馈网站的热... 详细信息

互联网上的信息十分广泛,而这里面有许多是人们关心的热点信息,这些热点网站上的内容,代表了互联网信息最受关注的部分,本文的目的就是对NBA热点网站内容进行分析,解析其中的超链接以及对应的正文信息,然后再通过URL与正文反馈网站的热度。本文首先介绍了网页信息提取技术概述及发展历史和现状,分析了网页信息提取技术分类和常用算法,对网页信息提取技术进行了相关阐述。其次,对热点网站页面内容特点进行了分析,主要包括热点网站及热点网站体育NBA特点、搜狐与网易NBA页面特点及比较、从网页语言特点分析热点网站、热点内容分析与内部关系等。通过对比,总结出NBA类热点网站内容的特点,而这些特点非常适合通过一些html解析器来分析处理。通过对比主流html解析器的特点,阐述了html parser在解析热点网页上的优势,通过对热点网页采集的实现,进一步验证了网页的内部组成结构及其构成特点等,提出了一种基于html parser的热点双反馈URL及正文提取策略：首先通过html parser提取网页的URL,然后从URL中提取正文,通过提取的正文反馈URL的热度,再通过URL反馈整个网页的热度。最后,本文实现了基于html parser的网站超链接信息提取。论文中主要介绍了利用两种算法实现热点网站超链接及正文文本信息的提取。系统运行结果及有效性评价主要通过查询搜狐体育NBA和网易体育NBA提取的结果,测试准确率和召回率两个性能指标,比较两个热点网站的链接提取效果,并通过URL与正文信息反馈网站的热度。本文正在研究的基于热点网站内容分析的超链接提取已经实现了对简单网页的解析,能够过滤掉一些垃圾信息、去除噪音,但对于是否能真正满足用户要求,提高解析出的有用信息的可操作性,还需要进一步去研究。

关键词： html parser 信息提取网页解析双反馈

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：