咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于自动WEB数据抽取生成黄页的方法 收藏

一种基于自动WEB数据抽取生成黄页的方法

An Generate Business Yellow Page Method based on Web Automatic Text Extraction

作     者:扬抒 陈尚安 武刚 YANG Shu;CHEN Shang-an;WU Gang

作者机构:北京林业大学信息学院北京100083 新疆农业大学计算机与信息工程学院新疆乌鲁木齐830001 

出 版 物:《微计算机信息》 (Control & Automation)

年 卷 期:2010年第26卷第33期

页      面:14-16页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:行业黄页 WEB信息抽取 模式匹配 抽取规则 

摘      要:利用蜘蛛技术爬取相关行业网站的数据。通过基于一种基于新的定位与模式匹配抽取WEB数据的方法,将得到的数据分类后以XML文件保存;通过相应的信息处理、表现技术对分类后的行业URL地址进行展现。最后以林业行业网址的获取和黄页的生成为例进行了实现。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分