版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201410347463.5
公 开 号:CN104182462B
发 明 人:贾岩
代 理 人:程笃庆;黄乐瑜
代理机构:34119 合肥市长远专利代理事务所(普通合伙)
专利类型:授权发明
申 请 日:20180626
公 开 日:20140721
专利主分类号:G06F17/30(20060101)
关 键 词:网站 爬虫 服务系统 网络爬虫 管理服务模块 监控服务模块 部署服务 调度服务 调度管理 调度模式 多个网站 爬虫模块 生命周期 数据实体 数据抓取 网站数据 相关参数 页面元素 语义分析 映射 内置 预设 抽取 解析 保存 监控 挖掘 分配 配置 升级 部署 管理
摘 要:本发明提出了一种用于房库网的网络爬虫服务系统,可快速的进行网站挖掘并提取房产相关的数据,包括:网站爬虫模块,由多个网站爬虫组成,网站爬虫与网站一一对应,并针对网站的页面元素进行解析,网站爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存;监控服务模块,用于监控各个网站爬虫的工作情况,判断网站爬虫工作是否正常,数据抓取是否正确;管理服务模块,用于配置网站爬虫工作相关参数的设置,对网站爬虫进行升级,并对服务系统的启动与停止、网站爬虫的生命周期及工作进行管理;部署服务模块,用于对网站爬虫进行分配与部署;调度服务模块,内置网络爬虫的调度模式,对网站爬虫的工作方式、时间、停止进行调度管理。