版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201710862631.8
公 开 号:CN107609150A
发 明 人:罗亮
代 理 人:李增朝
代理机构:11334 北京国帆知识产权代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20180119
公 开 日:20170915
专利主分类号:G06F17/30(20060101)
关 键 词:页面元素 页面 定位信息 任务集合 事件处理 网络爬虫 响应函数 浏览器 访问 交互式网络 爬虫 记录创建 记录添加 网络数据 创建 申请
摘 要:本申请公开了一种基于页面元素选取的交互式网络爬虫创建方法以及系统;其中的方法主要包括:获取待访问页面,并通过浏览器显示所述待访问页面,其中,所述通过浏览器显示的待访问页面中的页面元素设置有用于选取页面元素的事件处理响应函数;基于所述事件处理响应函数确定用户基于所述显示的待访问页面而选取的页面元素,并获取基于所述页面元素的爬取定位信息;将包含有爬取定位信息的待爬取记录添加在爬取任务集合中;根据所述爬取任务集合中的待爬取记录创建网络爬虫实例;其中,所述网络爬虫实例用于爬取所述爬取定位信息对应的网络数据。