版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201811318524.X
公 开 号:CN111159514B
代 理 人:北京同达信恒知识产权代理有限公司郭润湘
代理机构:北京同达信恒知识产权代理有限公司
专利类型:发明专利
申 请 日:20221213
公 开 日:20181107
专利主分类号:G06F16/951
关 键 词:网络爬虫 日志 预设 处理和分析 任务有效性 预设时间段 存储介质 网页数据 检测 子URL 采集 记录
摘 要:本发明公开了一种网络爬虫的任务有效性检测方法、装置和设备及存储介质,用于检测网络爬虫执行采集任务的有效性。该方法包括:记录网络爬虫在执行爬取网页数据任务的过程中的日志;对日志进行处理和分析,以确定在预设时间段内与主URL相关的至少一个指标的值,其中,一个主URL对应多个子URL,所述至少一个指标的值是基于所述主URL以及所述主URL对应的子URL的日志进行确定的;确定所述至少一个指标中任一指标的值是否大于或者等于每个指标自身对应的预设阈值,其中,一个指标对应一个预设阈值;若确定结果为是,则确定上述任一指标的值大于或者等于对应的预设阈值的主URL所对应的任务失效。