咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >网络爬虫的任务有效性检测方法、装置和设备及存储介质 收藏
网络爬虫的任务有效性检测方法、装置和设备及存储介质

网络爬虫的任务有效性检测方法、装置和设备及存储介质

专利申请号:CN201811318524.X

公 开 号:CN111159514B

发 明 人:段盼盼 初光磊 王轶 

代 理 人:北京同达信恒知识产权代理有限公司郭润湘

代理机构:北京同达信恒知识产权代理有限公司

专利类型:发明专利

申 请 日:20221213

公 开 日:20181107

专利主分类号:G06F16/951

关 键 词:网络爬虫 日志 预设 处理和分析 任务有效性 预设时间段 存储介质 网页数据 检测 子URL 采集 记录 

摘      要:本发明公开了一种网络爬虫的任务有效性检测方法、装置和设备及存储介质,用于检测网络爬虫执行采集任务的有效性。该方法包括:记录网络爬虫在执行爬取网页数据任务的过程中的日志;对日志进行处理和分析,以确定在预设时间段内与主URL相关的至少一个指标的值,其中,一个主URL对应多个子URL,所述至少一个指标的值是基于所述主URL以及所述主URL对应的子URL的日志进行确定的;确定所述至少一个指标中任一指标的值是否大于或者等于每个指标自身对应的预设阈值,其中,一个指标对应一个预设阈值;若确定结果为是,则确定上述任一指标的值大于或者等于对应的预设阈值的主URL所对应的任务失效。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分