版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202110718603.5
公 开 号:CN113569044A
代 理 人:胡建华;于瀚文
代理机构:32237 江苏圣典律师事务所
专利类型:发明申请
申 请 日:20211029
公 开 日:20210628
专利主分类号:G06F16/35(20190101)
关 键 词:网址 探查 网页 自然语言处理技术 网页文本 模式表 归类 链接 匹配 探测 标签 返回 分类 重复 访问 分析 发现
摘 要:本发明提供了一种基于自然语言处理技术的网页文本内容的分类方法,包括:步骤1,探测网页中包含的所有链接;步骤2,对获取的网页进行依次访问;步骤3,判别对应的网页是否属于对任务有用;步骤4,对网址的模式进行分析,并将其进行归类(有用或者无用);步骤5,对剩余的网址先进行网址模式的匹配,如果已经有类似模式,则按照相应类别的标签进行处理,如果没有发现过类似的模式,则重复步骤2、3、4;步骤6,当所有网址都已经探查完成,返回对任务有益的网址结果表以及探查过的网址模式表。