咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于自然语言处理技术的网页文本内容的分类方法 收藏
一种基于自然语言处理技术的网页文本内容的分类方法

一种基于自然语言处理技术的网页文本内容的分类方法

专利申请号:CN202110718603.5

公 开 号:CN113569044A

发 明 人:李俊 严骅 刘晓涛 申富饶 

代 理 人:胡建华;于瀚文

代理机构:32237 江苏圣典律师事务所

专利类型:发明申请

申 请 日:20211029

公 开 日:20210628

专利主分类号:G06F16/35(20190101)

关 键 词:网址 探查 网页 自然语言处理技术 网页文本 模式表 归类 链接 匹配 探测 标签 返回 分类 重复 访问 分析 发现 

摘      要:本发明提供了一种基于自然语言处理技术的网页文本内容的分类方法,包括:步骤1,探测网页中包含的所有链接;步骤2,对获取的网页进行依次访问;步骤3,判别对应的网页是否属于对任务有用;步骤4,对网址的模式进行分析,并将其进行归类(有用或者无用);步骤5,对剩余的网址先进行网址模式的匹配,如果已经有类似模式,则按照相应类别的标签进行处理,如果没有发现过类似的模式,则重复步骤2、3、4;步骤6,当所有网址都已经探查完成,返回对任务有益的网址结果表以及探查过的网址模式表。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分