咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种用于识别标记语言文件主体内容的方法和设备 收藏
一种用于识别标记语言文件主体内容的方法和设备

一种用于识别标记语言文件主体内容的方法和设备

专利申请号:CN201110249348.0

公 开 号:CN102314497A

发 明 人:李伟刚 秦玄铮 

代 理 人:罗朋

代理机构:北京汉昊知识产权代理事务所(普通合伙)

专利类型:发明申请

申 请 日:20120111

公 开 日:20110826

专利主分类号:G06F17/30(20060101)

关 键 词:标记语言文件 主体内容 结构信息 具体内容 内容标识 提供设备 准确率 依赖 分析 

摘      要:本发明的目的是提供一种用于识别标记语言文件主体内容的方法与设备。其中,模板提供设备获取待处理的多个标记语言文件;根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。与现有技术相比,本发明不依赖于标记语言文件中的具体内容而根据该标记语言文件的结构信息获取主体内容,从而保证对不同类型网页的主体内容识别的准确率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分