版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN201110249348.0
公 开 号:CN102314497A
代 理 人:罗朋
代理机构:北京汉昊知识产权代理事务所(普通合伙)
专利类型:发明申请
申 请 日:20120111
公 开 日:20110826
专利主分类号:G06F17/30(20060101)
关 键 词:标记语言文件 主体内容 结构信息 具体内容 内容标识 提供设备 准确率 依赖 分析
摘 要:本发明的目的是提供一种用于识别标记语言文件主体内容的方法与设备。其中,模板提供设备获取待处理的多个标记语言文件;根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。与现有技术相比,本发明不依赖于标记语言文件中的具体内容而根据该标记语言文件的结构信息获取主体内容,从而保证对不同类型网页的主体内容识别的准确率。