咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于改进HTML-Tree的中文网页特征向量提取方法 收藏

基于改进HTML-Tree的中文网页特征向量提取方法

A method of feature selection for Chinese Web page based on improved HTML-Tree

作     者:李铭岳 周军 LI Ming-yue;ZHOU Jun

作者机构:上海交通大学图像通信与信息处理研究所上海200240 上海市数字媒体处理与传输重点实验室上海200240 

出 版 物:《信息技术》 (Information Technology)

年 卷 期:2009年第33卷第1期

页      面:10-14页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金CNGI项目(CNG1-04-15-2A) 上海市科学技术委员会资助项目(05DZ22102) 

主  题:HTML-Tree 特征向量 网页分类 

摘      要:中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键。经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取。该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献。经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分