Blog 作为一种新的网络传播方式,迅速兴起和发展,已经越来越受到用户的关注。因此。迫切需要找到一种自动将 Blog 网页区别于其它 web 页面的方法,以便针对 Blog 语料进行内容抽取、对 Blog 社区进行规律性研究和发现等。本文针对 Blog...
详细信息
Blog 作为一种新的网络传播方式,迅速兴起和发展,已经越来越受到用户的关注。因此。迫切需要找到一种自动将 Blog 网页区别于其它 web 页面的方法,以便针对 Blog 语料进行内容抽取、对 Blog 社区进行规律性研究和发现等。本文针对 Blog 网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别 Blog 网页,初步的实验结果表明,达到了较高的识别正确率。
暂无评论