咨询与建议

限定检索结果

文献类型

  • 1 篇 期刊文献

馆藏范围

  • 1 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 1 篇 工学
    • 1 篇 计算机科学与技术...
    • 1 篇 软件工程

主题

  • 1 篇 页面信息相关度
  • 1 篇 语义相关度主题爬...
  • 1 篇 url结构信息
  • 1 篇 生语料采集

机构

  • 1 篇 中国科学院大学
  • 1 篇 沈阳市国家税务局...
  • 1 篇 中国科学院沈阳计...

作者

  • 1 篇 周昆
  • 1 篇 于碧辉
  • 1 篇 王钊

语言

  • 1 篇 中文
检索条件"主题词=URL结构信息"
1 条 记 录,以下是1-10 订阅
排序:
基于语义相关度主题爬虫的语料采集方法
收藏 引用
计算机系统应用 2019年 第5期28卷 190-195页
作者: 周昆 王钊 于碧辉 中国科学院大学 北京100049 中国科学院沈阳计算技术研究所 沈阳110168 沈阳市国家税务局信息中心 辽宁沈阳110013
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合url结构信息预测未访问url链指的页面内容... 详细信息
来源: 评论