咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种在分布式学术数据仓库中检测热点学术研究话题的方法 收藏
一种在分布式学术数据仓库中检测热点学术研究话题的方法

一种在分布式学术数据仓库中检测热点学术研究话题的方法

专利申请号:CN202010938852.0

公 开 号:CN112149416B

发 明 人:戴海鹏 陈贵海 李猛 汪笑宇 夏瑞 谢榕彪 于俊 

代 理 人:南京瑞弘专利商标事务所(普通合伙)陈建和

代理机构:南京瑞弘专利商标事务所(普通合伙)

专利类型:发明专利

申 请 日:20230822

公 开 日:20200909

专利主分类号:G06F40/289

关 键 词:分布式数据仓库 过滤器 中央服务器 数据恢复 压缩编码 采样 文档 学术研究 检测 词汇 数据传输阶段 数据压缩编码 分布式数据 解码 传输阶段 多重采样 数据编码 数据采样 数据仓库 数据数据 学术文档 原始词汇 分词器 构建 热度 估算 扫描 传输 压缩 话题 记录 恢复 成功 

摘      要:一种在分布式学术数据仓库中检测热点学术研究话题的方法,包括在分布式数据仓库中的数据数据采样压缩编码,传输阶段,以及中央服务器上的数据恢复和检测阶段;数据采样压缩编码对每个从学术文档中提取出的学术词进行多重采样决定是否进入组内每个编码型布谷鸟过滤器,成功采样的词汇将进入数据编码阶段;数据压缩编码阶段负责在每个分布式数据仓库中扫描所有的文档,并利用分词器从文档中提取学术研究词汇;数据传输阶段负责将每个分布式数据仓库中记录压缩数据的编码型布谷鸟过滤器传输至中央服务器;数据恢复和检测阶段是在中央服务器上将从各个分布式数据集上构建起来编码布谷鸟过滤器中解码恢复出原始词汇并估算其热度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分