咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于指令级并行的倒排索引压缩算法 收藏

基于指令级并行的倒排索引压缩算法

SIMD-Based Inverted Index Compression Algorithms

作     者:闫宏飞 张旭东 单栋栋 毛先领 赵鑫 Yan Hongfei;Zhang Xudong;Shan Dongdong;Mao Xianling;Zhao Xin

作者机构:北京大学网络与信息系统研究所北京100871 淘宝(中国)软件有限公司杭州312000 北京理工大学北京100081 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2015年第52卷第5期

页      面:995-1004页

核心收录:

学科分类:08[工学] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家"九七三"重点基础研究发展计划基金项目(2014CB340400) 国家自然科学基金项目(61272340) 江苏未来网络创新研究院项目-云服务数字资源搜索(BY2013095-4-02) 

主  题:单指令多数据流 倒排索引 压缩 整数编码 信息检索 

摘      要:文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分