版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:复旦大学图书馆上海200433 中国科学院武汉文献情报中心湖北武汉430071 科技大数据湖北省重点实验室湖北武汉430071
出 版 物:《情报理论与实践》 (Information Studies:Theory & Application)
年 卷 期:2021年第44卷第4期
页 面:162-168页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 120502[管理学-情报学]
基 金:科技大数据湖北省重点实验室项目“多源异构学术成果大数据的融合与揭示”的研究成果之一 项目编号:20KF011007
主 题:学术成果 大数据 数据整合 相似度算法 人机交互 数据监控与验证
摘 要:[目的/意义]为了解决学术成果大数据重复冗余多、精确匹配难等问题,以及当前大多数成果数据管理平台对数据清洗机制黑匣化,无法人机交互也无法验证有效性等问题。[方法/过程]文章设计建立可对关键环节实现人工校准机制的交互式数据整合系统,通过编辑距离和余弦相似度算法进行数据查重,根据数据的特点和业务需求进行数据的合并;对每个位次的作者和机构进行标注,数据精确关联到每个作者的每个位次;设置数据关联的优先级和监控机制,实现多源异构数据的关联和匹配;通过迭代与回滚更新数据,提高数据的准确度。[结果/结论]文章以15多万条复旦数据进行检验,二级机构匹配的准确率达到了95%,学者姓名匹配的准确度达到了90%,系统准确度较高。