咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于知识表示学习的实体对齐算法研究与实现 收藏
基于知识表示学习的实体对齐算法研究与实现

基于知识表示学习的实体对齐算法研究与实现

作     者:邱晨阳 

作者单位:南京邮电大学 

学位级别:硕士

导师姓名:季一木

授予年度:2023年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:知识图谱 实体对齐 知识表示学习 预训练语言模型 迭代策略 

摘      要:随着信息时代的飞速发展,网络数据总量也呈爆发式增长,2022年网络数据总量据估测已经达到了61ZB的规模。为了有效处理和利用这些数据,研究者们提出了以结构化的形式描述客观世界中概念、实体及其关系的知识图谱。知识图谱能把互联网中的信息表达成便于人类理解的形式,辅助人类更好的利用这些信息。但是使用单一的知识图谱作为信息源,仍会面临信息缺失、错误等问题。针对该问题,研究者提出了知识图谱融合的解决方法,通过不同知识图谱的融合来提升知识图谱的质量。实体对齐是知识图谱融合中最基础和关键的技术,旨在寻找不同知识图谱中对应同一现实事物的实体,以此辅助知识图谱内其他信息的融合。过去常见的基于知识表示学习的实体对齐模型基于关系三元组和预对齐种子对进行训练,将实体结构向量表示投影在统一的向量空间中,再通过计算向量间距离来衡量对应实体之间相似度,从而实现实体对齐。这类方法需要大量人工筛选预对齐种子对,且没能利用知识图谱中各实体的属性三元组。针对以上的问题,本文对实体对齐方法进行了深入研究,主要工作包括以下三部分:(1)针对基于知识表示学习的实体对齐方法无法利用属性信息的问题,本文提出了一种基于Sim CSE和Trans E的实体对齐算法,该算法联合知识表示学习模型和预训练语言模型进行实体对齐任务,通过Trans E模型生成实体结构的向量表示,同时通过Sim CSE模型生成实体属性的向量表示,然后再联合两种向量表示进行实体对齐。这样更充分的利用知识图谱内信息,可以提升实体对齐效果。经过实验证明,该算法能有效提高实体对齐的准确率。(2)针对大规模人工筛选种子实体对成本过高的问题,本文提出了一种基于半监督学习的迭代实体对齐算法,该算法依靠少量人工对齐的种子实体对进行迭代实体对齐,并基于双向对齐策略和课程学习策略筛选出向量间距离小于阈值的对齐实体作为新的种子实体对,从而逐步扩展种子实体对规模,以此在降低实体对齐人工成本的同时有效提高实体对齐的效果。经过实验证明,该算法能在减少人工筛选种子实体对规模的情况下,提升实体对齐效果。(3)基于本文上述提出的实体对齐算法和迭代实体对齐算法,本文构建了面向开源知识图谱的实体对齐网络系统平台,本文采用微服务的思想设计了整个系统的总体架构,保障了系统的高可用性和低耦合性。该系统支持用户上传知识图谱数据,并根据需求设定参数进行实体对齐任务,从而帮助用户更好的进行各类知识图谱研究。经过实际使用操作验证,该系统能稳定实现本文设计的各项功能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分