版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202110475662.4
公 开 号:CN113297213B
代 理 人:北京众元弘策知识产权代理事务所(普通合伙)宋磊
代理机构:北京众元弘策知识产权代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20230912
公 开 日:20210429
专利主分类号:G06F16/22
关 键 词:相似性计算 分区索引 相似性计算过程 大规模数据 计算机领域 预处理阶段 场景 复杂实体 匹配过程 权重调整 实体对象 实体属性 属性匹配 属性特征 属性增加 搜索空间 索引结构 字段标记 字段类型 对齐 差异化 原有的 权重 匹配 衡量 保留 优化 统一
摘 要:本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法。本发明在预处理阶段即实现字段类型的标记,利用字段标记进行相似性计算函数的选择,差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。本发明使用动态熵权法进行权重调整,实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一,不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差,并保留主要的属性特征。本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间,减少不必要的匹配过程,从而大幅度提高大规模数据场景下的实体对齐过程。