版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202110848292.4
公 开 号:CN113299375B
发 明 人:陈冠伟
代 理 人:张永辉
代理机构:11390 北京和信华成知识产权代理事务所(普通合伙)
专利类型:授权发明
申 请 日:20211116
公 开 日:20210727
专利主分类号:G16H30/40(20180101)
关 键 词:数字文件 模型训练 信息实体 标注 互联网业务 系统及设备 标签函数 标签数据 成本问题 程序实现 评分结果 全文信息 实体识别 数据标注 数字应用 原始数据 资金成本 结果集 匹配对 分词 整合 算法 标签 节约 便利 应用
摘 要:本发明公开一种数字文件信息实体标注和识别方法、系统及设备,提取数字文件中的全文信息或收集做好切词准备的数据,将数据输入标签函数,基于正则匹配对信息进行分词训练并产生标签,根据模型的入参,将标签数据和原始数据整合后,输入到模型中进行实体识别模型训练产出了结果集以及相应的评分结果。本发明通过模型训练,解决了海量数字文件的信息实体标注的时效和成本问题,并且通过程序实现的方式让非算法人员可以快速实现操作,属于工具类的极大创新,可以广泛应用于数字应用领域的数据标注,为互联网业务和资源对接等提供了便利,大量节约时间和资金成本。