版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202211531946.1
公 开 号:CN116306613A
代 理 人:刘芳
代理机构:北京艾纬铂知识产权代理有限公司
专利类型:发明专利
申 请 日:20230623
公 开 日:20221201
专利主分类号:G06F40/284
关 键 词:半监督学习 标签数据 敏感内容 数据集 文件元数据 注意力机制 定义规则 记忆网络 人工标注 人工干预 数据驱动 数据训练 网络数据 训练效果 有效信息 种子信息 数据量 小样本 学习型 构建 算法 标注 样本 文本
摘 要:本发明公开了一种基于半监督学习的DHT网络敏感内容识别方法,通过爬取DHT网络得到网络数据并对其中部分数据进行人工标注,构建了文件元数据数据集,同时针对种子信息文本自身具有的有效信息较为分散等特征,采用基于注意力机制的双向长短期记忆网络模型进行敏感内容识别,运用基于数据驱动的学习型算法极大减少了人工干预定义规则的需求,同时针对DHT网络数据训练过程中存在的数据量少、数据不平衡及无效样本多等问题,采用基于有标签数据和无标签数据同时进行训练的半监督学习方法有效提升了模型在小样本标注数据集上的训练效果。