科技资源文本层次多标签分类(hierarchical multi-label text classification,HMTC)用于将科技资源文本分配到一个具有层级结构的标签体系中。提出基于注意力机制的科技资源文本层次多标签分类算法(academic resource text hierarchical...
详细信息
科技资源文本层次多标签分类(hierarchical multi-label text classification,HMTC)用于将科技资源文本分配到一个具有层级结构的标签体系中。提出基于注意力机制的科技资源文本层次多标签分类算法(academic resource text hierarchical multi-label classification based on attention,AHMCA)。通过整合文本、关键词、层次结构等特征构造注意力机制层,对HMCN-F(hierarchical multi-label classification network-feed-forward)网络进行改进,将科技资源文档逐级分类到最相关的类别中。细节上,主要利用word2vec与BiLSTM来获得文本、关键词、层次结构的嵌入向量和隐向量表示;利用层次注意力机制捕获关键词、标签层次结构与文本词向量之间的关联关系来强化重点词向量的权重,从而生成特定于层级的文档嵌入向量,替代HMCN-F中原始的文本嵌入。实验结果验证了AHMCA方法的有效性。
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit, GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。
暂无评论