针对区级人大报告中地名的自动标注问题,采用BERT(bidirectional encoder representations from transformers)预训练语言模型、条件随机场模型加改进双向长短时记忆神经网络的方法来识别地名,并利用屏蔽敏感词的算法实现对识别到的地...
详细信息
针对区级人大报告中地名的自动标注问题,采用BERT(bidirectional encoder representations from transformers)预训练语言模型、条件随机场模型加改进双向长短时记忆神经网络的方法来识别地名,并利用屏蔽敏感词的算法实现对识别到的地名的自动标注。BERT模型具备更好的捕获上下文信息特征的能力;改进的双向长短时记忆网络缩短了模型的训练时间,提升了模型的准确率。实验结果表明,该方法提升了标注结果的F值。
微博投诉文本中地理位置实体通常存在结构复杂,长度较长,描述较详细的特点。通过对投诉微博文本的分析,提出了地理位置实体自动识别的方法。该方法首先利用特征资源库对微博进行特征标注,使用条件随机场(conditional random fields,CRF...
详细信息
微博投诉文本中地理位置实体通常存在结构复杂,长度较长,描述较详细的特点。通过对投诉微博文本的分析,提出了地理位置实体自动识别的方法。该方法首先利用特征资源库对微博进行特征标注,使用条件随机场(conditional random fields,CRF)模型识别地理位置实体。其次根据微博和地理位置实体的特点,对CRF识别后的数据进行二次标注。最后利用微博规则库对识别结果进行补召,修正地理位置实体,最终实现地理位置实体的识别。实验结果表明该方法有显著效果,F值可达到85.52%。
暂无评论