随着大数据处理技术的不断发展,互联网金融也进入了大数据时代。面对海量的财经文章,使用自然语言处理技术对其进行解析已成为技术发展的必然趋势。而命名实体识别作为自然语言处理技术中的重要基础,为信息抽取、信息过滤、信息检索、问答系统等多种自然语言处理技术提供了重要的基础技术支持。因此,开发一个识别财经领域中的股票名称、股票代码等命名实体的系统,具有重要的现实意义和使用价值。论文通过查阅相关文献,详细论述了课题的产生背景和相关技术的发展与应用。在总结需求的基础上,对命名实体识别系统进行了深入研究,确定了解决方案和技术措施。针对命名实体识别,本系统采用了条件随机场(Conditional Random Field,CRF)模型,在模型训练过程中结合了Co-Training方法,不仅可以提高模型识别性能,还减少了因标注语料而消耗的大量人力物力。对于命名实体的识别采用的是Viterbi算法。此外,为了解决CRF模型训练和实体识别时间较长的问题,将系统架构在hadoop框架之上,使用并行化处理的方式来缩短其运行时间。本系统在设计上可以划分为模型训练和实体识别两大模块。模型训练模块采用CRF模型,使用选取的标注语料和特征模板,基于Co-Training方法训练得到一个CRF模型。命名实体识别模块可以从财经新闻、公司年报、个股研报等财经文章中识别出股票名称、股票代码等实体信息,识别过程使用了Viterbi算法,从而将识别问题转化为了序列标注问题。最后还对模型的识别性能进行了评测、比较,验证了CRF模型的优越性及Co-Training方法训练模型的可行性与有效性。系统经过测试,已经可以实现模型训练和实体识别两大功能,满足了需求分析中提出的功能和非功能需求,达到了预期的要求。系统现已上线运行。
暂无评论