目的针对某三级甲等医院电子病历中的非结构化部分(诊断和病情),建立多特征融合的条件随机场模型,自动化识别用自然语言描述的电子病历(electronic medical records,EMR)中的疾病和症状,从而实现电子病历信息的结构化存储,以利于电子病...
详细信息
目的针对某三级甲等医院电子病历中的非结构化部分(诊断和病情),建立多特征融合的条件随机场模型,自动化识别用自然语言描述的电子病历(electronic medical records,EMR)中的疾病和症状,从而实现电子病历信息的结构化存储,以利于电子病历的信息挖掘和统计分析。方法将手动标注的语料库分为训练集和测试集,借助NLPIR工具分割文本,选择CRF++工具进行实验。针对中文电子病历的数据特点,先选取基本特征和相应的特征模板,通过不同上下文窗口的对比实验确定其大小;再分别添加引导词特征和构词结构特征,对比两种高级特征对实验结果的影响。结果仅选取基本特征,上下文窗口为7时,识别效果最好;添加高级特征后,最终疾病实体F值为92.80%,症状实体F值为94.17%。结论条件随机场模型融合多种有效的特征,可以很好地识别出电子病历中的疾病和症状实体。本研究对电子病历的命名实体识别有重要的意义。
针对高斯混合模型(Gaussian mixture model,GMM)参数选取效率较低的问题,提出了一种在基于GMM的轨迹模仿学习表征中综合求解GMM参数估计的方法.该方法基于多中心聚类算法中的最大最小距离算法改进kmeans算法,得到最优初始聚类中心,并基于贝叶斯信息准则(Bayesian information criterion,BIC)通过遗传算法优化求解,同时获取GMM的4个重要参数.该方法通过提高划分初始数据集的效率,在优化初始聚类中心基础上确定混合模型个数,有效地避免了因为初值敏感而导致的局部极值问题.通过多组仿真实验验证了该方法的有效性.
暂无评论