为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,...
详细信息
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性;从未标注样本中选取更具不确定性的样本加入到训练集中,并基于信息熵对样本进行加权训练,迭代更新分类器模型,直至达到预期终止条件。实验结果表明,在文本分类任务中,该方法相较于其他传统主动学习算法性能更优。
传统眼动模型基于心理学假设和经验数据构建,不能对未见文本数据进行预测,且不能解决阅读个体化差异问题。针对这一问题,该文提出了一种利用深度神经网络预测读者注视点的眼动模型。与传统基于心理学的眼动模型不同,该模型不是基于经验数据集,而是基于双向长短期记忆-条件随机场(bi-directional long short-term memory-conditional random field,bi-LSTM-CRF)神经网络。该模型使用阅读过程中读者的眼球运动数据作为训练数据,来预测该读者阅读其他文本时的注视点。计算机模拟结果表明:bi-LSTM-CRF模型能够使用较少的数据特征获得与现有机器学习模型相似的预测准确度,这使所提出的模型在实时人机交互应用领域具有吸引力。
针对目前DWG格式数据向SHP格式数据转换过程中,存在对象离散化、层次掺杂和属性分离等问题,提出一种顾及对象分层的DWG格式转换为SHP格式的数据转换方法。通过设计中间结构,在图元对象分层的过程中,将DWG格式数据分散层次中的对象进行聚合,相应属性进行合并,最后以对象为单位输出到SHP图元层次中;基于Visual Studio 2019开发环境,采用Object-ARX SDK进行二次开发,定制数据转换工具。经实际生产验证,该方法及工具能有效提高工作效率,并且保证数据转换的准确性,解决数据转换过程中无损建库的问题。
暂无评论