为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,...
详细信息
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性;从未标注样本中选取更具不确定性的样本加入到训练集中,并基于信息熵对样本进行加权训练,迭代更新分类器模型,直至达到预期终止条件。实验结果表明,在文本分类任务中,该方法相较于其他传统主动学习算法性能更优。
针对目前DWG格式数据向SHP格式数据转换过程中,存在对象离散化、层次掺杂和属性分离等问题,提出一种顾及对象分层的DWG格式转换为SHP格式的数据转换方法。通过设计中间结构,在图元对象分层的过程中,将DWG格式数据分散层次中的对象进行聚合,相应属性进行合并,最后以对象为单位输出到SHP图元层次中;基于Visual Studio 2019开发环境,采用Object-ARX SDK进行二次开发,定制数据转换工具。经实际生产验证,该方法及工具能有效提高工作效率,并且保证数据转换的准确性,解决数据转换过程中无损建库的问题。
暂无评论