面对网络中日益增多的数字作品以及人们版权意识的增强,确认数字作品版权归属非常重要,对于数字作品原创性检测问题,文本匹配技术能够很好地解决这一问题。文本匹配技术通过算法来判断句子之间的语义是否相近。最近几年,深度学习迅速发展,解决文本匹配任务的方法也得到了很好的发展。在已有的基于核的文档排序神经模型(a kernel based neural model for document ranking, KNRM)上进一步地研究和创新,提出融合KNRM和轻量级梯度提升机(light gradient boosting machine, LightGBM)算法的文本匹配模型,在交互矩阵转化的直方图上采用kernel-pooling的方式来提取相关局部特征信息,引入K个不同大小的核函数,来捕捉不同细粒度的相关匹配信号,获取高斯核特征,将LightGBM算法作为分类器,进行分类处理工作,预测最后的匹配结果。通过多个数据集验证模型效果,实验表明,融合模型KNRM-LightGBM在准确率方面优于原模型KNRM,能够达到更好的文本匹配效果。
随着智能移动设备的快速普及,人们对基于位置的社交网络服务的依赖性越来越高.但是,由于数据采集成本昂贵以及现有数据采集技术的缺陷,基于小样本数据挖掘的兴趣点(point of interest, POI)定位已经成为了一种挑战.尽管已经有一些POI定...
详细信息
随着智能移动设备的快速普及,人们对基于位置的社交网络服务的依赖性越来越高.但是,由于数据采集成本昂贵以及现有数据采集技术的缺陷,基于小样本数据挖掘的兴趣点(point of interest, POI)定位已经成为了一种挑战.尽管已经有一些POI定位方面的研究,但是现有的方法不能解决正样本数据不足的问题.提出一种基于PU与生成对抗网络(positive and unlabeled generative adversarial network, puGAN)的模型,采用PU学习和生成对抗网络相结合的方式挖掘数据的隐藏特征,生成伪正样本弥补数据不足的问题,并校正无标签样本数据的分布,从而训练出有效的POI判别模型.通过分析ROC曲线以及训练误差和测试误差在迭代过程中的变化和关系来比较不同模型在实验场景下的效果.结果表明,puGAN模型可以有效解决数据样本不足的问题,进而提高POI定位的准确性.
暂无评论