随着定位技术和传感器的高速发展,用户移动轨迹数据日渐丰富,但大多分散在不同平台上。为了全面利用这些数据并准确反映用户的真实行为,对轨迹用户匹配的研究变得至关重要。该任务旨在从海量签到轨迹数据中精准关联用户身份。近年来,研究者们尝试运用循环神经网络、注意力机制等方法深入挖掘轨迹数据。然而,当前方法在处理用户签到轨迹时面临两大挑战:一是签到数据中有限的时空特征不足以从主观和客观两个角度全面地建模签到点信息,二是用户的签到轨迹往往围绕着一个特定的主题。针对这两点挑战,提出了一种基于自然语言增强的轨迹用户匹配模型(Natural Language Augmented Trajectory User Link,NLATUL)。首先,设计了一套自然语言模板与软提示令牌来描述签到轨迹,并使用语言模型来理解签到点中的主观意图,融合用户的时空状态,提供了一种充分从主观与客观两个方面建模签到点的方法;在此基础上,通过提示学习的方法推理签到轨迹的主题,并对建模的签到点表示的轨迹进行双向编码,通过签到轨迹主题与签到轨迹编码的结合实现对用户签到轨迹的准确理解。在两个真实世界签到数据集上验证的实验结果表明,NLATUL能够更准确地匹配签到轨迹与其对应的用户。
反事实预测和选择偏差是因果效应估计中的重大挑战。为对潜在协变量的复杂混杂分布进行有效表征,同时增强反事实预测泛化能力,提出一种面向工业因果效应估计应用的重加权对抗变分自编码器网络(RVAENet)模型。针对混杂分布去偏问题,借鉴域适应思想,采用对抗学习机制对由变分自编码器(VAE)获得的隐含变量进行表示学习的分布平衡;在此基础上,通过学习样本倾向性权重对样本进行重加权,进一步缩小实验组(Treatment)与对照组(Control)样本间的分布差异。实验结果表明,在工业真实场景数据集的两个场景下,所提模型的提升曲线下的面积(AUUC)比TEDVAE(Treatment Effect with Disentangled VAE)分别提升了15.02%、16.02%;在公开数据集上,所提模型的平均干预效果(ATE)和异构估计精度(PEHE)普遍取得最优结果。
领域自适应是解决低资源问题的一种通用方式,可应用于各种自然语言处理的任务中.当前针对命名实体识别(named entity recognition,NER)任务的领域自适应研究通常从单一的源领域迁移到目标领域,在目标领域和源领域相近的情况下,这种方式能够取得较好的识别效果,但是在目标领域与源领域相关度不高的情况下,单一领域迁移方式存在很大的局限性.针对这一问题,提出一种融合多源领域贡献度加权的自适应NER模型(multi-domain adaptation NER model based on importance weighting,MDAIW).1)通过多个领域的知识迁移来提升目标领域的实体识别性能;2)根据不同领域及其领域内样本对目标领域的重要性,计算领域贡献度;3)将领域贡献度引入到NER模型中,以此来实现更好的模型领域适应性.最终在多个目标领域上进行实验,性能皆优于当前性能最好的方法,验证了模型的有效性.
暂无评论