为更好地利用单词词性包含的语义信息和伴随单词出现时的非自然语言上下文信息,提出动态调整语义的词性加权多模态情感分析(part of speech weighted multi-modal sentiment analysis model with dynamic semantics adjustment,PW-DS)模...
详细信息
为更好地利用单词词性包含的语义信息和伴随单词出现时的非自然语言上下文信息,提出动态调整语义的词性加权多模态情感分析(part of speech weighted multi-modal sentiment analysis model with dynamic semantics adjustment,PW-DS)模型.该模型以自然语言为主体,分别使用基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers,BERT)模型、广义自回归预训练(generalized autoregressive pretraining for language understanding,XLNet)模型和一种鲁棒优化的BERT预训练(robustly optimized BERT pretraining approach,RoBERTa)模型为文本模态做词嵌入编码;创建动态调整语义模块将自然语言和非自然语言信息有效结合;设计词性加权模块,提取单词词性并赋权以优化情感判别.与张量融合网络和低秩多模态融合等当前先进模型的对比实验结果表明,PW-DS模型在公共数据集CMU-MOSI和CMU-MOSEI上的平均绝对误差分别达到了0.607和0.510,二分类准确率分别为89.02%和86.93%,优于对比模型.通过消融实验分析了不同模块对模型效果的影响,验证了模型的有效性.
针对人体姿态估计中遮挡带来的缺乏图像低级特征指导和预测姿势与人体生理结构的不一致性问题,提出了一种新颖的生成式人体姿态估计方法(Generative Human Pose Estimation,GenPose)。该模型使用多尺度信息融合和条件生成模块解决...
详细信息
针对人体姿态估计中遮挡带来的缺乏图像低级特征指导和预测姿势与人体生理结构的不一致性问题,提出了一种新颖的生成式人体姿态估计方法(Generative Human Pose Estimation,GenPose)。该模型使用多尺度信息融合和条件生成模块解决了严重遮挡问题。多尺度模块从尺度和通道上细粒度融合图像特征,能捕捉到更多肢体细节,从而推理出遮挡关键点的特征信息。条件生成模块通过建模遮挡场景与姿态间的对应关系,根据标记编码器特征动态调整生成姿态,在保证可见点准确率的同时,在一定程度上减少了遮挡对非遮挡的干扰,提升了对遮挡姿态的生成效果。在公开的COCO和MPII数据集上,同以往方法相比,有了更好的结果,同时在CrowdPose、OCHuman以及SyncOCC数据集上验证了泛化能力。该模型在一定程度上能够解决严重遮挡下的姿态估计问题,提高了预测姿态的合理性,取得了更加优异的效果。
深度神经网络因具有优良的非线性映射能力和在不同场景下的灵活性而成为一种很有前景的聚类方法。为了得到易于聚类的特征,许多深度聚类方法从原始数据中提取特征是通过将原始数据映射到一个更低维的空间方式,而聚类指派依然假设是在欧式空间进行。为了探究特征提取和流形空间对聚类性能的影响,本文提出了一种基于变分自编码器与流形特征的聚类算法—MFVC(Clustering Algorithm Based on Variational Autoencoder and Manifold Features)。该方法通过具有残差连接层及无参数注意力机制SimAM(A Simple, Parameter-Free Attention Module for Convolutional Neural Networks)组成的β-VAE(Learning Basic Visual Concepts with a Constrained Variational Framework)做特征提取器提取图像特征,采用流形UMAP(Uniform Manifold Approximation and Projection for Dimension Reduction)方法提高特征的可分离性,然后用K-Means方法进行聚类学习。在6个基准数据集的实验结果表示该方法能够提供较好的性能,MFVC在MNIST(Mixed NationalInstitute of Standards and Technology database)数据集上能够达到0.981的精度,在Fashion-MNIST数据集上能够达到0.681的精度。
暂无评论