针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal m...
详细信息
针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal margin,EMM-DVC)方法。事件边界是包含事件间特征相似度、事件在视频中时间位置的距离、生成描述多样性的评分。EMM-DVC通过最大化事件边界,使相似预测结果的距离远且预测结果和实际事件的距离近。另外,EMM-DVC引入事件边界距离损失函数,通过扩大事件边界距离,引导模型关注不同事件。在ActivityNet Captions数据集上的实验证明,EMM-DVC与同类密集视频描述模型相比能生成更具多样性的描述文本,并且与主流密集视频描述模型相比,EMM-DVC在多个指标上达到最优水平。
城市车载网络环境中高效的中继选择有利于保证安全消息传输的及时性和可靠性。针对现有中继选择方法在复杂交通环境下难以准确评估中继,且在车流密集场景下性能不佳的问题,提出一种基于多属性决策和k-means聚类的中继选择方法(multi-attribute decision-making and k-means clustering based relay selection,MKRS)。首先充分考虑当前转发车辆与候选中继之间的相对距离和相对速度,候选中继的接收信号强度和区域密度等4种评估指标,分别基于序关系法和熵权法计算候选中继评估指标的主、客观权重,并利用简单加权法计算其综合权重,进一步得到能够更加准确体现候选中继性能的综合效用值。在此基础上,采用基于k-means聚类和优先级-退避时间的方法选出最佳中继。实验结果表明所提MKRS与对比方法相比,在保证较好一跳距离和一跳时延的同时具有最快的传播速度。
针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC)。BFPVC通过带有自底向上、自顶向下、横...
详细信息
针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC)。BFPVC通过带有自底向上、自顶向下、横向链接3条分支的双向特征金字塔强化视频多尺度特征图,兼顾对时序信息、空间信息、语义信息的特征表示,解码器从强化后的视频特征中捕获更加全面的事件候选集,从而为对应的视频事件生成更加丰富、详尽的文本描述。在ActivityNet Captions数据集和YouCook2数据集上的实验结果表明,BFPVC与同类模型相比生成的文本描述更详细、丰富,验证了双向特征金字塔在密集视频描述领域的有效性。
针对多模态遥感影像存在非线性辐射畸变的问题,本文提出了一种结合相位对称特征与基于排序局部自相似性的多模态遥感影像匹配方法.首先,利用影像的局部相位信息构造相位对称图,在此基础上利用加速分段测试特征提取算法(features from ac...
详细信息
针对多模态遥感影像存在非线性辐射畸变的问题,本文提出了一种结合相位对称特征与基于排序局部自相似性的多模态遥感影像匹配方法.首先,利用影像的局部相位信息构造相位对称图,在此基础上利用加速分段测试特征提取算法(features from accelerated segment test,FAST)对相位对称图进行特征提取.然后结合基于排序的局部自相似性与相位一致性构造一种新的特征描述符RPCLSS(combining rank,phase congruency and local self-similarity descriptor).最后利用快速抽样一致性算法(fast sample consensus,FSC)进行误匹配点剔除.将本文方法在公开的多源遥感影像数据集上与现有的5种先进匹配方法进行对比实验.实验结果表明,本文方法在正确匹配点数量、匹配精度和匹配正确率方面,优于现有的先进多模态遥感影像匹配方法.
暂无评论