视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。
为探求未来气候变化背景下旱地小麦灌溉和播种时间的管理策略,利用农业生产系统模拟模型(APSIM),在陇中旱地春小麦2014-2022统计年鉴数据基础上,结合CMIP5(Coupled Model Interc omparison Project5)模式的未来气候变化情景(RCP4.5和RCP...
详细信息
为探求未来气候变化背景下旱地小麦灌溉和播种时间的管理策略,利用农业生产系统模拟模型(APSIM),在陇中旱地春小麦2014-2022统计年鉴数据基础上,结合CMIP5(Coupled Model Interc omparison Project5)模式的未来气候变化情景(RCP4.5和RCP8.5)数据,设置不同灌溉量(0、60、120、180、240和360mm)和播种日期(3月1日、3月11日、3月19日、3月31日),模拟分析不同灌溉量及播期下旱地春小麦的产量和生物量差异。结果表明,模型在参数校准和验证后,能够较精确地模拟研究区春小麦的产量和生物量。未来气候变化情景下,随着灌溉量的增大,春小麦的产量和生物量均呈先增后减趋势,灌水120mm条件下产量和生物量均最高;在3月1日播期下春小麦产量和生物量均最高,3月31日播期下均最低;在灌溉量和播期的交互影响下,以灌水120mm和3月1日播期处理的春小麦产量和生物量均最高。由此可见,在未来气候变化情景下通过适当增加灌溉量和提前播种,可有效提高旱地春小麦的产量和生物量。
暂无评论