版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:南京邮电大学通信与信息工程学院南京210003 西交利物浦大学智能工程学院江苏苏州215123
出 版 物:《智能计算机与应用》 (Intelligent Computer and Applications)
年 卷 期:2025年第15卷第2期
页 面:168-174页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 0711[理学-系统科学] 13[艺术学] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
基 金:国家科技创新2030—“新一代人工智能”重大项目(2020AAA0106200) 国家自然科学基金(61936005,61872199,61872424,62001038) 姑苏领军人才青年人才创新项目(ZXL2022472)
主 题:声音事件检测 多尺度条带卷积注意 十字交叉注意 卷积循环神经网络
摘 要:现有多尺度特征融合方法能够解决声音事件检测中声音事件时间尺度不一的问题,但对短时声音事件检测能力有时反而下降。本文在主流的卷积循环神经网络(CRNN)中增加了多尺度条带卷积注意模块,该模块通过多分支结构有效地捕捉了短时声音事件的不同上下文信息,也能匹配不同尺度的声音事件;每个分支使用两个深度条带卷积代替二维卷积,以匹配多次池化后短时声音事件呈现的线性特征。为了克服使用全局池化等方法的时频注意机制导致的短时声音事件特征提取不足的问题,本文引入十字交叉注意,在水平和垂直方向上聚合长程上下文信息,增强每个时频点的表征能力。使用DCASE Challenge 2022 Task4提供的DESED数据集进行了实验,实验结果表明本文提出的方法在测试集上相较于对比系统,显著提升了短时声音事件的检测能力。