卷积神经网络已在多个领域取得了优异的性能表现,然而由于其不透明的内部状态,其可解释性依然面临很大的挑战.其中一个原因是卷积神经网络以像素级特征为输入,逐层地抽取高级别特征,然而这些高层特征依然十分抽象,人类不能直观理解.为了解决这一问题,我们需要表征出网络中隐藏的人类可理解的语义概念.本文通过预先定义语义概念数据集(例如红色、条纹、斑点、狗),得到这些语义在网络某一层的特征图,将这些特征图作为数据,训练一个张量分类器.我们将与分界面正交的张量称为语义激活张量(Semantic Activation Tensors,SATs),每个SAT都指向对应的语义概念.相对于向量分类器,张量分类器可以保留张量数据的原始结构.在卷积网络中,每个特征图中都包含了位置信息和通道信息,如果将其简单地展开成向量形式,这会破坏其结构信息,导致最终分类精度的降低.本文使用SAT与网络梯度的内积来量化语义对分类结果的重要程度,此方法称为TSAT(Testing with SATs).例如,条纹对斑马的预测结果有多大影响.本文以图像分类网络作为解释对象,数据集选取ImageNet,在ResNet50和Inceptionv3两种网络架构上进行实验验证.最终实验结果表明,本文所采用的张量分类方法相较于传统的向量分类方法,在数据维度较大或数据不易区分的情况下,分类精度有显著的提高,且分类的稳定性也更加优秀.这从而保证了本文所推导出的语义激活张量更加准确,进一步确保了后续语义概念重要性量化的准确性.
近年来,随着自动驾驶行业的蓬勃发展,作为感知系统核心的三维目标检测技术受到越来越多的关注,已成为当前热门的研究方向。同时,深度学习的广泛应用,使得最近的三维目标检测技术有了很大的突破,大批优秀的算法涌现。文中系统地总结了面向自动驾驶领域的三维目标检测方法,并按传感器类型将现有的算法分为3类,即基于图像的三维目标检测、基于LiDAR的三维目标检测和基于多传感器的三维目标检测;其次,详细分析了3种方法的优缺点,并对基于LiDAR的三维目标检测算法进行了深入调研和细分;然后,介绍了自动驾驶领域常用的三维目标检测数据集,包括KITTI,nuScenes和Waymo Open Dataset,并对比了最新的三维目标检测算法在不同数据集上的性能表现;最后探讨了三维目标检测技术未来的发展方向。
暂无评论