6DoF姿态是指目标在三维空间中平移的三个自由度以及旋转的三个自由度,通过求解目标所在的世界坐标系向相机坐标系的平移变换和旋转变换,即可获得目标的6DoF姿态。在机器人、增强现实和三维场景等虚拟环境中,检测目标并估计其三维位置、方位和大小是一项基本任务。例如,识别物体的三维位置和方向对机器人的抓取操作十分重要。然而,现有方法需要收集与标注大量数据训练神经网络来提高6DoF姿态估计的准确率,人工操作成本高,这无疑给姿态估计的数据集制作提出了新的挑战。因此,如何在小数据集下提高6DoF姿态估计准确率成为了解决上述问题的关键。
为了解决上述问题,本文提出一种基于小数据集面向目标6DoF姿态估计的全卷积神经网络模型。首先,使用Res Net50对RGB图像进行特征提取后,将注意力机制与特征金字塔相结合,有效提取特征图中小尺度下的细节信息,获得具有较强语义信息的多尺度特征表示。并通过区域建议网络生成感兴趣区域,筛选可能包含目标的区域。其次,将目标区域分别输入到跳跃连接全卷积网络和并行融合全卷积网络,在预测掩膜图的传统全卷积网络中增加不规则卷积路径,并使用两条路径共享目标区域,再采用加法操作融合获得最终掩膜图。在普通卷积间增加跳跃连接,丰富每个卷积之后的特征信息,并将这些特征信息融合,通过分类获得预测标准化坐标空间图。最后,结合深度图、预测掩膜图和标准化坐标空间图通过ICP点云配准获得目标的6D姿态。使用CAMERA(Context-Aware Mix Ed Re Ality)方法生成具有真实尺度的目标数据集,在生成数据集中抽取部分数据训练上述全卷积网络模型。使用所有类别准确率的平均值m AP评估目标检测结果,与基线方法相比平均精度提高35个百分点,与SSD方法相比平均精度提高约2.7个百分点。采用平移和旋转误差分别小于m cm和n。的平均精度评估姿态估计结果,与基线方法相比提升约5.5个百分点、较NOCS方法平均提升约4.5个百分点、较GPV-Pose提升约1个百分点。综上所述,在小数据集下本文提出的全卷积神经网络模型可以更好地提升目标6D姿态估计所需的两个三维点云构建准确率,能够更准确地提供用于估计目标6D姿态的目标形状、可见性等关键信息,提升小数据集下6D姿态估计的准确率。同时,针对提出的每个方法进行了消融实验。实验证明,单独添加文本提出的每个方法对6D姿态估计的准确率均有提升,进一步验证了本文方法的有效性。
该论文有图31幅,表7个,参考文献84篇。
提出了一种基于多尺度特征融合的全卷积神经网络的视网膜血管分割方法,无需手工设计特征和后处理过程。利用跳跃连接构建编码器-解码器结构全卷积神经网络,将高层语义信息和低层特征信息进行融合;利用残差块进一步学习细节和纹理特征;利用不同空洞率的空洞卷积构建多尺度空间金字塔池化结构,进一步扩大感受野,充分结合图像上下文信息;采用类别平衡损失函数解决正负样本不均衡问题。实验结果表明,在DRIVE(Digital Retinal Images for Vessel Extraction)和STARE (Structured Analysis of the Retina)数据集上的准确率分别为95.46%和96.84%,敏感性分别为80.53%和82.99%,特异性分别为97.67%和97.94%,受试者工作特征(ROC)曲线下的面积分别为97.71%和98.17%。所提方法相较于其他方法性能更优。
暂无评论