针对传统bow(Bag of Words)模型用于场景图像分类时的不足,通过引入关联规则的MFI(Maximum Frequent Itemsets)和Topology模型对其进行改进。为了突出同类图像的视觉单词,提取同类图像的MFI后,对其中频繁出现的视觉单词进行加权处理,增...
详细信息
针对传统bow(Bag of Words)模型用于场景图像分类时的不足,通过引入关联规则的MFI(Maximum Frequent Itemsets)和Topology模型对其进行改进。为了突出同类图像的视觉单词,提取同类图像的MFI后,对其中频繁出现的视觉单词进行加权处理,增强同类图像的共有特征。同时,为了提高视觉词典的生成效率,利用Topology模型对原始模型进行分工并行处理。通过COREL和Caltech-256图像库的实验,证明改进后的模型提高了对场景图像的分类性能,并验证了其Topology模型的有效性和可行性。
图像分类是图像分析与理解的基本问题之一。近年来,随着网络技术的飞速发展,越来越多的数字图像开始充斥人们的生活,如何对这些海量的图像信息进行快速、准确的分类,提取有用信息,就逐渐成为研究的热点之一。Bag of words (bow)模...
详细信息
图像分类是图像分析与理解的基本问题之一。近年来,随着网络技术的飞速发展,越来越多的数字图像开始充斥人们的生活,如何对这些海量的图像信息进行快速、准确的分类,提取有用信息,就逐渐成为研究的热点之一。Bag of words (bow)模型最初应用于文档分类领域并因其简单而有效的优点得到了广泛的应用,计算机视觉领域的研究者们尝试将同样的思想应用到图像处理和识别领域,建立了由文本处理技术向图像处理领域的过渡。本文将bow模型应用于图像分类领域,并在研究该技术的基础上,针对模型中存在的一些缺陷进行了改进:
首先,在研究了图像特征提取方法的基础上,针对传统的尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)描述子所存在的兴趣点有限、计算复杂度高以及在bow模型中应用的局限性等问题,提出了一种改进的适用于bow模型的多尺度DF-SIFT(Dense Fast SIFT)描述子。该描述子采用密集抽取的方法对图像进行均匀像素间隔的兴趣点计算,且对每个特征进行多尺度描述,能够更加充分的利用图像信息,且保证了特征的尺度不变性。此外,与传统的SIFT描述子不同,DF-SIFT描述子利用矩形窗代替高斯窗对图像进行平滑,对特征进行统一尺度分配,避免了定位兴趣点的复杂计算过程,提高了计算的效率。通过实验对DF-SIFT描述子进行了最优参数选取,使其在保证效率的同时提高了分类的正确率。
其次,在分析了视觉词典构造方法的基础上,提出了一种基于稳定初值分布的聚类方法来对视觉词典进行构造,并且应用三角形不等式对计算进行了简化。该算法有效的解决了传统k-means聚类方法过度依赖初始中心选取的问题,避免了局部最优给分类性能带来的影响,减少了收敛的迭代次数,提高了计算效率。此外,基于此视觉词典构造方法,本文还提出了一种基于权值分布的视觉词典直方图表示方法,该方法根据图像特征与视觉单词的距离不同,即对视觉单词的贡献不同,为其分配不同的权值,将这些权值求和作为图像的基于视觉单词库的直方图表示。结果表明,本文提出方法有效地提高了分类的性能,最后在此基础上分析了视觉词典库大小对分类结果的影响。
最后,提出了一种基于兴趣区域(Region of Interest, ROI)提取与金字塔匹配原理相结合的bow模型优化方法,该方法首先对训练图像进行ROI提取,然后对其进行视觉单词的计算,由此生成的视觉单词库更具有代表性,更能精确地描述图像类的特征,且能在一定程度上抵抗位置信息变化以及背景无用信息带来的影响。应用金字塔匹配原理对图像进行表示,能够初步应用图像中区域的空间信息,使匹配精度更高。实验研究了不同的金字塔划分方法对分类结果的影响,验证了应用ROI提取与金字塔匹配原理相结合相比较于传统的bow模型的优越性。文章最后整合全文,形成一个完整的优化模型进行实验,并与现有的相关方法进行了比较,结果表明,本文方法的分类结果要优于现有的其他同类方法。文章最后对本文方法的优劣性进行了详细分析。
在计算机和网络技术高速发展的时代,人脸识别技术也随之快速发展,并逐渐成为模式识别、人工智能等领域的研究热点。人脸识别技术不仅在企业应用、公共安全等方面应用广泛,而且在国家信息安全和金融安全等方面发挥了重要的作用。虽然人脸图像容易采集,但是由于表情改变、光照及姿态不同、遮挡和年龄等问题的存在,使得人脸识别技术的进展极其缓慢。通过阅读大量的相关文献不难发现,大部分的人脸识别方法都只针对其中的某个问题来寻求解决的方法,而没有考虑到其中两个或多个问题同时存在时的解决方案,所以寻求一种鲁棒的人脸识别方法将是今后研究的一个重点内容。Bag of words (bow)模型最初被应用于文档处理领域,而后被引入到图像处理领域,并得到了很好的效果。本文将bow模型应用于人脸识别领域,并且在研究该模型的基础上,针对其中存在的一些不足进行了改进:首先,在视觉词典的构造环节,为了得到更可靠更高效的视觉词典,针对传统k-means聚类方法存在的过度依赖于初始聚类中心、随着数据量增大,计算复杂度增高和容易陷入局部极小等问题,将二分K均值引入到bow模型中,进行视觉词典的构造。该方法每次迭代过程中只有两个聚类中心,不仅有效的降低了对初始聚类中心的依赖还减少了收敛时所需的迭代次数,从而提高了计算效率。实验结果表明,本文提出的方法不仅有效的提高了人脸识别率,还有效的缩短了构造视觉词典所需的时间。其次本文将所提出的改进方法应用于单样本的人脸识别,由于在现实生活中,很多情况下都只能获得样本的单张图像,如居民身份证、驾驶证、护照等,因此单样本的人脸识别系统已经成为人脸识别重要的发展方向。由实验结果可以看出,本文提出的算法对于单样本的识别率很高,并且对于光照、表情及部分遮挡、面部不同角度的姿态等情况都具有很好的鲁棒性最后在分析了支持向量机(SVM)分类方法和人脸识别实际应用需求的基础上,将相关向量机(RVM)引入bow模型中,将其作为分类器来对人脸图像进行分类识别。该方法有效的解决了SVM的预测结果不是概率性质、核函数必须满足Mercer条件等问题,而且与SVM相比,RVM更稀疏,使用了更少数量的支持向量,从而显著减少了测试样本的计算时间。实验结果表明,RVM的识别率等于有时略低于SVM,但RVM有效的缩短了测试时间,这对于人脸识别的实际应用具有重要的意义。
针对不同场景图像下词袋(bag of words,bow)模型的图像分类准确率较低的问题,提出了一种基于空间金字塔bow模型的图像分类方法。该方法通过尺度不变特征变换(scale-invariant feature transform,SIFT)算法提取原始图像像素特征点作为视...
详细信息
针对不同场景图像下词袋(bag of words,bow)模型的图像分类准确率较低的问题,提出了一种基于空间金字塔bow模型的图像分类方法。该方法通过尺度不变特征变换(scale-invariant feature transform,SIFT)算法提取原始图像像素特征点作为视觉特征,对相似视觉特征进行聚类形成视觉词袋,并采用空间金字塔方法对视觉词袋进行划分,构建空间金字塔的bow模型,通过支持向量机分类器对分层后的视觉词袋进行图像分类。分别使用bow模型和空间金字塔的bow模型分类方法对网络图像数据库进行分类实验对比,结果表明,空间金字塔bow模型能有效提高bow模型的图像分类准确率。
传统的相似图像检索大多基于颜色、纹理、场景等特征,缺少对图像的局部特征提取,忽视了局部特征对相似图像检索的影响,检索效果较差。本文采用视觉bow(Bag of words)模型,提取图像中尺度不变的SIFT特征,形成视觉单词向量,设计了一个基...
详细信息
传统的相似图像检索大多基于颜色、纹理、场景等特征,缺少对图像的局部特征提取,忽视了局部特征对相似图像检索的影响,检索效果较差。本文采用视觉bow(Bag of words)模型,提取图像中尺度不变的SIFT特征,形成视觉单词向量,设计了一个基于视觉单词的相似图像分类检索方法,取得了较好的分类检索效果。
暂无评论