视频匹配主要需要解决两个关键问题:如何对视频内容建模,从而能够用较少的数据量表示视频的内容;如何在拥有大量视频数据的数据库中实现快速索引。针对第一个问题,本文以子镜头作为视频匹配的基本单位,首次尝试运用物体识别中的“Bag of Words”表示模型对视频内容的建模,将子镜头特征映射为视觉关键词(Visual Words)的集合。对于第二个问题,本文引入在文本索引中广泛使用的技术,对子镜头建立视觉关键词词组的倒排索引,实现了大样本空间中子镜头的快速查找。实验结果表明,和已有方法相比,本文提出的基于“Bag of Words”的视频匹配方法在大视频样本库上获得了更高的检索精度和更快的检索速度。
本文介绍了中科院声学所研发的电话语音多语种识别系统。该系统采用多音素解码器并行处理框架,其中每一个解码器对每个目标语种都构建了 N 元语言模型—它表征了目标语种在语法层上的内在联系。多解码器对测试语音并行解码后,生成多个...
详细信息
本文介绍了中科院声学所研发的电话语音多语种识别系统。该系统采用多音素解码器并行处理框架,其中每一个解码器对每个目标语种都构建了 N 元语言模型—它表征了目标语种在语法层上的内在联系。多解码器对测试语音并行解码后,生成多个音节序列;依据相应的语言模型,计算这些音节序列在每一个目标语种上的概率似然值,由此生成一个以似然值为内容的得分矢量。最后,以支持向量机作为得分矢量的分类器,生成测试语音对每个目标语种的后验概率,并做最终判决。
暂无评论