信息瓶颈(information bottleneck,IB)方法具有良好的理论基础和较强的数据分析能力,自被提出以来便得到信息编码、机器学习、图像处理、模式识别等领域研究者的关注。然而,随着大数据时代的到来,数据往往以不同来源、模态、空间等多路信息的形式出现,并且多路信息之间呈现出显著的异构特性。如何有效地处理日趋复杂的多源异构数据是IB方法研究面临的主要问题,也是IB方法研究的发展趋势。因此,开展IB方法在多源异构数据中的多路信息处理方面的研究具有重要的理论意义和应用价值,能够进一步拓展IB方法的应用范围,将IB方法推向新的研究阶段。本文针对传统IB方法无法处理多源异构数据的问题,提出多路信息瓶颈(multi-way information bottleneck,多路IB)方法,从多种特征融合、异构特征集成、多任务协作和跨模态公私兼顾四个层面出发,对其相关模型及算法展开研究。主要研究成果如下:(1)针对单一特征无法捕捉到完整数据信息的问题,提出一种基于特征协作的信息瓶颈(feature collaborative information bottleneck,FC-IB)模型。首先,将数据模式的抽取视为数据压缩的过程,通过最大化地保持压缩模式与多种特征变量之间的互信息,构建FC-IB模型的目标函数。其次,采用数据压缩过程中的信息损失作为数据模式抽取的判定条件,并从理论上证明FC-IB模型的目标函数能够得到局部最优解。实验表明,FC-IB算法能够有效地处理数据的多种特征,性能明显优于已有单特征和多特征学习方法。(2)针对数据多种特征之间的异构问题,提出集成信息瓶颈(consensus information bottleneck,CIB)模型。首先,提出基于集成学习的信息度量方法,量化异构特征间的相关性。其次,通过最大化数据多种特征和高层聚类划分之间的关联性,构建CIB模型的目标函数。最后,采用顺序“抽取-合并”优化策略,保证该目标函数收敛到局部最优解。实验表明,CIB算法能够抽取出数据中更加合理的模式结构,其性能明显优于已有的多视角聚类算法和聚类集成算法。(3)针对传统数据分析方法忽略多个相关数据源之间关联性的问题,提出基于信息共享的多任务信息瓶颈(multi-task information bottleneck,MTIB)模型。首先,提出自凝聚信息最大化模型构建多个任务之间的共享特征空间。其次,将多任务聚类问题形式化为最小信息损失函数,一方面尽可能将源数据进行压缩,另一方面最大化地保存模式结构与多任务间的共享信息。最后,提出一种轮转式“抽取-合并”策略保证目标函数收敛到一个局部最优解。实验表明,MTIB算法明显优于传统的单任务聚类算法和典型的多任务聚类算法。(4)针对现有跨模态数据分析方法仅依赖模态间的共享信息,忽略各模态自身的重要信息的问题,提出跨模态的公私兼顾信息最大化(share-private information maximization,SPIM)模型。首先,提出混合单词模型和聚类集成模型构建跨模态数据的公有信息。其次,提出基于信息论的统一化目标函数,在数据分析过程中兼顾跨模态数据的公有和私有信息。最后,采用顺序“抽取-合并”程优化SPIM模型的目标函数,保证其收敛到一个局部最优解。在6种跨媒体数据上的实验结果表明SPIM算法的优越性。
暂无评论