在线迁移学习是一种面向在线流式数据的增量式学习方法,可通过将离线源域上学到的知识在线迁移到目标域,以弥补目标域标记样本稀缺问题,从而提高目标域学习模型的性能。然而现实中并不总是存在源域与目标域的特征空间和标签空间都一致,异构在线迁移学习利用单个或多个异构源域的标记数据来增强目标域的在线学习性能。现有的异构在线迁移学习方法通常假定源域特征空间是目标域特征空间的子集,或依赖于特定的辅助数据来构建源域与目标域的特征空间之间的关联,以致延长源域知识迁移至目标域的过程,影响目标域在线学习任务的时效性。本文研究提出了一种基于跨域结构保持投影的多源异构在线迁移学习方法。该方法通过跨域结构保持投影将多个源域离线数据与目标域初始少量离线数据的特征空间同时映射到同一个公共子空间以实现特征空间对齐,且无需限定源域特征空间是目标域特征空间的子集,也不依赖于任何特定的辅助数据。此外,对于在线多分类学习任务,本文提出一种针对多分类问题的异构在线迁移学习算法Het OMTL-CDSPP(Heterogeneous Online Multi-source Transfer Learning based on Cross-domain Structure Preserving Projection)。本文主要工作包括:(1)阐述了异构在线迁移学习的研究背景和意义,分别对同构和异构在线迁移学习方法的国内外相关研究现状进行了综述,对本文相关理论进行具体介绍,并对现有异构在线迁移学习研究中的主要方法进行对比分析。(2)研究提出一种基于跨域结构保持投影的多源异构在线迁移学习方法。该方法通过跨域结构保持投影将每个源域与目标域的特征空间同时映射到对应的公共子空间,并基于公共子空间中的跨域离线混合数据和目标域在线数据分别进行离线学习和在线学习。最后通过一种双层差异导向对冲集成策略,实现源域离线学习模型与目标域在线学习模型的两层集成融合和在线演化更新。(3)针对在线多分类学习任务,基于本文方法研究设计了一种多源异构在线迁移学习算法Het OMTL-CDSPP,并分析该算法的时间复杂度,以及理论证明该算法预测错误的理论上界。最后在三个公开数据集上,通过与基准方法的实验比较,该算法的平均错误率和平均在线累计错误率均优于基准方法。
暂无评论