集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法.针对传统集成式数据流挖掘存在的缺陷,将人类的回忆和遗忘机制引入到数据流挖掘中,提出基于记忆的数据流挖掘模型MDSM(memorizing based data stream mining).该模型将基...
详细信息
集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法.针对传统集成式数据流挖掘存在的缺陷,将人类的回忆和遗忘机制引入到数据流挖掘中,提出基于记忆的数据流挖掘模型MDSM(memorizing based data stream mining).该模型将基分类器看作是系统获得的知识,通过"回忆与遗忘"机制,不仅使历史上有用的基分类器因记忆强度高而保存在"记忆库"中,提高预测的稳定性,而且从"记忆库"中选取当前分类效果好的基分类器参与集成预测,以提高对概念变化的适应能力.基于MDSM模型,提出了一种集成式数据流挖掘算法MAE(memorizing based adaptive ensemble),该算法利用Ebbinghaus遗忘曲线对系统的遗忘机制进行设计,并利用选择性集成来模拟人类的"回忆"机制.与4种典型的数据流挖掘算法进行比较,结果表明:MAE算法分类精度高,对概念漂移的整体适应能力强,尤其对重复出现的概念漂移以及实际应用中存在的复杂概念漂移具有很好的适应能力.不仅能够快速适应新的概念变化,并且能够有效抵御随机的概念波动对系统性能的影响.
针对常规决策树算法在挖掘数据流时存在的不足,提出一种基于正态分布的决策树NDDT(Normal Distribution Decision Tree)算法。从近似正态分布的相关定理出发,详细分析算法的具体实现过程,给出算法实现的伪代码及注释,并借助Matlab软件...
详细信息
针对常规决策树算法在挖掘数据流时存在的不足,提出一种基于正态分布的决策树NDDT(Normal Distribution Decision Tree)算法。从近似正态分布的相关定理出发,详细分析算法的具体实现过程,给出算法实现的伪代码及注释,并借助Matlab软件进行建模与仿真。结果表明,NDDT算法具有精度高、精度不依赖于参数δ、处理时间短及处理时间与训练数据样本呈近似线性关系等优点。因此NDDT算法具有可行性、可靠性及良好的应用前景。
暂无评论