随着信息技术的飞速发展和广泛应用,目前许多组织都拥有非常庞大的数据库,并且数据量仍然以每天数百万条记录的速度快速增长。传统的统计和机器学习算法大多是以数据从静态分布中随机抽取样本为假设前提的,然而当前可得到的用来进行数据挖掘的大型数据库一般都违反这一假设。这些数据的产生经过了数月或者数年的时间,而数据生成过程在这段时间又发生了改变,有时甚至是根本性改变,从而使得传统的统计和机器学习算法不再适用。因此有必要对流数据挖掘算法进行研究。\n 本文重点研究了基于决策树的两种流数据挖掘分类算法VFDT(Very FastDecision Tree learner)和CVFDT(Concept-adapting Very Fast Decision Treelearner)。VFDT可以进行实时分析,它对每个样本使用固定的内存和时间来处理,并在此基础上建立决策树。VFDT能够使用现有的硬件设备来合并每秒成千上万的样本数据,并使用Hoeffding边界来保证它的输出结果收敛于传统学习器得到的结果。CVFDT在VFDT的基础上做出了一些调整和改进,它以生成一棵派生树的方式来利用绝大多数的旧数据从而保持决策树的更新,一旦旧的决策树变得不可靠而新的决策树变得更准确的时候,就用新的决策树替换旧的决策树。\n 基于上述的算法研究,本文对网络与信息安全领域的入侵检测系统进行了研究,根据通过入侵检测系统数据的特征以及流数据挖掘分类算法的目的,分析将流数据挖掘分类算法应用到入侵检测系统的必要性和可行性,并尝试利用UCI(University of California,Irvine)KDD Archive中用于入侵检测领域的测试数据集进行实证研究,从而为算法开辟了新的应用领域,并且也可以从不同的角度来检验算法的适用性,为下一步的研究工作奠定基础。
本文重点讨论如何在流数据挖掘的基础上设计和实现为用户提供高质量推荐服务的个性化推荐系统。通过使用流数据上频繁模式挖掘方法处理 Web 流数据,个性化推荐系统可以更及时地把握用户访问行为的变化,为用户更好更快地提供推荐信息。...
详细信息
本文重点讨论如何在流数据挖掘的基础上设计和实现为用户提供高质量推荐服务的个性化推荐系统。通过使用流数据上频繁模式挖掘方法处理 Web 流数据,个性化推荐系统可以更及时地把握用户访问行为的变化,为用户更好更快地提供推荐信息。 \n 通过研究流数据上的频繁模式挖掘,我们发现在挖掘过程中存在着模式数量较多的问题,针对这个问题,本文提出了使用无损信息压缩的频繁模式,闭合频繁模式进行挖掘。文中我们对流数据上闭合频繁模式挖掘算法 Moment 算法进行了研究,针对其中存在扫描次数过多等问题,对算法存储结构 CET 的提出了改进的更新方法和 Moment 算法的批处理和增量操作方法,改进的 Moment 算法能够以较好的时空效率对流数据进行挖掘,获得闭合频繁模式。 \n 本文设计并实现了一种基于流数据挖掘的个性化推荐系统 WPRSSD,该系统包括连接管理子系统、挖掘子系统和推荐子系统三个部分。连接管理子系统实现数据过滤、用户识别、会话识别和流数据构造的功能。流挖掘子系统实现规则预处理和规则挖掘的功能。推荐子系统应用推荐算法实现推荐结果的生成并将其输出给用户。在推荐子系统中,通过与传统基于聚类推荐算法的比较,我们提出了一种基于关联规则前项树 ARPT 的推荐算法,可以较为有效地缩短推荐结果的产生时间和提高推荐的准确率。在本文的最后,我们介绍了系统在背景项目中的实现和取得的效果。
暂无评论