人体运动的挖掘与识别是可穿戴技术和普适计算的热门领域。主流的人体运动计算方法通过离线机器学习的技术对人体运动进行预测。而个性化的识别对原来的学习模式提出了新的挑战,如用户的活动类型不一定出现在离线的训练集中。这一问题在日常活动模式(Activities of Daily Living)领域尤其凸显,因为不同职业的人群的日常活动截然不同,这需要系统自动发现与挖掘不在离线词汇表中的活动类型,尤其是那些占据了大部分时间的活动类型。本文提出了从可穿戴设备的加速度数据中无监督地发现与挖掘日常活动模式的算法,挖掘数据中频繁出现的活动模式,并为每种活动模式进行建模。与经典的聚类算法不同的是,本文的挖掘算法(1)发现的活动类别的数量可以动态计算而得,自适应于数据;(2)为每种发现的活动类型建立的匿名分类器,命名后可复用;(3)可以对新的数据进行持续地挖掘,包括识别已有的活动类型以及发现新的活动类型。论文的主要工作和研究成果包括:(1)设计了一套结合活动分段和聚类的日常活动挖掘算法框架,该算法框架可动态计算活动模式的数量,并可持续进行新活动类型的发现和挖掘。(2)提出了基于主题分布稳定性的加速度流分段方法,该方法可以有效地提取每种活动类型的原型数据,每个片段中的多个样本同属于一种活动。该方法基于主题分布稳定性进行分段,有效地将活动原型个数和主题个数解耦合,使得挖掘到的活动原型个数可动态计算。(3)提出了一种通过分段结果获得训练样本(包括样本和标签)的采样方法,该方法可以为动作原型采集数量合理并具有一定多样性的训练样本集。(4)提出了迭代挖掘的方法和以可复用的分类器表达聚类结果的思想,实现了新活动的持续发现。(5)本文的算法在Ubicomp08和PAMAP2公开数据集上做了实验与算法验证,实验表明本算法有良好的日常活动发现与挖掘能力。其中,在Ubicomp08数据集共发现了13种日常活动模式,覆盖了88%的数据,达到了82%的灵敏度以及80%的聚类准确性。在PAMAP2的数据集上,共发现了17种日常活动模式,覆盖率67%的数据,达到了92%的灵敏度以及91%的聚类准确性。另外,算法习得的匿名分类器在命名后,对未知数据的识别率也可达到71%的灵敏度以及84%的准确率。
随着科技的不断发展,数据挖掘作为一种有效的信息获取手段在现代社会中发挥着重要的作用,频繁模式挖掘FIM(Frequent itemset mining)按特定频繁周期出现时称为周期性频繁模式,该模式忽略了周期模式下事务效用值的变化。在实际应用场景中,事务的价值或效用值会随着时间的推移而变化。基于此提出周期高效用挖掘模式,该模式不仅考虑项目集的周期,还考虑了每个项目的权重,例如单位利润。然而,现有研究忽视了模式的成本信息,例如时间、精力、金钱等资源消耗,导致一些具有高利润低成本或高效益低消耗的模式被忽略。此外,传统的周期高效用项集挖掘只能处理正值的效用,无法应用于现实中存在二元分类情形的问题,例如,高效用的周期模式挖掘在商品推荐上,正类可以表示用户可能感兴趣的商品,而负类表示用户不太可能感兴趣的商品。针对以上问题,本文对低成本高效用模式挖掘进行了深入研究,主要内容包括:
(1)针对周期高效用项集挖掘仅考虑项目效用导致忽略了关于项目的成本信息(例如,时间、精力、金钱或其他消耗的资源)的问题,引入低成本模式,提出基于低成本高效用的周期模式挖掘算法PCHUM(Periodic Low Cost High-utility Itemset Miner),在挖掘过程中使用一种更高效的数据结构CP-list列表,直接读取项集的成本及周期等相关信息,避免将这些度量事先存储到内存中,提高了算法效率。为了减少搜索空间,在使用最大周期剪枝策略的基础上加入最小周期的约束,并采用平均周期置信度(avg Per AConf)和平均成本下界ACB(Average Cost Bound)结合的剪枝策略。该方法相比传统的周期高效用算法可获得更有价值的模式信息,并有效的减少了搜索空间,提高了算法的挖掘效率。
(2)针对周期高效用挖掘算法无法适用现实生活中的二元分类情况(两个互斥类别或组别的任务,通常将数据划分为“正”和“负”两类),提出正负类标签的低成本高效用的周期模式挖掘算法PCEP(Period Cost-Effective Patterns Ming)。引入新的相关性度量cor(Correlation of a pattern in a binary SADB)来权衡成本合效用之间的关系,以便在挖掘过程中剔除相关性较低的模式或特征。为了减少搜索空间,将相关性度量cor与模式的平均占用率、平均周期置信度、平均成本下界相结合的剪枝策略使算法在统一的度量空间下优化。实验验证,该方法在多个二元分类数据集上表现出了显著的性能优势,能够更精准地捕捉效用在正负类别之间的关联性,提升了分类准确性和模式的解释能力。
(3)设计了一种基于低成本高效用的周期模式的商品挖掘系统,该系统选用SPMF开源平台,可以帮助用户快速、准确地分析和挖掘周期性数据,提高预测和决策的准确性,为用户带来更高实际的效益,帮助管理者更加直观地了解用户的购买行为和商品流的趋势,同时也有助于提高数据挖掘算法在实际场景中的应用效率和实时性。
暂无评论