移动数据具有数量庞大、类型多样、时效性强和高价值等特点.移动通信数据是一种重要的移动数据,对高效地存储和访问移动通信数据进行研究,并在此基础上更加有效地开展移动数据挖掘的相关研究,具有重大现实意义.当前,使用并行数据挖掘技术进行数据挖掘得到普遍认可,但并行数据挖掘技术需要较高的硬件成本,并行算法代码调试和优化较为困难.为此提出大规模移动通信数据的单机实现MCDS(mobile communication data processing system).MCDS基于GraphChi,改进了数据格式、分片机制、数据分片换入换出机制.实验结果验证了MCDS的有效性,为移动数据挖掘提供了切实可行的实验环境.
近年来,大量半监督分类算法被提出。然而在真实的学习任务中,研究者很难决定究竟选择哪一种半监督分类算法,而在这方面并没有任何指导。半监督分类算法可通过数据分布假设进行分类。为此,在对比分析采用不同假设的半监督分类典型算法的基础上,以最小二乘方法(Least Squares,LS)为基准,研究比较了基于聚类假设的转导支持向量机(Transductive Support Vector Machine,TSVM)和基于流行假设的正则化最小二乘法(Laplacian Regularized Least Squares Classification,Lap RLSC),并同时利用两种假设的Semi Boost以及无任何假设的蕴含限制最小二乘法(Implicitly Constrained Least Squares,ICLS)的分类效果。得出的结论为,在已知数据样本分布的情况下,利用相应假设的方法可保证较高的分类正确率;在对数据分布没有任何先验知识且样本数量有限的情况下,TSVM能够达到较高的分类精度;在较难获得样本标记而又强调分类安全性时,宜选择ICLS,而Lap RLSC也是较好的选项之一。
暂无评论