心电图(electrocardiogram,ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本.但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题.在一个标签完整且准确的示例数据集辅助下,提出一种基于异常特征模式(abnormality-feature pattern,AFP)的方法对弱标签心电数据进行标签清洗,以获取所有正确的异常标签.清洗分2个阶段,即基于聚类的规则构造和基于迭代的标签清洗.在第1阶段,通过狄利克雷过程混合模型(Dirichlet process mixture model,DPMM)聚类,识别每个异常标签对应的不同特征模式,进而构建异常发现规则、排除规则和1组二分类器.在第2阶段,根据发现和排除规则辨识初始相关标签集,然后根据二分类器迭代扩展相关标签并排除不相关标签.AFP方法捕捉了示例数据集和弱标签数据集的共享特征模式,既应用了人的知识,又充分利用了正确标记的标签;同时,渐进地去除错误标签和填补缺失标签,保证了标签清洗的可靠性.真实和模拟数据集上的实验证明了AFP方法的有效性.
近年来,基于位置服务的技术迅猛发展,产生了海量的路网轨迹数据.而路径范围查询作为一种路网轨迹查询类型,是支持其他查询类型的基础.为了实现对海量路网轨迹数据的高效索引,同时提供精确的路径范围查询服务,提出一种基于道格拉斯-普克算法的学习型索引结构(Douglas-Peuker based Learned Index structure, DPLI).其首先将轨迹数据分为多个轨迹段,然后取轨迹段中点作为轨迹数据的表征,利用映射函数映射为一维映射值序列,而后根据键值数量将其划分为多个数据分片.在分片内将首尾数据组成一条线段,然后计算其余数据点距离线段的拟合误差,将超过误差阈值的数据点作为新的线段端点,递归分割原有的直线段,直到所有数据点的拟合误差小于阈值,从而拟合分段线性函数.采用多个路网数据和轨迹数据上进行了充分的实验,实验结果表明:与传统索引方法相比,DPLI具有更快的构建效率和磁盘访问效率;与学习索引方法相比,DPLI保持了构建效率的优势,并且达到了100%查询召回率.
暂无评论