版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:三峡大学电气与新能源学院湖北宜昌443002
出 版 物:《现代电子技术》 (Modern Electronics Technique)
年 卷 期:2025年第48卷第3期
页 面:124-128页
学科分类:0810[工学-信息与通信工程] 081203[工学-计算机应用技术] 08[工学] 081001[工学-通信与信息系统] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:物联网 不均衡数据 组内方差 SNM清洗算法 滑动窗口 网络爬虫 数据字段 约束条件
摘 要:由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不平衡数据字段过滤处理,设计可伸缩滑动窗口方式改进SNM算法,计算不均衡数据组内方差,将其作为清洗不均衡数据的约束,通过对比物联网海量不均衡数据组内方差阈值,实现物联网海量不均衡数据清洗。实验结果表明:该方法具备较强的物联网海量不均衡数据清洗能力,且清洗后的物联网海量不平衡数据的文本相似度较低,应用性较强。