版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202010750740.2
公 开 号:CN111814023B
代 理 人:黄忠
代理机构:11227 北京集佳知识产权代理有限公司
专利类型:发明专利
申 请 日:20210615
公 开 日:20200730
专利主分类号:G06F16/951(20190101)
关 键 词:汽车车型 网络价格 预处理 预置数据库 过滤 分布式文件系统 数据采集和处理 数据预处理模块 数据采集模块 数据计算模块 数据同步模块 可视化模块 处理效率 计算规则 监测系统 爬虫技术 人工处理 数据加载 数据同步 大数据 可视化 网站 预置 匹配 车型 存储 采集 重复 汽车 申请
摘 要:本申请公开了一种汽车车型网络价格监测系统,数据采集模块通过爬虫技术从汽车网站采集汽车车型网络价格数据并存储至预置数据库;数据同步模块将预置数据库的网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS;数据预处理模块将HDFS的汽车车型网络价格数据加载到Hive表,对Hive表中的汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,得到预处理后的汽车车型网络价格数据;数据计算模块根据预置计算规则对预处理后的汽车车型网络价格数据进行计算;可视化模块对计算结果进行可视化,解决了现有的汽车车型价格的获取和处理采用人工处理,存在数据采集和处理时间长,处理效率低的技术问题。