版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者单位:南京航空航天大学
学位级别:硕士
导师姓名:黄志球
授予年度:2008年
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:数据质量 数据清洗 本体 清洗规则 任务结构 系统框架
摘 要:随着数据库技术的飞速发展以及数据获取手段的多样化,数据资源日益丰富,数据量急剧增加。数据的价值在于其自身的质量,基于劣质数据的决策支持具有不可信性,目前数量巨大而且零乱的劣质数据成为制约数据应用的“瓶颈。因此,作为数据质量问题的主要解决技术,数据清洗成为研究的热点。然而现有数据清洗技术的研究大多是从数据文本取值的层面进行清洗处理,往往忽略了数据自身蕴含的语义信息。因此,如何在现有数据清洗研究中引入语义特性成为该领域一个新的研究点。针对这一研究课题,本文主要开展了如下几个方面的研究工作: 首先,基于信息化建设的背景,对数据质量问题和数据清洗问题进行了研究。通过对该领域在国内外研究现状的分析,归纳了现有数据清洗研究中存在的不足,并论证了利用本体及相关技术解决上述不足的可行性。 其次,针对知识表示及其常规性的方法,本体及相关技术的研究进行了总结,作为支撑论文研究的理论基础。 然后,基于本体提出了一个数据清洗系统框架。按照资源描述的特性,将系统框架划分为描述静态语义信息的本体表达模型和描述过程语义信息的动态处理模型,并分别给出了模型中各组成部分的形式化描述和主要模块在处理过程中的工作原理和实现机制。 最后,在对课题研究中的两个语义模型进行分析介绍的基础上,设计并实现了基于本体的数据清洗系统框架,并使用UML对框架的静态结构设计和动态行为语义进行了建模,解决了现有数据清洗研究中缺乏语义约束和不能支持自动推理的问题。