地址地理编码技术是沟通各种孤立的信息系统,整合数字城市中各种信息资源的一项关键技术,而POI(points of interest)名称匹配又是地理地址编码的关键技术之一。本文针对现有的中文POI(points of interest)匹配中存在的不足,利用中文分...
详细信息
地址地理编码技术是沟通各种孤立的信息系统,整合数字城市中各种信息资源的一项关键技术,而POI(points of interest)名称匹配又是地理地址编码的关键技术之一。本文针对现有的中文POI(points of interest)匹配中存在的不足,利用中文分词、信息检索、搜索引擎和人工智能技术作为支撑,提出了基于角色标注的中文POI匹配的方法,提高了POI匹配的准确性和效率。其基本思想是:根据在POI匹配中的作用,在对POI分词的基础上用HMM(HideMarkov Model隐马可夫模型)对POI的切分单位进行角色标注,切分单位的角色不同,其在匹配过程中的地位也不同,在精确匹配失败后,再根据角色信息进行模糊匹配,从而提高了中文POI名称匹配的成功率。
为验证实际的效果,实现了一个基于角色标注的POI名称匹配的原型系统,并利用北京市东城区和西城区的POI库进行了匹配试验。从北京市东城区和西城区POI名称数据库中的160,000余条中随机抽出2300条POI进行匹配试验,匹配率成功率达到92.39%。通过对结果样本的详细分析,发现限制匹配成功率的主要因素在于POI数据库的质量、算法的模糊匹配的能力不足。排除POI名称数据库的影响,实际匹配率达98.01%。本文最后还讨论了进一步提高POI匹配成功率的思路和未来可能的研究重点和方向。
暂无评论