随着互联网的迅速发展,网上的信息越来越多,用户想在海量的数据中检索自己需要的信息越来越困难。随着垂直搜索引擎的出现,大大改善了传统搜索引擎检索结果泛而不专的状况。所谓的垂直搜索引擎是应用于某一个行业、专业的搜索引擎。垂直搜索引擎为用户提供的并不是上百甚至上千万的相关网页,而是范围极为缩小、极具有针对性的具体信息。本文中的项目即百度地图阿拉丁系统是作者在百度公司实习期间所参与的项目。在百度公司内部,垂直搜索也被称为“阿拉丁”。百度针对不同的检索范畴,分为例如商品阿拉丁、音乐阿拉丁、体育阿拉丁、旅游阿拉丁、地图阿拉丁等等。本系统是在原有百度地图阿拉丁系统version1.0基础上从架构、业务、性能等做了全面的升级,即百度地图阿拉丁系统(version2.0)。本人参与了项目前期的调研工作,随后进行完整的需求分析、设计、开发、测试及部署上线的全过程。在具体的工作中,将整个百度地图阿拉丁系统分为四层来进行设计与实现。对接上游层包括搜索数据接口模块、DuerOS数据接口模块;非业务处理层包括数据抽稀模块、数据缓存模块、质量控制模块;业务处理层包括普通poi(point of interest)类检索模块、周边类检索模块、公交线路类检索模块、出行路线类检索模块;对接下游层包括地图后端服务统一数据总线模块。在本系统具体的设计实现中,使用百度内部php开发环境ODP,数据缓存使用Redis,数据抽稀使用Douglas-Peukcer抽稀算法,质量控制使用逻辑回归算法训练模型并进行预测。此外在开发工作结束后对整个系统进行了测试,达到了预期目标。本文的最后对整个项目进行总结以及对未来工作的展望。
暂无评论