TREC、NICIR和CLEF等评测的成功已经证明:系统化、大规模的定量评测对问答系统的研发有巨大的推动作用。然而,缺乏汉语问答系统评测机制已经成为制约汉语问答技术发展的主要障碍。本研究小组在吸收英文、日文等问答系统评测的成功经验基础上,推出面向汉语的问答系统评测平台(EvaluationPlatform for Chinese Question Answering,简称EPCQA),并规划了汉语问答系统评测的几个阶段。除此之外,本文还对EPCQA 语料库(1.8GB 互联网网页)、测试集(从多种不同的途径收集了4250个基于的事实用户提问)、打分标准(MRR、准确率、召回率和F 值)等构建过程进行了详细的介绍。
暂无评论