随着大模型进入应用时代,针对个性化、合规、实时性需求,边侧大模型服务成为大趋势。其中,政务大模型是最为典型的边侧大模型行业应用之一。在各地政府,政务领域应用该模型能推进业务办理智能化,帮助政府机构提升处理效率和服务质量。然而,现有大模型基准测试大多集中于评估模型的通用能力或者特定学科任务的性能,而对于模型在特定行业中的应用能力,例如处理政务的能力评测方面,却缺乏相应的评测数据集。为填补这一空白,本文提出了一种新的中文政务理解基准测试(A Chinese Government Affairs Understanding Evaluation Benchmark,CGAUE)。本基准是开放、社区驱动的,不仅包含对模型的客观能力测试集,还提供对模型主观能力的测试集。具体来说,本基准旨在评估大模型在处理政务相关任务时的表现,包括但不限于对外部知识的利用以及对实际市民问题的响应能力,更真实地反映模型在实际政务场景中的应用效果。此外,本文还提出了一种新的测试集参考格式。该格式在大模型领域具有通用性和兼容性,可促进不同测试集的相互交换、集成和处理,以及不同模型之间的比较和评估,推动了大模型评测产业发展。总的来说,本工作通过构建全新的中文政务理解评估基准和评测数据集参考格式,推动了大模型在实际政务领域的应用和评测。这不仅有助于提高模型在行业中的实用性,也为大模型的研究和开发提供了新的方向和挑战。
暂无评论