随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM(masked language model)和WWM(whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。
【目的】分析学科、期刊和科研机构层面的撤稿原因及其异质性特征,为学术失范治理提供参考依据。【方法】从Retraction Watch Database和Web of Science核心合集获取撤稿论文数据,结合学术失范理论,对撤稿原因进行细化分类,采用社会网...
详细信息
【目的】分析学科、期刊和科研机构层面的撤稿原因及其异质性特征,为学术失范治理提供参考依据。【方法】从Retraction Watch Database和Web of Science核心合集获取撤稿论文数据,结合学术失范理论,对撤稿原因进行细化分类,采用社会网络分析挖掘其关联关系,并从学科、期刊和机构层面比较其异质性特征。【结果】通过对2014-2023年发表的26182篇撤稿论文数据分析发现:撤稿数量呈一定的上升趋势与时滞性,其中工程学、肿瘤学、计算机科学撤稿量较大,开放获取期刊撤稿占比较高;大部分作者仅涉及1~2篇撤稿论文,2~6人规模团队撤稿量较高;错误与可靠性不足是论文撤稿的主要原因,不当行为中,图片重复、作者不当行为和论文工厂是核心问题;不同学科、期刊和机构的撤稿原因存在明显差异。【结论】学术失范治理机制应考虑学科、期刊和机构的异质性,并需要国家、期刊、机构和作者共同参与。
暂无评论