当前科技前沿识别研究方法难以得到更细粒度的分析结果,同时传统计量方法已不能够满足对当前来自网络的开源信息的情报挖掘需求,而机器学习方法可以实现数据细粒度的知识挖掘,因此成为解决科技前沿识别问题的重要手段。对2013—2021年中国知网和Web of Science(WoS)数据库收录的机器学习相关文献,在运用文献计量统计方法进行时间分布、研究主题及热点分析基础上,构建包含数据感知与处理层、情报计算和感知层、情报产品刻画层的开源情报环境下的科技前沿识别体系延伸架构,解读机器学习方法在各层次上的应用问题及关联关系,并提出不同层次需求发展的意见和建议;进而以7 944篇从WoS核心期刊库采集到的“深度学习”主题相关文献作为实验对象,主要针对数据处理中的知识单元构建进行论证。实证结果显示:从应用场景来看,多媒体信息处理的主题热度变化不大,智能机器人的主题热度逐年增高;从机器学习任务来看,目标检测和追踪的主题热度逐年降低,特征工程和数据分类则呈增长趋势。案例分析证明了所提出理论框架的科学性。
【目的/意义】为了明晰科学实体在学术文本中承担的语义角色,进而建立特定领域的术语的知识结构,本文提出一种以科学实体词间关系为特征工程的术语分类方法,从学术研究的语义属性角度,将学术文本中出现的科学实体分为“研究领域”“研究问题”“研究方法”“研究工具”“其他”五类。【方法/过程】采用依存句法分析的方法,对于学术文本中存在两个及两个以上科学实体的句子,挖掘它们之间的最短依存路径,将最短依存路径上的谓词成分作为实体之间的关系进行提取,构造2D矩阵作为卷积神经网络的输入,完成实体的分类研究。【结果/结论】该模型在Web of Science上获取的“人工智能”领域的学术文献进行验证,精确率为89.38%,召回率为92.46%,F1值为0.9089。【创新/局限】由科学实体关系构成的矩阵是稀疏矩阵,在计算过程中会对计算速度产生不利影响;在关系抽取的环节比较依赖依存句法分析分析工具的处理效果。
暂无评论