版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202211306640.6
公 开 号:CN115618866A
代 理 人:冯昌进
代理机构:青岛智地领创专利代理有限公司
专利类型:发明专利
申 请 日:20230117
公 开 日:20221025
专利主分类号:G06F40/289
关 键 词:投标文件 段落识别 工程项目 主题提取 人工处理工作量 分词处理模块 格式转换模块 数据存储模块 自然语言处理 标题信息 权值矩阵 数据清洗 算法计算 文本分词 整体效率 归一化 相似度 页码 加权 耗时 解析 集合 关联 转换 分析
摘 要:本发明公开了一种工程项目投标文件的段落识别与主题提取方法及系统,属于自然语言处理领域,方法具体包括如下步骤:获取当前工程项目投标文件的PDF文件,然后转换解析为json格式;将json格式的投标文件作为输入,分析提取标题、段落及其父标题信息、物理页码等信息;然后对提取到的信息进行数据清洗;之后将段落文本分词,使用TF‑IDF算法计算TF‑IDF权值矩阵并与计算得到的父标题与段落的关联相似度加权;最后归一化得到主题词集合。系统主要包括格式转换模块、段落识别模块、分词处理模块、主题提取模块、数据存储模块。在大量的投标文件处理过程中,本发明方法解决了人工处理工作量大、耗时长、效率低的问题,提高了投标文件处理的整体效率。