版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202310396213.X
公 开 号:CN116414985A
代 理 人:张恩慧
代理机构:北京同辉知识产权代理事务所(普通合伙)
专利类型:发明专利
申 请 日:20230711
公 开 日:20230414
专利主分类号:G06F16/35
关 键 词:数据集 网络文本数据 构建 同义词 预处理 采集 同义词替换 层次聚类 城市空间 非介入式 分析软件 基因识别 技术手段 空间组合 媒体平台 媒体文本 向量空间 语义网络 主题分类 主题模型 基因 词矩阵 样本量 多源 聚类 合并 引入 统计 研究
摘 要:本发明公开了一种基于社交媒体文本数据的空间基因识别提取方法,包括以下步骤:采集关于城市的网络文本数据,然后对数据进行预处理,得到数据集D1;在分析软件中构建词典及向量空间,引入LDA主题模型,对得到的数据集D1进行主题分类;在各主题中合并同义词,并在数据集D1中进行同义词替换,得到数据集D2;在数据集D2中统计关键词两两共现次数,并构建共词矩阵M;利用层次聚类模型,对语义网络分析结果进行聚类,得到空间组合模式,即空间基因。本发明方法从多源社交媒体平台上采集关于某研究城市的网络文本数据,通过获取样本量丰富、非介入式的数据,为城市研究者识别城市空间基因提供了一种实用的技术手段。