检索结果-内蒙古大学图书馆

计算机学报 2007年第11期30卷 2048-2054页

作者：徐永东徐志明王晓龙哈尔滨工业大学计算机学院智能技术与自然语言处理研究室哈尔滨150001

提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下... 详细信息

提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果.

关键词：多文本框架多文档自动文摘信息融合时间

来源：评论

学校读者我要写书评

暂无评论

主题分析技术在文档聚类中的应用

引用

哈尔滨工业大学学报 2009年第3期41卷 53-57页

作者：刘铭刘远超王晓龙哈尔滨工业大学计算机科学与技术学院智能技术及自然语言处理实验室哈尔滨150001

为解决高频特征对文章的主题信息反映不够全面,无法获得高质量聚类结果的问题,同时为获得聚类后各类别反映信息的精确描述,采用词汇链反映文章所描述的主题信息,并依据文本间词汇链的相似度进行聚类.将聚类后属于同一类别并反映相同主... 详细信息

为解决高频特征对文章的主题信息反映不够全面,无法获得高质量聚类结果的问题,同时为获得聚类后各类别反映信息的精确描述,采用词汇链反映文章所描述的主题信息,并依据文本间词汇链的相似度进行聚类.将聚类后属于同一类别并反映相同主题信息的词汇链进行融合,通过分析各词汇链所描述的主题信息在不同类别内的分布来抽取能够充分反映各类别主题的关键词集合.实验证明该方法比应用高频特征进行聚类的效果好,同时由于分析了主题信息在各类别内的分布情况,使抽取的类别关键词能够很好地体现每个类别所侧重描述的信息.

关键词：知网词汇链融合主题层次聚类

来源：评论

学校读者我要写书评

暂无评论

使用“分裂-合并'策略改进文本聚类集成算法的研究

引用

高技术通讯 2010年第7期20卷 714-718页

作者：卢志茂徐森刘远超顾国昌哈尔滨工程大学模式识别与自然计算研究室哈尔滨150001 盐城工学院计算机工程系盐城224051 哈尔滨工业大学智能技术与自然语言处理实验室哈尔滨150001

探讨了'分裂-合并'(DM)策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值(SKM)算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇,得到r个聚类成员,随... 详细信息

探讨了'分裂-合并'(DM)策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值(SKM)算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用两个快速的谱聚类算法进行集成。在6组真实文本集上进行了实验,使用DM策略的两个聚类集成算法获得的平均标准化互信息(NMI)分别比改进前的算法提高了4.6和7.9个百分点,证明了DM策略可以有效提高文本聚类集成算法的聚类质量。

关键词：聚类集成谱聚类文本聚类分裂-合并(DM) 标准化互信息(NMI)

来源：评论

学校读者我要写书评

暂无评论

条件随机域模型及在语言分析系统中的应用

引用

电机与控制学报 2008年第1期12卷 113-116页

作者：孙广路王晓龙郎非刘远超哈尔滨工业大学计算机科学与技术学院智能技术与自然语言处理研究室黑龙江哈尔滨150001 哈尔滨理工大学公共外语教学部黑龙江哈尔滨150080

分析了判别式模型的标记偏置问题对序列化标记的影响,利用条件随机域模型的全序列概率归一思想解决标记偏置问题。在条件随机域模型和特征选择的基础上,将语言分析任务转化成序列化标记问题进行求解,建立了由分词、词性标注和组块分析... 详细信息

分析了判别式模型的标记偏置问题对序列化标记的影响,利用条件随机域模型的全序列概率归一思想解决标记偏置问题。在条件随机域模型和特征选择的基础上,将语言分析任务转化成序列化标记问题进行求解,建立了由分词、词性标注和组块分析组成的语言分析系统。实验表明,条件随机域模型有效地克服了标记偏置问题,在语言分析系统中取得的性能优于其他判别式模型。

关键词：条件随机域语言分析标记偏置判别式模型

来源：评论

学校读者我要写书评

暂无评论

《知网》在命名实体识别中的应用研究

引用

中文信息学报 2008年第5期22卷 97-101页

作者：郑逢强林磊刘秉权孙承杰哈尔滨工业大学智能技术与自然语言处理实验室计算机科学与技术学院黑龙江哈尔滨150001

命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到... 详细信息

命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到最大熵模型中;第二种策略是利用《知网》来计算最大熵模型中词特征之间的概念相似度。在北京大学《人民日报》语料上的实验结果表明第一种策略可以有效地提高名实体识别的性能,第二种策略的改进效果不明显。

关键词：计算机应用中文信息处理名实体识别概念相似度《知网》最大熵模型

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：