检索结果-内蒙古大学图书馆

高技术通讯 2007年第6期17卷 575-580页

作者：王治敏王厚峰俞士汶北京语言大学汉语学院北京100083 北京大学计算语言学研究所北京100083

把机器学习方法引入汉语隐喻识别的研究。隐喻识别过程被描述成隐喻义与字面义的分类问题,通过最大熵和朴素贝叶斯两种方法的隐喻建模,在综合上下文词语、词性等多项特征的基础上,最后初步确定了最大熵识别的理想窗口,进而又引入左右位... 详细信息

把机器学习方法引入汉语隐喻识别的研究。隐喻识别过程被描述成隐喻义与字面义的分类问题,通过最大熵和朴素贝叶斯两种方法的隐喻建模,在综合上下文词语、词性等多项特征的基础上,最后初步确定了最大熵识别的理想窗口,进而又引入左右位置特征来提高实验效果。在两种模型的比较实验中,最大熵模型在隐喻识别方面有明显的优势。

关键词：隐喻识别优选语义最大熵朴素贝叶斯特征选取

来源：评论

学校读者我要写书评

暂无评论

基于特征选择和最大熵模型的汉语词义消歧

引用

软件学报 2010年第6期21卷 1287-1295页

作者：何径舟王厚峰北京大学信息科学技术学院计算语言学研究所北京100871 北京大学计算语言学教育部重点实验室北京100871

词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在... 详细信息

词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与SemEval2007:task#5的最好成绩相比,该方法分别在微平均值MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了3.10%和2.96%.

关键词：最大熵模型分类特征自动特征选择汉语词义消歧

来源：评论

学校读者我要写书评

暂无评论

中文分词模型的领域适应性方法

引用

计算机学报 2015年第2期38卷 272-281页

作者：韩冬煦常宝宝北京大学信息科学技术学院计算语言学研究所计算语言学教育部重点实验室北京100871

字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力... 详细信息

字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性.

关键词：卡方统计量边界熵领域适应性自举算法中文分词社会计算社交网络

来源：评论

学校读者我要写书评

暂无评论

大型词典编纂的计算机辅助开发与管理系统

引用

辞书研究 2004年第2期 73-81,72页

作者：王惠李康年北京大学信息学院计算语言学研究所北京100871

一个用于词典编纂的计算机辅助开发与管理系统已经在北京大学《现代汉语语义词典》的开发过程中发挥重要作用 ,有效地提高了词典编纂的效率和质量。同时 ,该项研究也是对汉语计算词典学理论的一种探索。

关键词：计算机辅助开发工作大型词典编纂管理系统词典管理自动翻译计算词典学词典编辑

来源：评论

学校读者我要写书评

暂无评论

最大熵方法中特征选择算法的改进与纠错排歧

引用

北京理工大学学报 2006年第1期26卷 36-40页

作者：张仰森曹元大俞士汶北京大学计算语言学研究所北京理工大学软件学院北京100081

对应用最大熵原理建立语言模型的特征选取方法作了改进.用特征模板从训练样本中获得候选特征集,应用频次与平均互信息相结合的方法从候选特征集中选取特征.在选择有效特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大... 详细信息

对应用最大熵原理建立语言模型的特征选取方法作了改进.用特征模板从训练样本中获得候选特征集,应用频次与平均互信息相结合的方法从候选特征集中选取特征.在选择有效特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入有效特征集,且不是每选一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算法有效.

关键词：最大熵方法特征选择语言建模纠错排歧

来源：评论

学校读者我要写书评

暂无评论

采用无标注语料的动词和形容词主观性评级

引用

软件学报 2013年第5期24卷 1036-1050页

作者：徐戈蒙新泛王厚峰北京大学计算语言学研究所北京100871 计算语言学教育部重点实验室(北京大学) 北京100871 闽江学院计算机科学系福建福州350108

为了自动区分中文主观词和客观词,采用主观性线索和汉字的主观性两种手段对动词和形容词进行主观性度量.主观性的线索进一步被分成级差(gradability)线索和主体(subject)线索;根据这些线索,使用基于图的算法进行评级(ranking).在汉语主... 详细信息

为了自动区分中文主观词和客观词,采用主观性线索和汉字的主观性两种手段对动词和形容词进行主观性度量.主观性的线索进一步被分成级差(gradability)线索和主体(subject)线索;根据这些线索,使用基于图的算法进行评级(ranking).在汉语主观性词表构建中,提出使用主体线索和汉字主观性.5个标注人员对随机选择的500个单词进行主观性标注,据此构建主客观标准集,并将其用于各种设置下的实验结果评估.实验结果显示,当被标注的单词出现频率较高时,所提出的方法能够超过或者匹配人工标注.此外,尽管文中只使用了无标注的数据,但还有更多的先验知识(如语义词典等)可以被引入到该方法中.

关键词：主观性无标注语料级差线索主体线索评级汉字主观性

来源：评论

学校读者我要写书评

暂无评论

关键词自动标引的最大熵模型应用研究

引用

计算机学报 2004年第9期27卷 1192-1197页

作者：李素建王厚峰俞士汶辛乘胜北京大学计算语言学研究所北京100871 人民日报社新闻信息中心北京100733

关键词是文档管理、文本聚类 /分类、信息检索等领域可利用的重要资源 ,因此该文提出了利用最大熵模型进行自动标引的技术 .最大熵模型为一个成熟的数学模型 ,已经应用到计算语言学的各个领域 .然而它的应用非常灵活 ,针对标引任务和现... 详细信息

关键词是文档管理、文本聚类 /分类、信息检索等领域可利用的重要资源 ,因此该文提出了利用最大熵模型进行自动标引的技术 .最大熵模型为一个成熟的数学模型 ,已经应用到计算语言学的各个领域 .然而它的应用非常灵活 ,针对标引任务和现有资源的实际情况 ,作者首先建立了最大熵模型的特征集合 ,然后提出了三种试验方法 ,并给出了相应的试验结果 ,最后针对最大熵模型在关键词自动标引任务中的应用做了有益的分析和探讨 .该研究对于关键词标引研究以及最大熵在其他领域中的应用将有所启示 .

关键词：关键词标引关键词抽取最大熵模型信息抽取

来源：评论

学校读者我要写书评

暂无评论

基于图的同义词集自动获取方法

引用

计算机研究与发展 2011年第4期48卷 610-616页

作者：吴云芳石静金澎计算语言学教育部重点实验室(北京大学) 北京100871 北京大学计算语言学研究所北京100871 乐山师范学院智能信息处理及应用实验室四川乐山614000

同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在New... 详细信息

同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点.

关键词：相似词同义词集图模型并列结构 Newman算法边权值

来源：评论

学校读者我要写书评

暂无评论

藏文信息处理技术的研究现状与展望

引用

中国藏学 2003年第4期 97-107页

作者：陈玉忠俞士汶北京大学信息科学技术学院计算语言学研究所

本文主要对国内开展藏文信息处理以来的相关研究工作进行了介绍和评价。在此基础上对藏文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进藏文信息处理技术的发展。通过对藏文操作系统、藏文信息技术标准、藏语信息处理、... 详细信息

本文主要对国内开展藏文信息处理以来的相关研究工作进行了介绍和评价。在此基础上对藏文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进藏文信息处理技术的发展。通过对藏文操作系统、藏文信息技术标准、藏语信息处理、综合应用等四个方面的历史和现状的介绍和评价 ,使我们得出如下的初步结论 :目前状况下要加速藏文信息处理的发展 ,应重点开展藏文信息技术标准制定、藏文操作系统研制、藏文资源建设和人才培养工作 ,尤其是要把藏文操作系统的研制工作作为头等大事来抓。

关键词：藏文信息处理藏文操作系统藏文信息技术标准文字信息处理计算机应用

来源：评论

学校读者我要写书评

暂无评论

无双语词典的英汉词对齐

引用

计算机学报 2004年第8期27卷 1036-1045页

作者：吕学强吴宏林姚天顺北京大学信息科学技术学院计算语言学研究所北京100871 东北大学信息科学与工程学院计算机软件与理论研究所沈阳110004

该文提出了一种基于语料库的无双语词典的英汉词对齐模型 .它把自然语言的句子形式化地表示为集合 ,通过集合的交运算和差运算实现单词对齐 ,同时还考虑了词序和重复词的影响 .该模型不仅能对齐高频单词 ,而且能对齐低频单词 ,对未登录... 详细信息

该文提出了一种基于语料库的无双语词典的英汉词对齐模型 .它把自然语言的句子形式化地表示为集合 ,通过集合的交运算和差运算实现单词对齐 ,同时还考虑了词序和重复词的影响 .该模型不仅能对齐高频单词 ,而且能对齐低频单词 ,对未登录词和汉语分词错误具有兼容能力 .该模型几乎不需要任何语言学知识和语言学资源 ,使语料库方法可独立应用 .实验表明 ,同质语料规模越大 ,词对齐的正确率和召回率越高 .

关键词：自然语言处理双语语料库词对齐最小求交最小求差

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：