检索结果-内蒙古大学图书馆

作者：陶锐文电子科技大学

学位级别：硕士

自然语言处理中的文本生成是一个重要的研究方向,并拥有广泛的应用空间,如机器翻译,摘要生成,开放性文本生成等。现阶段利用统计语言模型和解码算法构建的文本生成系统取得了最好的结果。相比于基于语言模型训练和结构的改进而导致的生... 详细信息

自然语言处理中的文本生成是一个重要的研究方向,并拥有广泛的应用空间,如机器翻译,摘要生成,开放性文本生成等。现阶段利用统计语言模型和解码算法构建的文本生成系统取得了最好的结果。相比于基于语言模型训练和结构的改进而导致的生成质量上的巨大飞跃,解码算法通常被报告为实验的技术细节,而生成更高质量的文本需要解码算法配合语言模型共同完成。本文从语言模型生成的概率分布,开放性生成解码算法,定向生成解码算法这三个角度提出了改进。1.语言模型生成的概率分布存在建模误差和暴露偏差问题,会造成生成文本质量的持续性降低。本文分析了造成这种误差的原因,并提出了一种利用语言模型中的掩码机制构造误差样本并融合的方式对概率分布进行了修正与微调,以降低概率分布的误差。实验证明,这种修正方法在相同解码算法情况下能够产生更低困惑度的文本(PPL降低了0.41),减缓了由于模型误差而导致的文本生成质量降低。2.开放性文本采样算法通过截取低概率字符和采样会不可避免的造成文本退化。文本分析了造成文本退化的原因,统计证明了采样文本无法通过调节采样参数达到真实文本的质量,并提出了一种对语言模型产生的信息序列进行自回归式的拟合的解码模型,在推理阶段指导语言进行生成。实验证明,相比于其他采样算法,解码模型在静态指标方面与真实文本更为贴近(PPL相差0.13),并在人工评价中拥有更好的成绩,最后实验证明了解码模型对不同语料的文本同样有效。3.定向文本生成使用波束搜索完成目标的解码工作,但存在着搜索结果与实际预期不一致的问题,即高搜索宽度结果得到的文本质量更差。本文分析认为高搜索宽度中的低概率建模字符的错误引入造成这种不一致,因此提出了一种根据搜索过程产生的概率分布动态选择核心字符的方法,在提高搜索宽度的同时避免了文本退化。实验证明,对低概率字符进行过滤后,高搜索宽度的波束搜索算法在中英翻译数据集上取得了更好的效果(BLEU值提高了0.32)。最后根据方法创新设计并实现了一个开放性文本写作系统,该系统可以向使用者提供不同风格和种类的生成文本以辅助用户进行文本创作。文本解码算法对实现文本的高质量生成有着重要作用,本文了对现阶段中的解码算法实现进行了补充,为更好的实现开放性文本生成和定向文本生成提供了新的解码思路。

关键词：解码算法统计语言模型概率分布开放性文本生成定向文本生成

来源：评论

学校读者我要写书评

暂无评论

一种基于统计语言模型的加密方法

一种基于统计语言模型的加密方法

引用

作者：李超王亚东 224000 江苏省盐城市城南新区新都街道智慧谷科创大厦南15层(CND)

本发明公开了一种基于统计语言模型的加密方法，包括：建立基础统计语言模型；获取包含若干语言资料的语言资料集；将所述语言资料集作为训练数据对所述基础统计语言模型进行训练，得到目标统计语言模型；根据所述目标统计语言模型对待... 详细信息

标准号: CN116108466B

本发明公开了一种基于统计语言模型的加密方法，包括：建立基础统计语言模型；获取包含若干语言资料的语言资料集；将所述语言资料集作为训练数据对所述基础统计语言模型进行训练，得到目标统计语言模型；根据所述目标统计语言模型对待加密的文本进行加密。通过本发明给出的技术方案，建立统计语言模型，并根据该模型对数据进行加密，尤其是文本数据进行加密，能提高加密数据的逻辑性与通顺性，进一步提高加密数据的欺骗性，降低因加密后的数据文件变成乱码导致被不法分子当作破解焦点导致的数据泄露风险，提高数据安全性，同时本发明给出的统计语言模型还可以应用于对音频资料的加密，适用范围较广。

关键词：加密统计语言模型语言资料基础统计加密数据语言模型数据安全性数据文件数据泄露文本数据训练数据音频资料欺骗性乱码破解文本焦点应用

来源：评论

学校读者我要写书评

暂无评论

一种基于统计语言模型得分规整的语音识别方法及系统

一种基于统计语言模型得分规整的语音识别方法及系统

引用

作者：张鹏远张一珂潘接林颜永红 100190 北京市海淀区北四环西路21号

本发明一种基于统计语言模型得分规整的语音识别方法，所述方法包括：步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型；包括：k阶统计N元文法语言模型，k‑1个不同阶数的统计N元文法语言模型和k‑1个不同阶数的改进的统计N... 详细信息

标准号: CN109427330B

本发明一种基于统计语言模型得分规整的语音识别方法，所述方法包括：步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型；包括：k阶统计N元文法语言模型，k‑1个不同阶数的统计N元文法语言模型和k‑1个不同阶数的改进的统计N元文法语言模型；步骤2)将待识别语音进行第一遍解码，得到L条候选语音s；步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分，结合声学模型得分计算出每条候选语音的得分；步骤4)选出得分最高的候选语音作为第二遍解码结果；该结果为最终的识别结果。本发明的方法对于识别错误具有良好的容错性，能够有效的提升语音识别的正确率。

关键词：语音统计语言模型文法语言模型语音识别多尺度阶数解码统计得分计算解码结果声学模型语言模型规整容错性正确率改进

来源：评论

学校读者我要写书评

暂无评论

一种基于统计语言模型的加密方法

一种基于统计语言模型的加密方法

引用

作者：李超王亚东 224000 江苏省盐城市城南新区新都街道智慧谷科创大厦南15层(CND)

标准号: CN116108466A

关键词：加密统计语言模型语言资料基础统计加密数据语言模型数据安全性数据文件数据泄露文本数据训练数据音频资料欺骗性乱码破解文本焦点应用

来源：评论

学校读者我要写书评

暂无评论

基于统计语言模型的个性化API补全方法研究

基于统计语言模型的个性化API补全方法研究

引用

作者：马张驰南京大学

学位级别：硕士

API补全是当今开发者们使用最为频繁的代码补全方法之一。近年来,大数据与人工智能技术发展迅猛,这为API补全带来了新的可能。其中,统计语言模型在代码补全领域取得了广泛关注,它先使用程序表示技术将程序代码转化成语句序列,再使用N-gr... 详细信息

API补全是当今开发者们使用最为频繁的代码补全方法之一。近年来,大数据与人工智能技术发展迅猛,这为API补全带来了新的可能。其中,统计语言模型在代码补全领域取得了广泛关注,它先使用程序表示技术将程序代码转化成语句序列,再使用N-gram(N元语法)、RNN(循环神经网络)等模型对代码中方法调用进行预测,进而实现API补全。但是,训练模型需要使用大量的语料库,这些语料常常来自于互联网上的开源项目,但这一些项目所代表的编程习惯与真实的个体开发者之间必然存在差异性,例如用户的个人项目中会存在大量的自定义类和方法,这对代码补全在实际应用时的表现带来了极大的负面影响。为了改善此问题,本文提出了一种基于统计语言模型的个性化代码补全方法,在已有方法的基础上增加了由用户个人的编程数据训练的语言模型。具体来说,本文主要工作内容包括:1.实现了一套从Java程序代码中提取出API调用序列以及将其转化为语句序列的完整方法,并基于大量代码生成了语料库。2.通过多种语言模型相结合的方式实现了基于用户个人编程习惯的个性化API补全模型。本文先使用来自互联网的数据实现了一套由N-gram模型和LSTM模型组成的混合语言模型,然后在此模型的基础上使用个人用户的数据对其进行重构与训练。3.基于上述工作,进行实验对比了不同模型在不同特征的测试集上的预测表现。实验结果证明将个性化模型运用在个人项目上进行代码补全时,会比已有模型拥有更高的准确率。

关键词：代码补全深度学习统计语言模型循环神经网络个性化推荐

来源：评论

学校读者我要写书评

暂无评论

基于统计语言模型改进的Word2Vec优化策略研究

引用

中文信息学报 2019年第7期33卷 11-19页

作者：张克君史泰猛李伟男钱榕北京电子科技学院北京100071 西安电子科技大学计算机科学与技术学院陕西西安710071

该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,... 详细信息

该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。

关键词：词向量统计语言模型 TFIDF 文本关键词 CBOW-TFIDF

来源：评论

学校读者我要写书评

暂无评论

一种基于统计语言模型得分规整的语音识别方法及系统

一种基于统计语言模型得分规整的语音识别方法及系统

引用

作者：张鹏远张一珂潘接林颜永红 100190 北京市海淀区北四环西路21号

标准号: CN109427330A

关键词：语音统计语言模型文法语言模型语音识别多尺度阶数解码统计得分计算解码结果声学模型语言模型规整容错性正确率改进

来源：评论

学校读者我要写书评

暂无评论

基于统计语言模型算法的智能信息评估和营销系统

基于统计语言模型算法的智能信息评估和营销系统

引用

作者：吴俊哲吴剑东 213022 江苏省常州市新北区太湖东路9-1号1703室

本发明公开了一种基于统计语言模型算法的智能信息评估和营销系统，其技术方案要点是包括统计语言模型、双向匹配分词算法、统计语言模型算法与双向匹配分词算法协同工作、提取关键词和内部评估这一系列步骤，本发明的优点在于可以代替... 详细信息

标准号: CN110347903A

本发明公开了一种基于统计语言模型算法的智能信息评估和营销系统，其技术方案要点是包括统计语言模型、双向匹配分词算法、统计语言模型算法与双向匹配分词算法协同工作、提取关键词和内部评估这一系列步骤，本发明的优点在于可以代替人工对信息进行搜索引擎优化，节省大量人力劳动，从而节省人力成本，相对人力更高效的处理速度和处理效率，可以处理海量规模的网络文本数据且处理结果更加精确，有助于提高评估结果的准确度，提高后续营销的导向性。

关键词：算法统计语言模型分词匹配技术方案要点搜索引擎优化网络文本数据准确度处理效率评估结果人力成本营销系统智能信息导向性评估协同营销劳动

来源：评论

学校读者我要写书评

暂无评论

基于统计语言模型和程序静态分析的代码帮助技术研究

基于统计语言模型和程序静态分析的代码帮助技术研究

引用

作者：姜加明武汉大学

学位级别：硕士

由于软件系统规模越来越大,因此开发者往往采用成熟的框架、软件库来进行开发,以提高软件开发的效率和质量。然而,即使是有经验的程序员要想学习并记住不断增长的、大量的API也是很困难的。研究者提出了许多新技术应用于代码帮助系统来... 详细信息

由于软件系统规模越来越大,因此开发者往往采用成熟的框架、软件库来进行开发,以提高软件开发的效率和质量。然而,即使是有经验的程序员要想学习并记住不断增长的、大量的API也是很困难的。研究者提出了许多新技术应用于代码帮助系统来帮助开发者熟悉和使用这些API。但是,目前许多主流代码帮助系统都存在一定缺陷。比如,一部分研究者认为大多数的软件是“自然”的,并用自然语言处理中的方法进行API元素的推荐。自然语言处理模型具有高效的特点,但是该方法无法利用代码中的结构化信息。为了利用结构化信息,另一部分研究者提出了一种基于图模型的方法。基于图模型的方法准确度高,但是图的存储占据较大空间,且由于需要进行图匹配,该方法的时间效率低。为了结合自然语言处理模型和基于图模型方法的优势,本文考虑将程序的结构信息转化为序列。由于程序的控制流图中记录了程序的部分结构信息,通过提取控制流图中局部结构里全部的API方法调用序列,可以将程序控制流图中的局部结构信息(如分支、循环等)以序列的形式表示出来。然后,就可以将方法调用序列类比于自然语言处理中的语句,利用统计语言模型进行训练、预测。基于以上分析,本文提出了基于程序控制流图的N元模型,即Pro-N-gram模型,并实现了 Eclipse插件,将模型应用于代码帮助中。首先,提出了一种利用程序控制流图生成基于程序的N元API方法序列(即Pro-N-gram)的技术。通过分情况分析控制语句结构构建了语句级控制流图,并利用解析复杂调用来根据语句级控制流图生成方法级控制流图,然后利用PPA(Partial Program Analysis)工具解析方法的全限定名并替换控制流图中的节点内容。接着,通过在控制流图中进行广度优先遍历查找所有基于方法的N元序列Pro-N-gram,并进行计数统计。最后,针对控制流图和自然语言的差异,我们采取重计算保证Pro-N-gram模型与自然语言模型的一致性,并提出多上下文的情况下预测空缺方法的Pro-N-gram代码帮助模型。本文的主要创新性及贡献点在于:(一)使用PPA解析方法全限定名,从而消除了不同类中存在同名方法带来的方法名歧义,同时防止了方法名词典过大。(二)提出一种静态分析方法,用于生成方法级控制流图。并利用广度优先遍历提取基于API方法的N元序列,这些序列记录了所有可能的方法执行顺序,并能编码控制流图中的局部结构信息。(三)将语言模型与程序控制流图结合。利用上述构造的基于方法的N元序列,并结合N-gram语言模型,提出可以根据多上下文预测空缺方法的Pro-N-gram代码帮助模型。

关键词：代码帮助 API元素推荐统计语言模型程序静态分析控制流图 Pro-N-gram

来源：评论

学校读者我要写书评

暂无评论

利用统计语言模型对GenoCAD设计结果进行优化

引用

统计与信息论坛 2016年第8期31卷 20-25页

作者：方刚张社民西安文理学院生物与环境工程学院陕西西安710065 陕西理工大学管理学院陕西汉中723001

GenoCAD(***)是一种基于Web的免费合成生物学设计软件,使用它可以进行表达载体及人工基因网络设计。不断地点击代表各种合成生物学标准"零件"的图标,以一种语法进行设计,最后就可以得到由数十个功能片段组成的复杂质粒载体。... 详细信息

GenoCAD(***)是一种基于Web的免费合成生物学设计软件,使用它可以进行表达载体及人工基因网络设计。不断地点击代表各种合成生物学标准"零件"的图标,以一种语法进行设计,最后就可以得到由数十个功能片段组成的复杂质粒载体。但是一般来讲在GenoCAD中,每一类的合成生物学标准"零件"数量众多。随着这些标准"零件"的不断开发,其数量也在进一步增加,目前选择合适的"零件"组装成功能性的质粒载体费时费力并且容易发生错误。在进行载体设计的最后阶段,从众多的"零件"中选择合适的往往比较困难。为解决这一问题,采用自然语言处理的统计语言模型,并以该模型为基础应用动态规划算法优化质粒载体设计,从众多的选项中找出最优者。利用这一方法可以减少进行生物学实验的冗余操作,从而减少载体构建过程中的花费。

关键词：合成生物学统计语言模型动态规划算法 GenoCAD

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：