检索结果-内蒙古大学图书馆

计算机科学与探索 2019年第1期13卷 158-168页

作者：马忱姜高霞王文剑山西大学计算机与信息技术学院太原030006 山西大学计算智能与中文信息处理教育部重点实验室太原030006

函数型数据将观测到的数据作为一个整体,关注数据自身的内在结构而不只是数据的呈现形式,相较于传统的数据包含了更多的信息,因此对函数型数据的分析和研究具有重要的价值。在函数型数据分析中,特征选择也是一个需要解决的问题。提出了... 详细信息

函数型数据将观测到的数据作为一个整体,关注数据自身的内在结构而不只是数据的呈现形式,相较于传统的数据包含了更多的信息,因此对函数型数据的分析和研究具有重要的价值。在函数型数据分析中,特征选择也是一个需要解决的问题。提出了一种面向函数型数据的动态互信息(dynamic mutual information,DMI)特征选择方法,充分考虑数据的内在特征,运用互信息将特征进行排序和动态选择,不仅可以获得稳定的特征子集,而且充分考虑了样本在特征选择中的作用,较好地避免了信息的冗余。进一步提出了一种动态条件互信息(dynamic conditional mutual information,DCMI)特征选择方法,在动态特征选择的过程中,考虑到已选特征会对后续的特征选择产生影响,引入条件互信息,将已选特征对待选特征的影响进行量化表示,更恰当地描述特征与特征集合之间的关系。在UCR数据集上的实验结果表明,DMI方法和DCMI方法进行特征选择得到的特征子集规模小且分类精度高。

关键词：函数型数据特征选择互信息动态互信息动态条件互信息

来源：评论

学校读者我要写书评

暂无评论

空间相关性分析的符号数据分类方法

引用

计算机科学与探索 2019年第7期13卷 1165-1173页

作者：付康安王文剑郭虎升山西大学计算机与信息技术学院太原030006 山西大学计算智能与中文信息处理教育部重点实验室太原030006

针对目前符号数据的分类性能较低,通过挖掘属性值与标签之间可能存在的空间结构关系,提出了一种基于空间相关性分析的符号数据分类方法。该方法首先采用独热编码的方式对符号数据进行特征扩容,然后基于互信息和条件熵信息度量方法,定义... 详细信息

针对目前符号数据的分类性能较低,通过挖掘属性值与标签之间可能存在的空间结构关系,提出了一种基于空间相关性分析的符号数据分类方法。该方法首先采用独热编码的方式对符号数据进行特征扩容,然后基于互信息和条件熵信息度量方法,定义了一种符号数据空间关系表示方法。在此基础上,分别结合支持向量机(support vector machine,SVM)和K-最近邻(K-nearest neighbor,KNN)模型分类器,提出了基于空间相关性分析的SVM分类算法(SVM classification algorithm based on space correlation analysis,SCA_SVM)和基于空间相关性分析的KNN分类算法(KNN classification algorithm based on space correlation analysis,SCA_KNN)两种分类算法。该方法既能够体现出属性值与标签之间的关联关系,也可以有效地度量不同属性值之间的距离或差异性。在标准UCI数据集上的实验结果表明,该方法在分类性能上更加有效。

关键词：符号数据分类空间相关性分析支持向量机(SVM) K-最近邻(KNN)

来源：评论

学校读者我要写书评

暂无评论

基于分层学习的易混淆法条预测

引用

计算机工程与设计 2020年第1期41卷 278-282页

作者：程豪张虎崔军赵红燕谭红叶李茹山西大学计算机与信息技术学院山西太原030006 山西大学计算智能与中文信息处理教育部重点实验室山西太原030006 太原科技大学计算机科学与技术学院山西太原030024

目前针对法条预测的相关研究大都采用文本分类的思想,但模型构建过程都未考虑不同法条之间的从属关系或相似程度,因此对于易混淆法条预测效果普遍较差。针对现有方法在易混淆法条预测中存在的不足,提出基于分层学习的易混淆法条预测方... 详细信息

目前针对法条预测的相关研究大都采用文本分类的思想,但模型构建过程都未考虑不同法条之间的从属关系或相似程度,因此对于易混淆法条预测效果普遍较差。针对现有方法在易混淆法条预测中存在的不足,提出基于分层学习的易混淆法条预测方法。将法条分为易区分法条和易混淆法条,按法条内容将易混淆法条组合为不同易混淆法条集并分别训练易混淆法条集预测模型,运用分层学习完成易混淆法条预测。在刑事案件的数据上进行实验,实验结果表明,该模型能较好解决易混淆法条预测问题,提高法条预测准确率。

关键词：司法智能法条预测易混淆法条分层学习文本分类

来源：评论

学校读者我要写书评

暂无评论

基于混合采样的非平衡数据分类算法

引用

计算机科学与探索 2019年第2期13卷 342-349页

作者：吴艺凡梁吉业王俊红山西大学计算机与信息技术学院太原030006 山西大学计算智能与中文信息处理教育部重点实验室太原030006

过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector mac... 详细信息

过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。

关键词：非平衡支持向量机(SVM) 少数类样本过采样技术(SMOTE) 分类超平面混合采样

来源：评论

学校读者我要写书评

暂无评论

一种基于分层抽样的大数据快速聚类算法

引用

计算机应用与软件 2020年第10期37卷 256-261,277页

作者：李顺勇张钰嘉彭晓庆曹付元刘恩乾山西大学数学科学学院山西太原030006 山西大学计算机与信息技术学院山西太原030006 计算智能与中文信息处理教育部重点实验室山西太原030006

针对K-means算法处理大规模数据时算法迭代时间较长的问题,提出一种基于分层抽样的大数据快速聚类算法(A Large Data Fast Clustering Algorithm Based on Stratified Sampling,FCASS)。提出一种分层方法,可以快速将原始数据集进行分层... 详细信息

针对K-means算法处理大规模数据时算法迭代时间较长的问题,提出一种基于分层抽样的大数据快速聚类算法(A Large Data Fast Clustering Algorithm Based on Stratified Sampling,FCASS)。提出一种分层方法,可以快速将原始数据集进行分层,使得层内数据相似度较大,层间数据相似度较小;引入抽样时间函数,并求得各层样本量的最优分配方案;用K-means算法对样本集进行聚类,得到最终结果。在4个UCI数据集以及8个人工数据集上进行实验,结果表明,FCASS算法具有较高的聚类精度,并且在大规模数据集上运行速度较快。

关键词： K-means 分层抽样抽样时间聚类精度运行速度

来源：评论

学校读者我要写书评

暂无评论

基于信息传播影响因素的边重要性度量方法

引用

计算机工程与科学 2020年第1期42卷 55-63页

作者：徐曼鲁富荣马国帅钱宇华山西大学大数据科学与产业研究院山西太原030006 计算智能与中文信息处理教育部重点实验室(山西大学) 山西太原030006 山西大学计算机与信息技术学院山西太原030006

在信息传播中,边的重要性度量是一个非常重要的研究问题。边是信息传播的载体,不同位置的边具有不同的信息负载和传播能力。移除一些对传播有重要影响的边对遏制谣言的传播和公共信息的传播最大化等有重要意义。信息的传播易受传播者、... 详细信息

在信息传播中,边的重要性度量是一个非常重要的研究问题。边是信息传播的载体,不同位置的边具有不同的信息负载和传播能力。移除一些对传播有重要影响的边对遏制谣言的传播和公共信息的传播最大化等有重要意义。信息的传播易受传播者、受传者、传播渠道和传播环境等影响。基于这些观察,通过综合考虑影响信息传播的多种因素,提出一种基于信息传播影响因素的边重要性度量方法ISM。在9个真实网络数据集上,ISM与4个经典的边重要性方法的Jaccard系数、桥度指数、介数中心性和可达性指数进行了比较。实验结果表明,该方法在网络连通性和扩散动态过程中,对于重要边的识别均优于其他常用方法。

关键词：复杂网络信息传播边的重要性网络连通

来源：评论

学校读者我要写书评

暂无评论

一种基于集成学习的科研合作者潜力预测分类方法

引用

计算机研究与发展 2019年第7期56卷 1383-1395页

作者：艾科马国帅杨凯凯钱宇华山西大学大数据科学与产业研究院太原030006 计算智能与中文信息处理教育部重点实验室(山西大学) 太原030006 山西大学计算机与信息技术学院太原030006

科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者文章大数据,经过特征分析... 详细信息

科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者文章大数据,经过特征分析和优化,综合考虑学者的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,以文章所发表的期刊会议等级作为合作者序列对的样本标签,表示当前合作者的潜力高低,利用集成方法的强学习特性,提出了基于集成学习分类方法的科研合作者潜力预测模型.分析并构造对应于科研合作者潜力预测问题的特征集后,采用分类方法解决这一问题.实验中准确率、召回率、F1分数都远高于传统机器学习方法,并能以较少的样本和时间收敛于较高值(80%以上),说明了模型的优越性.

关键词：科研合作潜力预测特征构造学术大数据集成学习

来源：评论

学校读者我要写书评

暂无评论

一种基于局部中心性的网络关键节点识别算法

引用

计算机研究与发展 2019年第9期56卷 1872-1880页

作者：郑文萍吴志康杨贵山西大学计算机与信息技术学院太原030006 计算智能与中文信息处理教育部重点实验室(山西大学) 太原030006 山西大学大数据科学与产业研究院太原030006

关键节点识别已经成为分析与理解复杂网络特性、结构、功能的有效方式.提出了一种基于节点中心性的关键节点识别算法框架(greedy algorithm for critical node problem, GCNP),根据某种中心性指标选择一个网络的初始点覆盖集;从网络中... 详细信息

关键节点识别已经成为分析与理解复杂网络特性、结构、功能的有效方式.提出了一种基于节点中心性的关键节点识别算法框架(greedy algorithm for critical node problem, GCNP),根据某种中心性指标选择一个网络的初始点覆盖集;从网络中删除该点覆盖集,迭代选择点覆盖集中使原网络连通节点对增加最小的节点向原网络回添,直至点覆盖集中节点满足用户给定的待删除关键节点数.为了更好地选择初始的节点覆盖集,提出了一种基于局部拓扑信息的节点中心性度量指标(local neighbor centrality, LNC).在16个人工网络和9个真实网络上的实验结果表明:与单独使用各中心性指标相比,采用GCNP算法框架可以提高算法性能.此外,所提的节点中心性度量指标LNC较度中心性(degree centrality, DC)、LocalRank中心性、K壳中心性(K-Shell, KS)、局部度和中心性(local degree sum centrality, LDS)能更准确地评估节点的重要性.

关键词：关键节点复杂网络网络连通性点覆盖集局部中心性

来源：评论

学校读者我要写书评

暂无评论

面向分类型矩阵数据的无监督孤立点检测算法

引用

深圳大学学报（理工版） 2019年第1期36卷 33-42页

作者：吴晓林曹付元山西大学计算机与信息技术学院山西太原030006 山西大学计算智能与中文信息处理教育部重点实验室山西太原030006

孤立点检测是数据挖掘的重要分支之一,旨在发现一个数据集中与多数对象行为明显不同的一些对象.针对分类型矩阵数据,通过给出一种矩阵对象自身的内聚度和该矩阵对象与其他矩阵对象之间的耦合度,定义了矩阵对象的孤立因子,提出一种面向... 详细信息

孤立点检测是数据挖掘的重要分支之一,旨在发现一个数据集中与多数对象行为明显不同的一些对象.针对分类型矩阵数据,通过给出一种矩阵对象自身的内聚度和该矩阵对象与其他矩阵对象之间的耦合度,定义了矩阵对象的孤立因子,提出一种面向分类型矩阵数据的孤立点检测算法.在Market basket、Microsoft web和MovieLens真实数据集上的实验结果表明,与基于共同近邻(common-neighbor-based,CNB)算法、局部异常因子(local outlier factor,LOF)算法和基于信息熵(information entropy-based,IE-based)的算法相比,本算法能有效检测分类型矩阵数据中的孤立点.

关键词：人工智能孤立点检测分类型矩阵数据耦合度内聚度数据挖掘

来源：评论

学校读者我要写书评

暂无评论

CNN图像标题生成

引用

西安电子科技大学学报 2019年第2期46卷 152-157页

作者：李勇成红红梁新彦郭倩钱宇华山西大学大数据科学与产业研究院山西太原030006 山西大学计算智能与中文信息处理教育部重点实验室山西太原030006 山西大学计算机与信息技术学院山西太原030006

图像标题生成任务需要生成一个有意义的句子来准确地描述该图像的内容,而现有研究通常采用卷积神经网络编码图像信息、循环神经网络来编码文本信息,由于循环神经网络的"串行特性",导致模型的性能低。为解决该问题,基于卷积神... 详细信息

图像标题生成任务需要生成一个有意义的句子来准确地描述该图像的内容,而现有研究通常采用卷积神经网络编码图像信息、循环神经网络来编码文本信息,由于循环神经网络的"串行特性",导致模型的性能低。为解决该问题,基于卷积神经网络来构建一种模型,采用不同结构的卷积神经网络来同时处理两个模态的数据,得益于卷积运算的"并行特性",该模型的运行效率有明显提升。在两个公开数据集上进行了实验,实验结果在指定的评价指标上也有一定的提升,表明了该模型对于处理图像标题生成任务的有效性。

关键词：多模态数据图像标题长短期记忆神经网络

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：