检索结果-内蒙古大学图书馆

第六届中国计算机学会大数据学术会议

作者：屠守中杨婧赵林朱小燕清华大学计算机科学与技术系北京 100084 中国科学院计算技术研究所网络数据科学与技术重点实验室北京 100190 中国科学院信息工程研究所信息安全国家重点实验室北京 100093

社交网络中存在大量营销、招聘等垃圾信息以及无实质内容的短文,为话题建模工作带来很多干扰,更严重影响社交网络方面的学术研究及商业应用.因此,本文提出一种基于SVM-kNN模型的半监督话题噪声过滤方法.该方法融合了支持向量机(Support ... 详细信息

社交网络中存在大量营销、招聘等垃圾信息以及无实质内容的短文,为话题建模工作带来很多干扰,更严重影响社交网络方面的学术研究及商业应用.因此,本文提出一种基于SVM-kNN模型的半监督话题噪声过滤方法.该方法融合了支持向量机(Support Vector Machines,SVM)和k近邻(k-Nearest Neighbor,k-NN)算法,在SVM计算得到超平面的基础上使用kNN算法在局部范围内迭代寻找分类超平面的最优解;同时为减少误分类发生,分别在SVM和kNN阶段引入惩罚代价和比例权重,以提高噪声过滤的效果.通过选取新浪微博中不同大小的数据集进行实验,结果与其它方法相比表明,本文提出的方法只利用了少量的标注样本进行训练,在准确率、召回率和F值方面均优于其他的对比方法.

关键词：微博话题噪声过滤支持向量机 k近邻算法

来源：评论

学校读者我要写书评

暂无评论

基于特征驱动的微博话题检测方法

引用

中文信息学报 2017年第3期31卷 101-108,124页

作者：贺敏刘玮刘悦王丽宏白硕程学旗中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室北京100190 国家计算机网络应急技术处理协调中心北京100029

该文针对微博数据稀疏、内容关系难以计算的特点,提出了一种基于特征驱动的微博话题检测方法。提取有意义串作为微博动态特征,根据微博的结构关系计算特征的作者影响力和文档影响力,与内容统计特性共同构成特征的属性组,采用逻辑回归对... 详细信息

该文针对微博数据稀疏、内容关系难以计算的特点,提出了一种基于特征驱动的微博话题检测方法。提取有意义串作为微博动态特征,根据微博的结构关系计算特征的作者影响力和文档影响力,与内容统计特性共同构成特征的属性组,采用逻辑回归对特征建模,基于属性组对特征二元分类得到话题关键特征,将关键特征之间的互信息作为距离度量,改进最近邻聚类方法对关键特征聚类产生话题。微博数据实验表明,该方法有效提高了微博话题检测的准确率和召回率。

关键词：话题检测微博关键特征逻辑回归聚类

来源：评论

学校读者我要写书评

暂无评论

数字贸易基于区块链的大宗散货仓单系统建设指南

数字贸易基于区块链的大宗散货仓单系统建设指南

引用

来源：评论

学校读者我要写书评

暂无评论

融合马尔可夫聚类的实体间关系消解方法

引用

计算机科学与探索 2017年第4期11卷 511-519页

作者：常雨骁庞琳贾岩涛林海伦王元卓刘悦刘春阳中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190 中国科学院大学北京100049 国家计算机网络应急技术处理协调中心北京100029

随着面向网络大数据的知识库的不断出现,它们各自都包含海量的实体以及实体间的关系。然而许多有相同含义的关系并没有统一名称,针对这种情况,提出了一种基于马尔可夫聚类(Markov cluster algorithm,MCL)的实体间关系融合方法。该方法... 详细信息

随着面向网络大数据的知识库的不断出现,它们各自都包含海量的实体以及实体间的关系。然而许多有相同含义的关系并没有统一名称,针对这种情况,提出了一种基于马尔可夫聚类(Markov cluster algorithm,MCL)的实体间关系融合方法。该方法首先计算关系间的语义相似度,然后利用关系间的语义相似度作为有边的权重,构建无向图,并利用马尔可夫聚类算法进行聚类。实验表明,该方法相比层次聚类和k-means聚类方法在聚类纯度上有一定提高,并且更加方便使用。

关键词：马尔可夫聚类知识库实体间关系

来源：评论

学校读者我要写书评

暂无评论

社交网络用户在在线媒体中点播行为预测

引用

中文信息学报 2017年第4期31卷 199-207页

作者：刘强李静远王元卓刘悦任彦中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190 中国科学院大学北京100049 国家计算机网络应急技术处理协调中心北京100029

在线媒体快速发展,为用户带来丰富多彩信息的同时,用户的参与也给在线媒体本身带来巨大的经济利益。因此,如何通过精确预测用户的偏好以增加在线媒体点击,成为一个学术界和工业界均关注的问题。现有的预测方法主要是借助用户个人信息和... 详细信息

在线媒体快速发展,为用户带来丰富多彩信息的同时,用户的参与也给在线媒体本身带来巨大的经济利益。因此,如何通过精确预测用户的偏好以增加在线媒体点击,成为一个学术界和工业界均关注的问题。现有的预测方法主要是借助用户个人信息和历史行为来预测用户行为,然而此类方法没有考虑媒体本身缺乏用户信息造成无法预测的问题。随着社交网络的发展,在线媒体与服务运营商间的兼并或合作的增多,支持用户通过单一账户使用多个媒体网络服务的情况越来越常见,这就为基于用户在社交网络中的资料预测用户在其他媒体中的喜好提供海量可信的基础数据。该文基于社交网络Google+和视频媒体YouTube的数据,首先证明用户在YouTube偏好具有高度的集聚性,并提出用户在社交网络中偏好与其在线媒体点击行为具有关联性,基于这种关联性,该文使用社交网络用户信息预测用户在在线媒体中的点播行为。实验结果显示,使用社交网络用户信息可以有效预测用户偏好,预测准确率比仅使用媒体本身信息提高了17%,而且能满足用户个性化需求。

关键词：社交网络在线媒体用户偏好预测

来源：评论

学校读者我要写书评

暂无评论

一种社会网络用户身份特征识别方法

引用

计算机研究与发展 2016年第11期53卷 2630-2644页

作者：胡开先梁英许洪波毕晓迪左遥中国科学院网络数据科学与技术重点实验室(中国科学院计算技术研究所) 北京100190 中国科学院大学北京100049

社会网络是现代信息社会重要的组成部分.社会网络用户身份不透明、不可见的特性带来一系列社会安全问题.提出了一种社会网络身份特征识别方法,分别利用基于位置的社会网络和社交关系进行社会网络用户的身份特征识别,融合2种识别结果推... 详细信息

社会网络是现代信息社会重要的组成部分.社会网络用户身份不透明、不可见的特性带来一系列社会安全问题.提出了一种社会网络身份特征识别方法,分别利用基于位置的社会网络和社交关系进行社会网络用户的身份特征识别,融合2种识别结果推测社会网络用户真实身份.提出了一种基于位置的社会网络用户身份识别方法,通过计算中文分词和二元组分词的基本匹配权重和完全匹配权重得到近似度权重,并用它衡量实体为用户所属实体的可能性;通过实体名称聚合算法,对近似度权重计算结果进行优化.根据好友之间倾向于拥有相似的身份特征和相同的兴趣爱好的观察,提出了一种基于社交关系的多数投票的身份识别方法,对社交关系中的用户身份特征进行统计,推测当前用户的地址信息、实体信息和用户兴趣.基于微博数据,进行了样本数为1 000名用户和10 000名用户的2组实验,涵盖了超过250万条社交关系.实验结果表明,提出的虚实映射方法有很高的准确率和覆盖率,与现有方法相比,该方法着眼于推测个人用户细粒度的身份特征,具有较高的实际应用价值.

关键词：身份识别用户身份特征基于位置的社会网络社交关系去匿名化

来源：评论

学校读者我要写书评

暂无评论

CCF大专委2018年大数据发展趋势预测

引用

大数据 2018年第1期4卷 77-84页

作者：周涛卞超轶潘柱廷查礼程学旗北京启明星辰信息安全技术有限公司北京启明星辰信息安全技术有限公司核心研究院北京永信至诚科技股份有限公司中国计算机学会(CCF) 中国网络安全协会人才培养教育工作委员会中国互联网协会云安全联盟(CSA)中国区中国科学院计算技术研究所大数据分析系统国家工程实验室中国科学院网络数据科学与技术重点实验室中国计算机学会大数据专家委员会

1引言在2017年中国大数据技术大会(BDTC)开幕式上,中国计算机学会(CCF)大数据专家委员会(以下简称大专委)如期发布了2018年大数据十大发展趋势预测,引发了业界的广泛关注和持续传播。本次大数据发展趋势预测经历了候选项征集和正式投票... 详细信息

1引言在2017年中国大数据技术大会(BDTC)开幕式上,中国计算机学会(CCF)大数据专家委员会(以下简称大专委)如期发布了2018年大数据十大发展趋势预测,引发了业界的广泛关注和持续传播。本次大数据发展趋势预测经历了候选项征集和正式投票两个环节。在候选项征集环节,补充了若干体现大数据领域最新进展的候选项,并调整和删除了一些过时选项,最终形成的预测选项包括67项发展

关键词：视频数据人工智能知识图谱语音数据大数据候选项发展趋势预测 CCF

来源：评论

学校读者我要写书评

暂无评论

基于非局部相似块低秩的压缩感知图像重建算法

引用

电子学报 2017年第3期45卷 695-703页

作者：宋云李雪玉沈燕飞杨高波长沙理工大学综合交通运输大数据智能处理湖南省重点实验室湖南长沙410114 长沙理工大学计算机与通信工程学院湖南长沙410114 湖南大学信息科学与工程学院湖南长沙410012 中国科学院计算技术研究所北京100190

传统的压缩感知重建算法利用信号在某个特征空间下的稀疏性构建目标优化函数,但没有充分考虑信号的局部特性和结构化属性,影响了算法的重建性能和算法的适应性.本文考虑图像的非局部自相似性(Nonlocal Self-Similarity,NLSS),提出一种... 详细信息

传统的压缩感知重建算法利用信号在某个特征空间下的稀疏性构建目标优化函数,但没有充分考虑信号的局部特性和结构化属性,影响了算法的重建性能和算法的适应性.本文考虑图像的非局部自相似性(Nonlocal Self-Similarity,NLSS),提出一种基于图像相似块低秩的压缩感知图像重建算法,将图像恢复问题转化为聚合的相似块矩阵秩最小问题.算法以最小压缩感知重建误差为约束构建优化模型,并采用加权核范数最小化算法(Weighed Nuclear Norm Minimization,WNNM)求解低秩优化问题,很好地挖掘了图像自身的信息和结构化稀疏特征,保护了图像的结构和纹理细节.多个测试图像、不同采样率下的实验证明了算法的有效性,特别是在低采率下对于纹理较为丰富的图像,提出的算法图像重建质量较明显的优于最新的同类算法.

关键词：压缩感知图像重建非局部自相似低秩优化

来源：评论

学校读者我要写书评

暂无评论

面向固态硬盘的Spark数据持久化方法设计

引用

计算机研究与发展 2017年第6期54卷 1381-1390页

作者：陆克中朱金彬李正民隋秀峰深圳大学计算机与软件学院广东深圳518060 广东工业大学计算机学院广州511400 计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190 国家计算机网络应急技术处理协调中心北京100029 中国工程院战略咨询中心北京100088

基于固态硬盘(solid-state drive,SSD)和硬盘(hard disk drive,HDD)混合存储的数据中心已经成为大数据计算领域的高性能载体,数据中心负载应该可将不同特性的数据按需持久化到SSD或HDD,以提升系统整体性能.Spark是目前产业界广泛使用的... 详细信息

基于固态硬盘(solid-state drive,SSD)和硬盘(hard disk drive,HDD)混合存储的数据中心已经成为大数据计算领域的高性能载体,数据中心负载应该可将不同特性的数据按需持久化到SSD或HDD,以提升系统整体性能.Spark是目前产业界广泛使用的高效大数据计算框架,尤其适用于多次迭代计算的应用领域,其原因在于Spark可以将中间数据持久化在内存或硬盘中,且持久化数据到硬盘打破了内存容量不足对数据集规模的限制.然而,当前的Spark实现并未专门提供显式的面向SSD的持久化接口,尽管可根据配置信息将数据按比例分布到不同的存储介质中,但是用户无法根据数据特征按需指定RDD的持久化存储介质,针对性和灵活性不足.这不仅成为进一步提升Spark性能的瓶颈,而且严重影响了混合存储系统性能的发挥.有鉴于此,首次提出面向SSD的数据持久化策略.探索了Spark数据持久化原理,基于混合存储系统优化了Spark的持久化架构,最终通过提供特定的持久化API实现用户可显式、灵活指定RDD的持久化介质.基于SparkBench的实验结果表明,经本方案优化后的Spark与原生版本相比,其性能平均提升14.02%.

关键词：大数据混合存储固态硬盘 Spark 持久化

来源：评论

学校读者我要写书评

暂无评论

SparkCRF：一种基于Spark的并行CRFs算法实现

引用

计算机研究与发展 2016年第8期53卷 1819-1828页

作者：朱继召贾岩涛徐君乔建忠王元卓程学旗东北大学计算机科学与工程学院沈阳110819 中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190

条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本... 详细信息

条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率.

关键词：大数据机器学习分布式计算 Spark 条件随机场

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：