由工业设备产生、采集和处理的数据大多是时间序列、空间序列、高维矩阵等非结构化数据.目前单机分析环境如R、Matlab等提供了优质丰富的算法库,但随着数据生成速度和规模的不断升级,上述工具在处理大规模序列和矩阵运算时呈现低效甚至失效的现象.针对可处理数据规模和算法可移植性问题,本文设计了一种大规模时间序列分析框架LTSAF(Large-scale Time Series Analysis Framework).基于分治原理,该框架创新地提出近似解方案,在无法有效获得精确解的情况下采用数据并行的计算方式求取近似解.建立了时空代价优化模型,求解得到序列的最优分段长度,以达到计算结果的有效性与计算开销的均衡.在Spark平台下实现了序列分析原型系统,采用跨语言、跨平台的方式集成了第三方算法库.实验结果表明,该系统在保证分析结果正确性的基础上,序列分析的处理速度和规模呈线性增长.同时,该系统易于集成与扩展,使数据分析人员免于算法重复开发,聚焦于分析任务本身.
互联网逐步融入人们日常生活的各个领域,基于URL的窃取用户信息及互联网金融账户等恶意URL开始成为了一大安全隐患,已有的传统基于黑名单的恶意URL的检测方法,不能解决海量网络流数据中恶意URL的检测问题,使用离线机器学习的检测恶意URL方式的时效性不强,不能很好地及时对恶意URL进行检测.本文采用在线学习算法训练恶意URL检测模型,充分利用了在线学习算法的模型更新效率高、以及可以利用有限的计算机资源实现对无界数据处理的特点,结合流式计算框架实现了对恶意URL的近实时检测系统的设计.本文通过对恶意URL的特征提取,并通过流式计算框架,实现了对URL数据的近实时收集,并通过在线学习算法自适应权重调整算法(Adaptive Regularzaton of Weights),实现了对恶意URL的检测.本文给出了大规模恶意URL近实时检测系统的架构,以及检测流程的介绍,并通过检索引擎Elasticsearch实现了海量网络流数据的检索分析.最后通过实际验证,表明该系统可以有效地实现对海量恶意URL近实时的检测,对于海量网络流数据中恶意URL的近实时检测,以及及时对检测出的恶意URL进行控制,在安全研究方面具有较大的应用意义.
网络表示学习目的是学习网络节点的低维空间向量表示,以降低大规模或复杂网络存储、计算成本.文本信息网络,即节点包含丰富文本信息的网络,是日常生活中常见的网络形式.文本信息网络现有研究多基于网络自身信息建模.分布式词向量在自然语言处理任务中日渐普及,词向量作为语义特征空间的低维表示,能够在一定程度上衡量两个词之间的语义近似.将由外部任务无关语料预训练得到的词向量引入目标网络建模过程,可以利用外部语料语义约束丰富目标网络文本语义,因此本文提出基于外部词向量的网络表示模型NE-EWV(Network Embedding based on External Word Vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示.通过实验,在现实网络数据集中对模型有效性进行了验证.结果表明,在链接预测任务中的AUC指标,相比只考虑结构特征的模型提升7%到19%,相比考虑结构与文本特征的模型在大部分情况下有1%到12%提升;在节点分类任务中,与基线方法中性能最好的CANE性能相当.证明引入外部词向量作为外部知识能够有效提升网络表示能力.
暂无评论