声纹识别,是根据声纹特征识别说话人身份的一种生物识别技术。与人脸识别、指纹识别、虹膜识别相比,声纹识别的数据获取更加便捷,不受时间地域的限制,数据采集成本更低,公众对声音采集的抵抗力较弱,已经在安防、刑侦、金融等多个领域被使用。而声纹识别算法的关键是描述特定对象的声纹特征,好的特征既要最大化保留说话人的语音特性,又要对噪音、语速、音量、说话内容等有较好的鲁棒性。针对语音数据较少、文本不相关情况下的声纹识别,本研究采用频繁序列挖掘技术对声音的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)组成的序列进行挖掘,将挖掘到的频繁序列作为说话人的语音特征,再使用PLDA判别方法,结果显示该模型对语音数据较少的情况识别效果良好。
基于动态API序列挖掘的恶意代码检测方法未考虑不同类别恶意代码之间的行为差别,导致代表恶意行为的恶意序列挖掘效果不佳,其恶意代码检测效率较低.本文引入面向目标的关联挖掘技术,提出一种最长频繁序列挖掘算法,挖掘最长频繁序列作为特征用于恶意代码检测.首先,该方法提取样本文件的动态API序列并进行预处理;然后,使用最长频繁序列挖掘算法挖掘多个类别的最长频繁序列集合;最后,使用挖掘的最长频繁序列集合构造词袋模型,根据该词袋模型将样本文件的动态API序列转化为向量,使用随机森林算法构造分类器检测恶意代码.本文采用阿里云提供的数据集进行实验,恶意代码检测的准确率和AUC(Area Under Curve)值分别达到了95.6%和0.99,结果表明,本文所提出的方法能有效地检测恶意代码.
暂无评论