WEB 文档聚类在新闻信息检索领域起到重要的作用。但由于新闻领域不断涌现出一些新的名词, 现有的技术在文档特征抽取和权重计算、类标签生成方面存在不足,导致聚类质量下降。本文提出一种基于网络词典的后缀树聚类算法,利用网络词典来...
详细信息
WEB 文档聚类在新闻信息检索领域起到重要的作用。但由于新闻领域不断涌现出一些新的名词, 现有的技术在文档特征抽取和权重计算、类标签生成方面存在不足,导致聚类质量下降。本文提出一种基于网络词典的后缀树聚类算法,利用网络词典来识别新的名词,排除干扰因素;在后缀树聚类计算聚类分数时利用网络词典设置词语权重,提高聚类质量;聚类结果描述利用网络词典确定聚类标签,标志聚类话题的基本类别。这种方法在新闻领域取得了很好的效果。
高速网络流量吞吐量大且复杂多变,对网络流量异常检测的准确性和及时性提出了挑战。本文提出了一种多时间尺度同步的异常检测算法 DA-MTS。该算法通过无抽取 Haar 小波变换对网络流量时间序列进行分解,获得不同时间尺度下的细节信号,去...
详细信息
高速网络流量吞吐量大且复杂多变,对网络流量异常检测的准确性和及时性提出了挑战。本文提出了一种多时间尺度同步的异常检测算法 DA-MTS。该算法通过无抽取 Haar 小波变换对网络流量时间序列进行分解,获得不同时间尺度下的细节信号,去冗余后的无抽取 Haar 小波变换细节信号为平稳随机序列且逼近高斯白噪声,根据正态分布的“3σ”法则可以判断细节信号中的异常情况。随着新数据的获取,该算法能够同时在多个时间尺度上以递推方式进行无延后的异常检测,不但提高了异常检测的准确性,而且保证了异常发现的及时性。分析和实验表明,该方法能够显著提高网络异常检测的性能。
暂无评论