信息产业高速发展的今天,数据已经成为各行各业的生产要素,海量数据的伴随着企业的生产和运营产生,总量增长迅猛。在生物实验中也出现了大量的新增实验数据,这些数据具有纬度高,相似性高,数据不平衡性等特点,传统方法难以应对。本文以桑黄数据为基础,在此基础上采用不平衡数据方法和数据挖掘方法对数据进行了分类处理和预测建模。通过对大量生物实验产生的数据进行分析,生物实验数据具有一定的不平衡性。本文采用KK-SMOTE(k-means and k-neighbors on SMOTE)的不均衡数据过采样方法对桑黄发酵数据进行了预处理。为桑黄发酵条件特征属性进行准确的数据挖掘提供了前提条件,并建立了基于逻辑回归和BP神经网络的桑黄产量分类模型,通过不同的实验条件参数来分析并预测该组实验条件是否为高产实验条件,为产量预测分析做准备。BP(Backpropagation Neural Network)神经网络是高效且简单的预测模型。本文根据桑黄发酵实验数据实验梯度小特性建立了LM算法的BP神经网络产量预测模型,并和传统的回归模型进行了对比。遗传算法(Genetic Algorithm)的模型机理是通过计算机来模拟自然界的自然选择过程和基因遗传学思想来进行计算。本文最后采用遗传算法进行桑黄产量模型的产量寻优,提出了与BP神经网络建模相结合的GA黄酮测方法。通过实验分析表明本文提出的面向桑黄发酵实验不平衡数据的处理方法可以有效地应用于桑黄发酵数据处理与分析。另外基于BP神经网络和遗传算法的产量预测算法可较好的模拟该条件下桑黄产黄酮产量,误差控制在80%以内。为生物实验设计和产量预测决策依据。此外本文提出的模型可以进行一定程度上的产量寻优,寻优产量较真实数据有所提升。
暂无评论