随着现代信息技术的发展,数据流作为一种新型的、更切合实际的数据模型广泛出现在众多应用领域,各种应用已提出了数据流实时处理需求。由于数据流中的数据经常呈现高维性,其中包含的大量冗余特征会极大地影响机器学习和数据挖掘算法的效率。降维算法作为高维数据预处理的重要方式之一,可以有效地消除冗余特征,改善挖掘算法的效率和性能。但是传统的降维算法已无法满足数据流的实时性处理要求,因此针对数据流的特点,采用合适的数据结构,研究有效的数据流降维算法,已成为目前数据流管理研究的一个热点。为此,本文针对数据流的特点,分别研究了适用于数据流的线性降维算法和非线性降维算法。首先,本文深入研究了经典线性降维算法PCA,分析了其在处理的数据类型及时间效率等方面的不足,结合数据流的实时性、无限性等特点,提出了一种基于主成分分析的数据流降维算法(Data stream dimensionality reduction algorithm based on principal component analysis),简称SPCA,此算法利用滑动窗口和概要结构适应动态数据流变化,不仅能有效地消除数据流中的冗余特征以实现降维,而且可以有效地处理混合属性的数据。其次,本文基于所设计的SPCA算法,进一步改进了主成分分析的相关系数矩阵计算公式,并将改进的相关系数矩阵的计算过程和线性投影阶段进行分布式并行,设计了分布式并行化的数据流降维算法DPSPCA(Distributed Parallel SPCA),并将DPSPCA算法部署到分布式流平台Storm上进行实现和测试,性能测试实验结果表明,DPSPCA能有效提高数据流降维的效率和速度。最后,为了满足数据流的多样性,弥补SPCA算法只能处理线性数据的不足,本文设计了基于核主成分分析(KPCA)的数据流非线性降维算法(Data stream dimensionality reduction algorithm based on kernel principal component analysis),简称SKPCA。同样针对数据流的特性,对核主成分分析算法做了适当改进,通过设定阈值来判定动态数据流流量,针对不同的流量选择不同的方法计算核矩阵,然后再进行核主成分分析。综上所述,本文对数据流降维算法的研究具有一定的理论性和较高的实用价值。所设计的算法不仅能降低数据属性的维数、减小空间需求、提高处理效率,而且具有良好的性能,能提高后续数据挖掘的效率。借助数据流处理平台,算法效率可进一步提高。
为了解陕西省小麦、玉米耕地土壤肥力和施肥状况,利用测土配方施肥项目所获得的结果和农户调查数据,对陕西省小麦、玉米土壤肥力现状进行了评价,并在富平试验站研究了旱地土壤培肥措施。主要结论如下;1、以陕西省2005-2011年测土配方施肥数据为基础,采用农户抽样调查方法,对测土配方施肥项目30个县186415个土壤数据和1580个“3414”肥料试验数据进行分析。结果表明,陕西小麦耕地有机质、碱解氮、速效磷和速效钾的含量分别为14.3 g kg-1、69.0 mg kg-1、18.5 mg kg-1和148.4 mg kg-1;与上世纪80年代相比,分别提高了33.6%、40.8%、176.1%和6.8%,其中速效磷的提高幅度最大。从施肥对土壤养分平衡来看,21世纪初陕西省氮肥、磷肥和钾肥的投入量分别为183 kg hm-2、109.5 kg hm-2和21 kg hm-2;与上世纪80年代相比,分别提高了69.4%,160.7%和1300%。2、为了解陕西省玉米耕地土壤肥力和施肥状况,对2005-2009年玉米测土配方施肥项目75个县7 416个土壤数据和913个“3414”肥料试验数据以及23 942个农户抽样调查数据进行了分析。结果表明,陕西玉米土壤有机质、碱解氮、有效磷和速效钾含量分别为15.2 g kg-1、72.7 mg kg-1、19.7 mg kg-1和153.9 mg kg-1。其中,陕南秦巴山区土壤有机质和碱解氮含量最高;关中灌区有效磷和速效钾含量最高。21世纪初,陕西省玉米氮肥(纯N)、磷肥(P2O5)和钾肥(K2O)的投入量分别为225.00、63.00和19.65 kg hm-2,分别较20世纪80年代提高了114%、500%和1 300%。3、以渭北旱原两个旱地长期定位试验为基础,研究了旱地不同土壤培肥措施对小麦和玉米的产量、养分吸收和土壤肥力的影响。结果表明,施肥可以增加小麦和玉米的产量,其中NP+M处理的效果最好。合理施肥可以在一定程度上增加小麦和玉米籽粒的养分吸收量。NP+M小麦籽粒吸收N、P、K增加了52.42%、37.45%、37.02%,玉米增加了38.31%、10.18%和12.46%。施用有机肥能降低土壤容重,增加土壤有机质含量。有机肥的培肥作用显著,NP+M处理小麦0~10cm土层土壤速效氮、速效磷和速效钾分别增加19.30%、15.46%和7.34%;玉米分别增加了96.21%、40.22%和48.16%。4、在渭北旱原玉米和冬小麦旱地的基础上,研究秸秆覆盖、地膜覆盖、垄沟种植、垄作条件下秸秆地膜双覆盖、绿肥轮作和不覆盖下产量、养分吸收和土壤肥力的影响。结果表明,不覆盖条件下小麦和玉米的产量分别为4882.09 kg hm-2和7577.47 kg hm-2,秸秆覆盖分别增产11.98%和31.75%,地膜覆盖分别增产22.39%和3.05%,垄沟种植分别增加16.44%和0.95%,双覆盖分别增加26.49%和22.05%。秸秆覆盖显著降低小麦和玉米的土壤容重,降幅分别为5.65%和4.48%。秸秆覆盖小麦和玉米地有机质较不覆盖分别增加29.87%和7.45%。NP+双覆盖显著增加土壤硝铵态氮的含量,小麦地增幅为87.09%,玉米地为55.99%。地膜覆盖降低玉米地有机质和速效钾含量,分别比不覆盖降低0.07%和66.89%。5.通过主成分分析方法可将原8个土壤肥力指标降维、提取出3个主成分,其累计贡献率达到81%以上,可以从一定程度上反映土壤的肥力指标概况。其中第一主成分以有机质贡献最大。第二主成分以全钾贡献最大,第三主成分以硝铵态氮贡献最大。将3个主成分得分作为新指标进行聚类分析,可以将不同处理的土壤肥力分为三级,其中NP+秸秆还田土壤肥力最高,NP和CK的土壤肥力等级较低。由此可见,NP+秸秆还田是比较适宜的栽培模式。
暂无评论