多元校正是化学中应用最为广泛的化学计量学方法之一,而偏最小二乘(PLS)则是应用最广且研究最多的多元校正算法,尤其在光谱多元校正中更受重视。近红外光谱(NIR)技术是偏最小二乘法应用最多的领域,本文以偏最小二乘法用于近红外光谱分析为例,讨论多元校正模型误差的相关问题。多元校正的目标就是建立y与X之间的定量关系模型,y=Xβ+e,实际上就是确定β。用PLS建立模型包括两个部分,第一部分为降维,将光谱X向V投影得到低维新变量Z,称为PLS因子,即Zp=Xm V,式中的下脚标表示维度,即从m维降到p维;第二部分用新变量代替原变量建立关系模型,即y=Zα+e。将两者合并有,y=Zα+e=XVα+e=Xβ+e,其中β=Vα。y=Xβ+e就是近红外光谱的多元校正模型,要建立这个模型必须确定p(这个过程就是交互检验)和计算β。典型的NIR光谱建模包括光谱处理、波长选择、交互检验、PLS建模、模型评价等几个步骤,为了顺利完成上述工作,通常把整个数据分为校正集、交互检验集和预测集。我们都期待所建立的模型具有优良的预测能力,即低预测误差,模型评价也非常看重预测误差,同时也关注校正误差和交互检验误差。多元校正模型的误差受多种因素影响,各种因素之间经常具有交互作用,这导致建立理想模型的复杂性。1、数据误差对模型的影响建模的原始数据y和X都含有测量误差,在建立模型时,这些误差会传递到模型(β)中。我们近期的研究发现,数据误差在第一个PLS因子中就已经引入到了模型(我们称之为噪声传递效应,NPE),而且因子数越多误差累积越严重。还发现,数据集样本数量、数据集合的划分、交互检验结果都会影响NPE,进而影响模型的预测精度。2、建模各步骤对模型的影响上述几个建模步骤都会影响模型的预测能力,而且这种影响是交互的。如不同的光谱处理方法,选择不同的波长都会导致不同的交互检验结果,使得模型的总误差不只包括光谱处理和波长选择本身引起的模型误差,它们引起交互检验结果改变又会进一步影响到模型总误差。所以,建模时每个步骤都应该仔细斟酌,尽可能地获得最合理的结果,免得误差累积到下面的步骤。3、数据集合划分对模型的影响对数据集合进行划分是为了更好地完成建模各步骤,通常划分为校正集、交互检验集和预测集。每个数据集大小的不同安排和不同的划分方法都可能产生不同的模型。数据集划分除了会影响模型的误差以外,它也可能影响光谱处理、波长选择和交互检验的结果。因此,合理的数据集划分也是非常重要的工作。多元校正是一个多因素影响的复杂过程,建立理想的模型确实不易。正如著名统计学家George Edward Pelham Box所说"Essentially, all models are wrong, but some are useful."。真正的模型可能真的不存在,我们要建立的应该是"合理的"、"理想的"、"能解决实际问题的"模型。
暂无评论