在函数型数据分析(Functional Data Analysis,FDA)领域中,函数型单指标模型(Functional Single Index Model,FSIM)是目前统计学术界研究者的讨论热点。在FDA中,函数型数据的高维特点使得研究者不断的优化统计分析方法,而单指标模型能够...
详细信息
在函数型数据分析(Functional Data Analysis,FDA)领域中,函数型单指标模型(Functional Single Index Model,FSIM)是目前统计学术界研究者的讨论热点。在FDA中,函数型数据的高维特点使得研究者不断的优化统计分析方法,而单指标模型能够降低数据的维数,这使得高维数据统计工作中的“维数灾难”难题得以避免,其在FDA中开始有着越来越多的理论研究和应用分析。另一方面,站在避免算法落地难的问题角度,我们着重研究了在日常生产生活中最为常见的具有随机缺失(Missing at Random,MAR)和时间序列特点的数据进行研究。在此基础之上,我们给出了模型估计量的一些理论成果,并通过一系列的重复模拟实验和实际案例分析验证了该方法的实用性和有效性。主要内容如下:(一)响应变量MAR下FSIM的回归估计针对时间序列数据,研究了响应变量MAR下的函数单指数回归模型(Function Single Index Regression Model,FSIRM)的估计问题。更准确地说,在一些一般性假设条件下,研究了FSIRM估计量的一致几乎完全收敛速度(Uniform Almost Complete Convergence Rate,UACCR)和渐近正态性(Asymptotic Normality,AN),并给出相关主要结论。此外,还对该模型估计算子的有限样本性能进行了模拟实验研究。最后,使用美国住宅和商业部门的实际月度用电量和海平面温度数据(SST)来说明方法的实用性。(二)响应变量MAR下FSIM的条件密度估计这一部分内容,在此前研究的基础上,重点研究了响应变量MAR下的FSIM条件密度的估计问题,得到了模型估计量的收敛速度。随后同样对该条密度估计的有限维下样本性能进行了模拟实验研究。最后,使用真实的海平面月温度数据来验证我们的方法的有效性。
使用正则化方法进行变量选择是统计分析的重要组成部分,Shao&Zhang(2014)首次提出了使用鞅差散度来度量响应变量与预测变量之间的条件均值独立并证明了该方法具备无模型的优良性质;Liu et al.(2019)提出了使用鞅差散度对单指标模型...
详细信息
使用正则化方法进行变量选择是统计分析的重要组成部分,Shao&Zhang(2014)首次提出了使用鞅差散度来度量响应变量与预测变量之间的条件均值独立并证明了该方法具备无模型的优良性质;Liu et al.(2019)提出了使用鞅差散度对单指标模型进行估计.本文在前人的基础上进一步扩展,展示了如何使用鞅差散度对单指标模型进行变量选择的正则化方法,同时证明了变量选择结果的oracle性质.较为全面的数值模拟以及真实数据分析进一步证明了该方法具有的优点.
近年来,半参数模型在微观经济与统计等领域具有广泛的应用。由已知研究可知,传统的参数模型(线性回归模型)虽然已经有了一套完整的理论体系,但是它无法刻画独立变量与协变量之间的潜在关系。而现实世界事物的运动规律往往是呈现非线性关系。将线性关系强行运用于非线性数据集中,这会出现模型误判等问题。另一方面,传统的非参数模型,虽说可以不依赖特定的回归模型,但是一旦数据维度过高,相关的估计方法容易遭受维数诅咒(curse of dimensionality)。为了弥补上述两种模型的不足,半参数模型应运而生。半参数模型不仅继承了参数模型中参数的可解释性,还拥有非参数模型的灵活性。本文是基于半参数模型中单指标模型(SIM)进行研究。Fri edman等人在研究投影追踪问题时首次提出单指标模型。通过单指标模型将多维解释变量通过线性变换投影至一维单指标变量上,从而降低了数据维度。单指标模型是一种重要的半参数模型,它是处理多元非参数回归问题的有力工具。由于它将一个多元向量转化为一个单指标参数,具有降维的作用,不仅回避了多元非参数回归中的维数诅咒(curse ofdimensionality),而且抓住了高维数据的重要特征。本文基于单指标模型,首次提出三次多项式单指标模型(CP-SIM)。该模型的灵感来源于魏尔施特拉斯逼近定理(Stone-Weierstrass theorem)。由于一般的单指标模型在估计参数部分β与非参数部分f(.)时,由于参数估计的最优收敛速度高于非参数最优收敛速度,部分采取通过充分性降维方法(SDR)获得β的估计值,再将其带回初始模型,通过核密度估计等方法获取f(.)。在估计f(.)过程中往往需要涉及调参环节,并且容易扩大估计误差。我们基于魏尔施特拉斯逼近定理中闭区间上的连续函数可用多项式级数一致逼近。想通过多项式逼近原理近似连接函数,在一定程度上避免了传统单指标模型在估计连接函数时产生的误差。本文主要讨论连接函数为三次多项式形式的单指标模型,未来研究可拓展成n次多项式情形。通过观察我们所提出的三次多项式单指标模型的模型结构,我们可知模型中除了涉及传统单指标模型的的参数β外,还包含三次多项式的系数。并且我们的参数β不仅存在于一次项中,在二次项,三次项均有出现,这也使得β的估计难度增加。为了简化我们的模型形式,我们通过变量替换,最终将我们的模型化成一个线性模型的矩阵形式。联想到传统线性模型估计参数的最小二乘估计方法,我们可将三次多项式系数向量α的估计值用含有参数β的最小二乘估计值表示。假定α已知的情况下,参数β的估计问题被我们转化为非线性约束的最优化问题。通过求解该问题,得到β的估计值。此处为了求解非线性约束的最优化问题,我们采取了基于K-T(Kuhn-Tucker)方程解的高效处理方法。整个步骤由MATLAB中“fmincon”实现。由此上述步骤我们便得到了三次多项式单指标模型中所含参数的估计值。基于三次多项式单指标模型,为了评价我们给出的相应参数估计方法具有一定的优越性与实用性。在文章第三部分,我们进行了数值模拟。该部分将我们所提出的估计方法与切片逆回归(slice inverse regression),切片平均方差估计(sliced average variance estimate),最小平均方差估计(minimum average(conditional)variance estimation),基于条件密度函数的最小方差估计(minimum average(conditional)variance estimation based on the conditional density functions),方向回归(directional regression)进行对比分析。除此之外我们还设置不同的样本大小及其参数维度进行双重对比分析。从三次多项式单指标模型中参数β的估计误差效果来看,即便随着样本量的增多,还是参数中涉及协变量个数的增加,我们所提出的方法都具有不同程度的领先。除此之外,我们还将我们所提出的方法应用于北美车辆数据以及波士顿房价数据的分析中。我们对两组数据进行了类似的处理步骤。第一步先将数据集分割成训练集和测试集。为了更好的解释,所有变量都各自标准化。基于训练集,我们使用在数值模拟中的六种方法获得对应的参数β估计值。根据Y和βTX的二维关系图,我们可知两者之间并非是简单的线性关系。因此我们可以使用三次多项式单指标模型对数据进行拟合预测分析。结果表明,我们所提出的三次多项式单指标模型具有一定的实用性,并且我们所提出的估计方法,在预测效果上也领先于数值模拟对比的其余五种方法。总体而言,我们提出的三次多项式单指标模型,一定程度上避免了传统单指标模型中估计连接函数所产生的误差,并且给出的相关参数估计方法也具有一定的
暂无评论