广义线性模型适用于连续数据和离散数据,在生物、医学、经济和社会学等领域都有广泛应用。论文主要目的是研究当广义线性模型(GLM)中存在不完全数据时,模型参数的极大似然估计问题。
论文首先介绍了GLM产生的实际背景和在国内外的发展状况,然后介绍了论文需要的理论知识:Newton-Raphson算法、EM算法和Markov链抽样的Metropolis-Hasting算法。
论文主要工作在第三至第五章。第三章在协变量和响应变量都为离散变量、且协变量和响应变量皆随机缺失条件下,得到了参数估计EM算法表达式,并用Louis方法给出了模型参数估计的渐近方差。第四章给出了协变量和响应变量缺失机制不可忽略,且缺失变量可以是离散、连续或混合变量情况下,模型参数估计的EM算法,并讨论了为缺失机制建模的策略问题。第五章对缺失机制不可忽略的广义线性混合模型(GLMM)中的不完全数据,研究了模型参数的极大似然估计,给出了估计参数的Monte Carlo EM (MCEM)算法和Monte Carlo Newton-Raphson(MCNR)算法。
论文对文中给出的典型算法进行了随机模拟,尤其是对缺失机制不可忽略情况,模拟结果表明:若模型中不考虑缺失机制而简单地剔除缺失观测,将导致参数估计的较大偏差。
分位数回归模型相比普通回归模型能够更加全面的描述所研究的统计对象。在越来越多的研究当中,我们通常希望知道研究对象在不同水平时受各种变量因素的影响,而不仅仅局限于平均水平。分位数回归模型正好能满足这种需要。它能够全面地反映出数据的内在关系和局部特性。因此,它在经济,金融,保险,医学研究等许多领域得到了广泛的应用。\n 然而,由于保存方式,度量工具和一些人为因素的影响,我们所得到数据经常受到污染,从而导致不完全数据。比如缺失数据,删失数据和有度量误差的数据等。对于少量的不完全数据,通常可以直接删除或者丢弃,不会对分析结果产生较大影响。但是如果不完全数据较多,或是整个样本数据不大,就很有可能对统计结果带来很大偏差,有些时候甚至得到完全相反的结果。另外,由于分位数回归模型本身的特性,现有处理不完全数据的方法不能直接套用。因此,本文就关于这个问题进行了比较深入的研究,提出了两种处理该问题方法,从理论上证明和讨论了相关估计的渐近性质。最后通过数据模拟进行比较,得出相关结论。\n 本文首先研究了响应变量缺失情况下样本分位数回归模型的参数估计问题。我们构造了样本分位回归模型的估计方程,并且通过指示变量对该估计方程进行改写,得到缺失数据下的样本分位回归模型的估计方程。对于估计方程的含有缺失数据部分,我们采用了两种方法对其进行填补。一种方法是采用Zhou,Wan and Wang(2008)提出的非参核方法对缺失部分的条件期望进行整体插补,保证了估计方程的渐近无偏性。另一种方法是借鉴了Aerts etal.(2001)提出的局部多重插补的思想,将ψ(Yi,θ)作为整体进行多重抽样,将抽样数据填补到缺失部分,这样同样保证了估计方程的渐近无偏性。我们证明了两种方法的分位数估计都具有渐近无偏性和渐近正态性。此外,我们还讨论了渐近方差估计和窗宽的选择。从理论上看,Zhou,Wan and Wang(2008)提出的非参核方法要好于后者,估计量的渐近方差要小。\n 本文然后分析了如何将整体非参核插补法和局部多重插补法推广到缺失数据下的线性分位数回归模型。由于线性分位回归模型和样本分位回归模型有很大的差别,这里我们不对估计方程的缺失部分进行插补,而是对回归函数p(Y,β)的缺失部分进行插补。这样对估计渐近无偏性和渐近正态性的证明就之前不同。这里我们采用了与Koenker(2005)相类似的方法。从证明结果上看,Zhou,Wan and Wang(2008)提出的非参核方法仍然好于局部多重插补法。\n 本文接着研究了含有缺失数据的部分线性模型分位数回归。通过两步法首先对部分线性模型中非参数部分进行估计:然后以此估计替换非参数部分,这样就转换成了线性模型,然后应用整体非参核插补法对β进行估计。本文证明了此估计具有相合性和渐近正态性。\n 最后针对文中提出的两种处理缺失数据的方法进行数值模拟,并根据模拟结果,给出了一些结论和建议。
暂无评论