结构方程模型在现代行为学、社会学、教育心理学和生物医学等学科领域中应用极广,它是目前国内外分析研究显变量(manifest variable)和潜在变量(latent variable)之间内在联系的重要工具。现已有许多的统计软件,如:LISREL(Joreskog and Sorbom1996),EQS6(Bentler and Wu2002),Mplus(Muthen and Muthen2002)和WinBUGS(Spiegelhalter,Thomas,Best andLunn2004)等都可用来分析结构方程模型。但到目前为止,几乎所有研究结构方程模型的理论和方法以及统计软件都是建立在显变量服从正态分布这一假设的基础之上的。然而,随着科学技术的发展,为了满足人们处理复杂数据的需要,对更为一般的结构方程模型的研究日益受到理论研究者和实际应用者的高度重视和亲昵。譬如:Lee and Tang受广义线性模型的特点的启发,基于指数族分布将经典的结构方程模型推广到了以指数族为显变量的分布的结构方程模型,提出了指数族结构方程模型的概念并给出了同时获得结构参数和潜变量的Bayes估计方法以及评价模型拟合好坏的拟合优度统计量。之后,唐年胜和韦博成进一步地将指数族结构方程模型推广到了以再生散度模型为显变量的分布的结构方程模型,首次提出了非线性再生散度结构方程模型的概念并讨论该模型中结构参数的Bayes估计,这就从客观上推动了结构方程模型的理论与方法的发展。\n 此外,在行为学、社会学、经济学和教育心理学等研究领域中,不完全数据是普遍存在的,许多统计学家对此也做出了许多卓有成效的研究,尽管如此,目前对不完全数据的研究大都假设缺失数据机制为可忽略的。然而在一些实际问题研究中,我们常常遇见数据的缺失与该变量本身存在一定的联系,即缺失数据机制为不可忽略的情形。近年来,对于不可忽略缺失数据的处理,也有了一些新的方法和研究成果,如极大似然估计方法、多重填补方法、完全贝叶斯方法以及加权估计方程等方法,然而这些方法和结果都仅仅局限于广义线性模型或一些简单的非线性模型,而对带有不可忽略缺失数据的非线性结构方程模型就显得无能为力。因此,本论文将基于前人的研究工作基础,系统地讨论了带有不可忽略缺失数据的非线性再生散度结构方程模型的参数估计、局部影响分析以及模型选择等一系列问题。现将本论文的主要研究内容概述如下:\n 1.对带有不可忽略缺失数据的非线性再生散度结构方程模型建立起一套贝叶斯分析方法,其中缺失数据机制由Logistic回归模型所定义。通过视潜在变量为缺失数据并结合了Gibbs抽样技术和Metropolis-Hastings算法,得到了模型参数、潜在因子以及缺失数据机制中回归系数的联合贝叶斯估计;在此基础上,定义了评价模型拟合优度统计量-偏后验预测p值:此外,通过路径抽样的方法进一步得到进行模型比较的贝叶斯因子。\n 2.对带有不可忽略缺失数据的非线性再生散度结构方程模型建立起一套MCECM算法并以此得到模型参数、潜在因子以及缺失数据机制中回归系数的极大似然估计。由于模型的复杂性以及不可忽略缺失数据机制的影响,E-步的计算往往需要计算难以处理的高维积分,且在一般情况下这种积分没有解析形式,本文借助于Metropolis-Hastings算法,采用样本均值来近似完全数据对数似然函数的条件期望;而M-步则通过条件极大化的方法得以实现。此外,本文采用了Bridge抽样的方法来监控上述MCECM算法的收敛性并根据Louis缺损信息原理来估计极大似然估计的标准差。在此基础上,本文进一步提出了一种新颖且计算简便的新的模型选择标准-AIC准则。\n 3.本文在Zhu and Lee(2001)的基础上,针对于带有不可忽略缺失数据的非线性再生散度结构方程模型建立起一套局部影响分析方法来评价模型对于微小扰动的敏感性,在此基础上本文进一步介绍了6种不同的扰动模型以及相应的算法。其中,本文着眼于MCECM算法中所涉及到的Q-函数而非传统的观测数据对数似然距离建立起局部影响统计量;而在计算的过程中,本文则采用了Metropolis-Hastings算法来从条件分布中产生随机观测,并基于这些随机观测来计算诊断统计量中的基本分块矩阵。\n 综上所述,在考虑不可忽略缺失数据机制的基础上,本文采用了MCECM算法得到了非线性再生散度结构方程模型参数的极大似然估计;借助于Gibbs抽样和Mctropolis-Hastings算法对该模型进行了贝叶斯分析;基于MCECM算法,本文研究了该模型的局部影响分析问题。上述研究不仅推广和发展了结构方程模型的理论,还得到了一些国内外文献中未曾报道过的有价值的新成果。
暂无评论