最近很多研究者们关注识别不同的亚组。其中精准医疗是亚组分析中很常见的应用,精准医疗追求的是对不同亚组的患者给予不同的治疗。由于不同的患者在基因,环境,年龄和体重等方面会有所不同,所以对不同亚组的患者给予针对性的治疗能达到更好的医疗效果(Ma and Huang,2017)。亚组分析的另一个广泛应用就是精准营销。针对消费者不同的消费行为和喜好实施不同的营销策略。精准营销可以为消费者提供个性化的服务,识别不同的亚组有助于企业提高其利润(You et al,2015)。因此,正确识别不同的亚组来提高效益是一个非常有意义的事情。在本文第二章中我们研究了异质可加部分线性模型的亚组识别问题。异质可加部分线性模型在实际应用中更加灵活和广泛,该模型结合了参数和非参数成分,对每个变量既有简单直接的解释性同时避免了维数灾难问题。而且我们提出的模型结合了线性,非线性和异质性,更加具有一般性,有效性和适应性。作为可加部分线性模型的推广模型,异质可加部分线性模型包括同质的线性成分和与对象相关的可加成分,但是我们事先并不知道与对象相关的可加成分的组构成信息。这样的模型对于解决一些特殊的问题比如精准医疗和精准营销更加灵活和有效。异质可加部分线性模型具有如下的形式:yi=xiTβ+gi(zi)+εi,i=1,…,n,其中β=(β1,…,βq)T是未知的系数向量,异质可加函数gi(zi)=gi0+∑j=1p gij(zij),其中gi0∈R是异质的截距项,gij∈R(i,j ≥ 1)是未知的光滑函数,为了可识别目的我们假设E[gij(zij)]=0(i,j≥1)。我们的目标是识别gij,j=0,1,…,p的亚组,在每个亚组中gij有相同的函数形式,然后我们再进一步地在每个亚组中估计可加函数gi和参数β。我们用多项式样条来近似异质的可加成分,在光滑性假设下(Stone,1985),B样条基函数B(zi)=(1,b(zi1)T,…,b(ziT)Tp)的线性组合可以有效地近似未知的非参数函数gi(·)。上述模型可以被近似的表示成如下形式:yi==xiTβ+B(zi)Tγi+εi,i=1,…,n,其中γi=(γi0,γi1T,…,γiTp)T∈RNnp+1是与观察对象相关的样条系数。亚组的数目K和组的构成事先并不知道,如何识别亚组是个具有挑战性的问题。对于线性模型,Ma and Huang(2017)用成对融合凹惩罚方法来识别斜率项的亚组,但是当样本量n和协变量的维数p比较大时,这种方法是复杂和不稳定的,因为他们的实现需要不断的迭代存储和计算所有np维参数,其记忆和计算成本都是相当高的。我们把斜率项的优化问题转化为截距项的优化问题。新的聚类方法能自动地识别亚组,该方法避免了像回归聚类方法那样在每步迭代中都要求解系数向量。因此,即使在大样本下,该方法也是快速的并且稳定的。异质的可加成分经过分类后,我们再在每个亚组中进一步得到同质的参数部分和与对象相关的可加成分的相合估计,而且,我们得到了参数估计的█相合性和渐进正态性。在文中第三章中,我们研究通过融合性惩罚来捕捉重复测量数据的异质性,对于纵向或者聚类数据在微生物研究中很常见。例如,纵向数据研究中生物标记是随着时间测量的。同一个体的生物标记的重复测量一般是相关的。在聚类的研究中,在同一类中个体(如双胞胎,家庭,或者团体)的健康结果因为有共享的基因和环境因素更为相似。在这章中为了简化说明,我们将用术语“重复测量”来描述同一类中对多个单位的测量(在空间上的重复,例如,同一个人对左眼和右眼的测量)或者相同标记物在不同时间上的测量(时间上的重复,例如,同一个人血压的纵向测量)。我们需要解释对同一个体或者同一类的重复测量所产生的相关性,从而得到更加准确和有效的估计。我们提出如下的线性模型:yij=ai+xijTβ+εij.i=1,...,m,j=1,…ni.其中ai’s是未知的特定个体的截距项;β=(β1…,βp)T是未知的协变量系数;εij~N(0,σ2)是独立于xij和ai的随机误差。如何捕捉重复测量数据的异质性是关键性问题,重复测量数据的异质性一般用固定效应模型或者随机效应模型来拟合。在固定效应模型中,异质性的自由度的数目等于聚类/观察对象的数量减1,这样会导致有效性减小。在随机效应模型中,不同聚类/观察对象的异质性被描述为,随机截距的方差,但是这样会导致过度简化而产生偏差,产生压缩的估计。所以为了平衡估计的有效性和准确性,我们提出了一个介于固定效应模型和随机效应模型之间的新方法-融合效应模型。在我们的新模型中,我们假设每个研究对象的异质性属于不同的亚组。通过惩罚融合效应(两个特定个体间效应的异质性),我们在不知道个体的组成分关系的前提下自动对特定个体效应进行分组。█因此我们给这种方法命名为“融合效应”模型。我们的模型是参考M
暂无评论