背景:高通量测序技术蓬勃发展及检测成本大幅降低,为从群体水平上筛选并识别复杂疾病预后相关的组学标记位点提供了前所未有的机遇。统计学上,可将疾病预后相关生物标记物的识别纳入生存分析范畴。复杂疾病的预后是多基因联合作用的结果,但也不是它们之间的简单堆积,多个基因往往交互成一个生物网络,该网络控制着疾病的预后和转归结局。然而,当前识别复杂疾病预后相关基因的统计分析多数停留在单一基因层面,现有的多基因方法也常常忽略了多基因间的复杂网络关系,不利于解释复杂疾病预后的内在网络机制,为此,应构建生存分析的网络回归模型,进而实现从“识别复杂疾病预后的单一基因标记”到“识别复杂疾病预后的基因网络标记”的转变。基因交互网络通常由代表基因的节点和代表不同基因节点间功能或相互作用的边组成,每个基因节点及每条边都刻画了不容忽视的特定生物学含义,网络中基因节点和边的变化均能影响疾病的预后,整体网络的效应囊括了“节点效应”和“边效应”。要探索基因网络和复杂疾病预后间的关联性,需要在同一样本中同时获取基因表达数据和生存数据,然而,通过全基因表达谱测序技术获得基因表达数据往往花费巨大,近年来,整合全基因组关联研究(genome-wide association studies,GWASs)和表达数量性状位点(expression quantitative trait loci,eQTL)研究的全转录组关联分析研究(transcriptome-wide association Study,TWAS),提供了一个通过数据整合方式获取大规模基因表达数据的理论框架。方法:本研究将疾病预后网络回归模型与跨组学TWAS有机整合,针对特定网络的特定基因,首先在小样本eQTL研究中,利用基因型和基因表达数据,构建基因表达预测模型,得到基因型对基因表达的效应估计。进一步,将该效应估计代入GWAS研究,获得GWAS研究中基因表达预测值(网络节点),同时采用点互信息(Pointwise mutual information,PMI)来刻画网络边,并将网络节点和网络边同时纳入,构建生存结局全转录组关联研究网络回归模型(Cox proportional hazards model for network regression in TWAS,CoNet),以检测特定基因网络与生存结局之间的关联,并将CoNet模型与传统只关注网络点效应的TIGAR方法、基于积矩项的方法(cox proportional hazards model based on product moment for network regression in TWAS,CPNT)进行全面比较,统计模拟实验评价其科学性和有效性,实际英国生物银行乳腺癌数据分析评价其实用性。需要说明的是,CPNT模型采用表征简单线性相关关系的积矩项刻画网络边,其与CoNet模型的比较将充分体现CoNet模型在捕获复杂多类型网络节点间关系的能力。1.统计模拟实验中,基于GEUVADIS研究实际eQTL数据和UK Biobank实际GWAS数据,设计详实的统计模拟实验,具体包括两类模拟情形:(1)预先指定拟检验的网络节点和边;(2)随机抽取拟检验的网络节点和边。每一类模拟情形中分别设计四种网络效应模式,包括:网络中只有节点有效应、网络中只有边有效应、网络中节点和边都有效应且效应点在效应边上、网络中节点和边都有效应但效应点不在效应边上。在每种网络效应模式下,充分考虑不同的网络节点间相关模式,包括:线性、二次、正弦和抛物线嵌套正弦三角函数,同时,分别在不同的样本含量(5000、10000和20000)、不同的删失比(0.1、0.3和0.5)、不同的基因表达预测模型下全面考察CoNet模型的统计学性能及其稳健性。2.实际数据分析部分,使用UK Biobank中乳腺癌患者的基因型和随访数据,在KEGG中选择与乳腺癌潜在相关的7个生物网络,并将每个网络中包含的基因与GEUVADIS eQTL数据集相匹配,获取最终纳入模型的基因网络,进一步基于TWAS框架获得特定网络中每个基因的预测表达值(网络节点),并分别计算PMI和PM表征网络边,完成CoNet和CPNT两模型的实例分析。考虑到TWAS的网络回归中节点和边往往高度相关,而常用的多重检验方法Bonferroni校正过于严格,所以本研究采用错误发现率(false discover rate,FDR)调整P值,并将FDR显著性阈值设置为0.05。结果:模拟结果显示:两模型在不同网络节点之间的相关模式、不同删失比以及不同样本量等多种模拟情形下,均能较好的控制Ⅰ型错误,稳定在显著性水准0.05附近。检验节点效应时,CoNet与CPNT的检验效能相当,检验边效应时,随着样本量的增加和删失比的降低,CoNet和C
决策理论是一门和数学、统计学、经济学、心理学以及组织行为学紧密相关的学科,它最早是在统计决策理论的基础上发展起来的。在决策分析中,有一类决策叫做完全不确定性决策(Decision Making under strictly uncertainty)。在这种决策...
详细信息
决策理论是一门和数学、统计学、经济学、心理学以及组织行为学紧密相关的学科,它最早是在统计决策理论的基础上发展起来的。在决策分析中,有一类决策叫做完全不确定性决策(Decision Making under strictly uncertainty)。在这种决策问题中,人们只能够预测到可能出现的几种自然状态和各个方案在每种自然状态下的收益值,而对每种自然状态出现的概率一无所知。原因可能是缺乏相关经验或过去的历史数据,以致无法估计发生的概率,也可能是该不确定因素在未成定局之前,无法定义可能的状况和估计发生的概率。在实际生产生活中,企业管理者、金融投资者、生产决策制定者等都会经常遇到未来的自然状态和各决策方案在各状态下的收益值已知的,但对每种自然状态出现的概率一无所知的决策问题。针对这类决策问题,国内外已经有不少学者做了很多研究,但由于这类决策问题自身的特殊性,目前尚没有一种决策准则是完全有效的。在这种背景下,本文针对这类决策问题,提出了一种新的决策准则--基于概率集合度量比较的不确定性决策准则。该准则通过对自然状态出现的概率落在某些特殊区域的度量大小的比较,选择最佳决策。同时,该新准则借鉴赫威斯准则中的对最大收益值和最小收益值通过一个乐观系数α加权的思想,在考虑到不同决策者乐观程度和对待风险的态度不同,设置了一个乐观系数γ,对两个集合的度量大小做了加权处理,从而增加了决策的灵活度,扩大了决策准则的应用范围,使得该新准则可以满足不同决策者的需求。首先,本文通过5个具体实例从概率集合度量的角度出发,对传统的5种完全不确定性决策准则各自的优缺点和应用上的范围和限制进行了讨论和评价;然后,笔者详细的阐述的本文提出的新准则的原理和计算方法,包括新准则提出基于的基本条件,新准则选择机理的来源,各方案e值和f值的计算,乐观系数γ的测算等,并给出一个实例详细展示了该准则的运用过程;随后,笔者利用统计模拟(simulation)的方法,经过研究自然状态出现的概率的统计分布,结合计算机软件程序的编制,对传统准则和新准则进行了比较,比较的结果说明了无论决策者的乐观程度如何,新准则都是十分有效的;最后,笔者在文章的结尾对全文所做的工作和得到的结论进行总结,并提出了关于新准则的计算过程的优化和新准则的应用范围等需要进一步探讨和改进的地方。
本文是EIV(Errors in Variables)模型的实际应用研究。EIV模型是指观测变量含误差的模型,它是一类统计模型的总称。质量控制中的数据几乎都是含有观测误差的,非常符合EIV模型的数据环境,因此本文尝试将EIV模型应用于质量控制中。文章首...
详细信息
本文是EIV(Errors in Variables)模型的实际应用研究。EIV模型是指观测变量含误差的模型,它是一类统计模型的总称。质量控制中的数据几乎都是含有观测误差的,非常符合EIV模型的数据环境,因此本文尝试将EIV模型应用于质量控制中。文章首先介绍和归纳了两类多元线性EIV模型的参数估计和参数的大样本性质,在此基础上,研究了基于EIV模型的多变量质量控制力方法,并通过三个实际案例进行说明和验证。接着,鉴于EIV模型能够消除多重共线性的性质,本文研究了基于EIV模型的质量建模方法,并通过统计模型实验和实际案例进行了分析,并与其他方法进行了比较。然后本文继续研究了基于EIV模型的预测方法并将其应用到质量预测中,通过统计模型实验和实际质量预测案例进行了比较和验证,说明了方法的有效性和先进性。文章的最后还对EIV模型的研究前景和其在经济管理领域的应用前景进行了展望。
暂无评论