在很多领域中删失数据都经常出现,其中区间删失数据在生物医学等相关领域的研究中比较普遍,目前学者通常采用一些传统的统计学方法对这一数据进行建模分析,如加速失效模型,比例风险模型等。由于区间删失数据本身的特殊性,传统方法在预测方面,特别是在非线性小样本数据集上都普遍存在着效果不佳和过拟合的问题。随着近年机器学习的发展,其强大的预测、回归与分类能力为生存时间的预测提供了新的思路。由于机器学习与区间删失数据结合的较少,本文通过计数过程表示事件时间数据,将监督学习中处理非线性小样本数据有杰出表现的支持向量机与标准生存分析中的危险回归联系起来,使得监督学习技术可用于预测区间删失数据。本文主要进行了两部分的研究,具体如下。本文第一部分,基于右删失数据支持向量危险机模型(Support Vector Hard Machine,SVHM),在单一插补和多重插补下,提出了基于插补的区间删失数据支持向量危险机模型。单一插补采用中点替代法,将区间删失数据插补成右删失数据,随后在支持向量危险机中进行建模。多重插补基于链式方程和PMDA算法(Poor Man’s Data Augmentation Algorithm),在区间删失数据上构建与支持向量危险机相结合的算法,通过迭代求解得到生存时间的预测值。模型超参数通过遗传算法进行寻优。模拟研究中在不同删失比、噪声和有限样本下通过相关系数和均方根误差对几种插补下的SVHM的效果进行对比,并将其应用于区间I型小鼠肿瘤数据集和区间II型患者因吸毒而感染艾滋病数据集中,验证了基于插补的区间删失数据SVHM在实际数据分析中也有良好的表现。本文第二部分,从区间I型删失数据的数据结构本身出发,基于区间I型删失数据的计数过程,将生存时间的预测转化为二进制结果的预测,建立决策目标函数,并将监督学习中的支持向量机(Support Vector Machine,SVM)与标准生存分析中的风险回归相结合,求出风险分数,借助K近邻算法的思想,在区间删失数据下建立了一个改进的支持向量危险机模型(Interval Censoring Support Vector Hard Machine,ICSVHM),在无需对删失分布进行建模下,通过对样本风险分数的估计来预测样本的生存时间,从而使区间Ⅰ型删失数据无需插补,直接对其生存时间进行预测。文章模型超参数通过遗传算法进行寻优。模拟研究中在不同删失比、噪声和有限样本下通过相关系数和均方根误差将IC-SVHM与几种插补下的SVHM进行对比,证实了提出的IC-SVHM比插补下的SVHM效果更好,并将所提方法应用到了小鼠肿瘤数据集的分析中,验证了IC-SVHM在实际数据分析中也有良好的表现。
正如Embrechts,Kl(?)ppelberg and Mikosch(1997)[6]指出:“随机和就像是保险数学中的面包和黄油”,而与随机和密切相关的是更新计数过程和其他计数过程,在现行保险金融理论中,人们往往假设构成计数过程的随机变量独立同分布,这...
详细信息
正如Embrechts,Kl(?)ppelberg and Mikosch(1997)[6]指出:“随机和就像是保险数学中的面包和黄油”,而与随机和密切相关的是更新计数过程和其他计数过程,在现行保险金融理论中,人们往往假设构成计数过程的随机变量独立同分布,这一假设在许多场合下是合理的,并且取得了颇为圆满的结果。但在更多的场合中,构成计数过程的随机变量未必相互独立,而在各种相依关系中,负相协(NA)和正相协(PA)是颇为常见的关系,这方面的研究和应用也是颇有价值的,本文的第二章证明了NA列和PA列构成的更新计数过程的Wald不等式和基本更新定理的一些初步结果;本文的第三章则是受到Cheng和Wang[8]的启发,推广了Gut和Steinebach[7])中的一些结论,从而得到了更新计数过程在一般吸引场下的精致渐近性,对更新计数过程的收敛速度及极限状态进行精致的刻画;最后,在有关NA列的研究中,苏淳,赵林成和王岳宝(1996)》[9],林正炎(1997)[10]已经证明了强平稳NA列的部分和过程的弱收敛性,而乘积和是部分和的一般化,也是更一般的U统计量的特况,它与部分和有许多密切的联系又有一些实质性的区别,因此,本文的第四章就将讨论强平稳NA列的乘积和过程的弱收敛性,因为计数过程也是一种部分和,也可以构成乘积和,这个结果为研究计数过程的弱收敛性作了一些准备。
暂无评论