肿瘤基因标签提取的数学模型

【摘要】本文首先运用Relief算法与相关性分析相结合的方法,去除大量无关基因和冗余基因,取出了区分癌变样本特征基因;接着根据特征基因表达水平,结合BP神经网络建立了分辨正常样本与癌变样本的分类器,并对样本作了测试;然后,利用该分类器讨论了Golub噪声模型对提取基因标签是有利的;最后,从统计学角度出发,结合提取基因标签,建立了诊断肿瘤疾病的假设检验模型,并提取若干个样本进行了验证.  【关键词】Relief算法;BP神经网络;Golub噪声模型;假设检验模型    引 言  随着大规模基因表达谱技术的发展,基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题.如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别,对诊断和治疗肿瘤具有重要意义.因为每一种肿瘤都有其基因特征表达谱.从DNA芯片所测量的成千上万个基因中,找出决定样本类别的一组基因标签,即信息基因是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径.  通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量无关基因,从而大大缩小需要搜索的致癌基因范围.1999年《Science》发表了Golub等针对上述急性白血病亚型识别与信息基因选取问题的研究结果[1].Golub等以信噪比,采用加权投票的方法进行亚型的识别,仅根据72个样本就从7129个基因中选出了50个可能与亚型分类相关的信息基因.Guyon等则利用支持向量机的方法再从中选出了8个可能的信息基因[2].但信噪比不是衡量基因样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤基因标签时,应该设法充分利用其他有价值的信息.考虑到肿瘤基因标签的选择过程类比机器学习中的特征选择方法非常相似,所以,我们选择用Relief算法作为特征基因的预筛选器,然后对筛选出来的基因进行冗余分析,确定信息基因.基于神经网络对大规模数据进行并行处理的优势,最后用BP神经网络作为样本分类和识别器;考虑到数据噪声,我们引入Golub噪声模型,剔除噪声基因. 代写论文   1.模型的建立与求解  模型假设基因表达之间的相关性表现在其表达水平的相关系数大小上,相关系数越大,相关性就越大.有些基因在大多数样本中的表达水平是非常相近的,只有少数的样本会出现特殊的情况,这些的基因认为是噪声基因.  1.1 信息基因的确定  1.1.1 Relief算法初步筛选  在机器学习领域,Relief算法[5][10]属于一种特征权重算法,其通用性强,算法复杂性低,非常适用于大规模数据集,可以快速去除大量不相关的特征.从训练集中选一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为Near Miss,根据以下规则更新每个特征权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征权重;反之,则降低该特征权重.最后特征权重越大,表示该特征的分类能力越强.具体步骤如下:  Step 1:从训练集中随机选取一个样本T,计算其他样本与之的类内或类间距离,本文采用欧式距离:  Dk=mi=1(xTi—xki)2.(1)  其中xTi为样本T中第i号基因表达水平,xki为第k个样本第i号基因表达水平,Dk为第k号样本与基础样本T的距离,k=1,2,3,n. 论文代写   Step 2:以样本T为基础,从类内按距离从小到大排列Step 1得到的样本,从类间按距离从大到小选择距离大的同样数目的样本,得到同类样本集H和不同类样本集M.  Step 3:先置所有基因特征权重为0,再根据公式  wi=wi—diff(i,T,H)m+diff(i,T,M)m(2)  进行累加减得出各个基因权重,式中wi表示第i号基因特征权重,diff(i,T,H)表示第i号基因样本T和同类样本H中的表达水平之差(绝对值),diff(i,T,M)表示第i号基因样本T和不同类样本M中的表达水平之差(绝对值),m是总的基因个数.  1.1.2 冗余分析  基因表示之间存在着很强的相关性[7],但是一般认为与一种肿瘤直接相关的突变基因数目很少.在Relief算法筛选出来的部分信息基因之间相关性是很强的,因此接下来对上述得到的基因进行冗余分析.具体步骤如下:  Step 1:分别计算基因表达水平两两之间的相关系数,得到一个相关系数矩阵.  Step 2:规定一个相关系数阈值,提取出相关系数大于该阈值的若干对基因,根据大量实验,我们认为,当两个信息基因之间表达水平相关系数大于0.9时,这两个信息基因样本分类的贡献一样.  Step 3:比较上一步提取出的每对基因权重,保留特征权重大的基因.这些被保留的基因与上一步剩下的相关系数低于0.9的基因对的集合就是最后得到的基因标签.

毕业论文   1.2 基于BP神经网络样本分类模型  神经网络是一个由大量简单的处理单元组成的高度复杂的大规模非线性自适应系统.它首先对样本数据进行多目标学习,通过人工神经元之间的相互作用实现控制.根据神经网络理论,按照以下步骤建立样本分类器模型:  Step 1:根据上一步筛选出的特征基因,选取样本中的数据,对样本数据进行归一化,将正常样本和癌变样本按照一定比例分配到训练集和测试集中.  Step 2:采用BP神经网络样本进行训练,根据样本数据及Kolmogorov原理,建立一个三层BP网络作为分类器.  1.3 噪声模型的建立和求解  在高密度基因芯片上的数千个基因中,一些基因表达水平在所有样本都非常相近.这类基因没有为样本提供任何信息,只会增加计算的复杂度,因此在肿瘤分型中这类基因应该排除掉,在本模型中着重处理这一类基因.  本文仍引用Golub噪声模型,以信噪比指标作为衡量基因样本分类贡献大小的量度,采用加权投票的方法进行识别.具体步骤如下:  Step1:提取上述基因表达水平的样本数据,标准化,计算各基因在正常样本和癌症样本表达水平的均值i1,i2以及标准差i1,i2.  Step 2:根据信噪比公式。

di=i1—i2il—i2(3)  计算出基因对应的信噪比.  Step 3:计算信噪比值的中位数Med,并将其作为信噪比阈值,如果di  2.实验结果分析  根据2010年研究生数学建模竞赛A题提供的数据,我们对本算法在Matlab[8]环境中进行了模拟实验.首先用Relief算法筛选出59个特征基因,在相关系数阈值为0.9的情况下,我们从初步筛选的59个基因中确定了23个基因为信息基因,从医学角度来讲,大部分基因与蛋白质的合成有着密切关系,这也从一定程度上说明了本算法的可行性.接下来计算出23个基因对应的信噪比,代表第i号基因信噪比,各基因编号,对应的信噪比及其特征权重如下表1所示:  由上述实验结果发现,特征权重分布在高水平的基因信噪比往往比较高;特征权重分布在较低水平的基因信噪比往往也比较低;特征权重分布在中等水平的基因信噪比不太稳定.这一结果说明噪声模型对筛选出来的23个基因重选表现在两个方面:一是继续剔除特征权重小的基因;二是对特征权重分布在中等水平的基因进行进一步筛选,这两个方面对特征权重阈值的选择是一个很好的弥补,势必会让模型的结果更准确.根据Golub噪声模型进行进一步提取,我们确定了11个基因标签.

论文代写。

2 次访问