假定这个基因在映射结肠癌复杂(分子)病理机制的基因网络中必是起到一个中心枢纽的作用。分子生物学实验的
证据表明MONAP在多种人类肿瘤细胞系中总是高表达的[22]. 令人非常惊喜的是MONAP被多种信息测度列为头
号结肠肿瘤基因:信息增量(Information Gain)、方差总和(Sum of Variances)、二分规则(Twoing Rule)和Gini
指数, 或作为第二个最重要的基因:少数类总和(Summary Minority)
(http://genomics10.bu.edu/yangsu/rankgene/compare-alon-colon-cancer-top100.html), 但是奇怪的是这个
基因并不在由Student’s T检验找出的最重要的100个基因内(由RankGene软件所做的分析[23])。 由集成决
desmin, complete cds, 策分析挖掘的第二个最显着的基因(在选树的标准α0=0.01的情况下,位居第三)是human
它出现在基因森林38%以上的树中。毫不奇怪这个基因也被不同的信息测度列为头号最重要的基因(信息测度:少
数类总和(Summary Minority)、少数类极大值(Max Minority)和一维支持向量机(1-Dimensional Support Vector
Machine))或者是第二个最重要的基因(信息测度:信息增量(Information Gain)、方差总和(Sum of Variances)、
二分规则(Twoing Rule)和Gini指数(Gini Index). 值得进一步研究的另一个基因是T51849(tyrosine-protein
kinase receptor ELK precursor (Rattus norvegicus)), 按与结肠肿瘤关联强度排列第六位(α0=0.1或0.05)
或第九位(α0=0.01)。一个利用360位急性成淋巴细胞型白血病儿童的病理样本的大型生物芯片试验发现该基因
的表达与一个白血病亚型(E2A-PBX1)高度相关[24], 说明这个基因对多种癌症有一因多效(pleiotropic)的作用。
这套数据的分析亦支持我们的假设:集成决策分析能有效地提取“冗余”的基因。 一个极端的例子是R39465, 在
这个生物芯片试验中它被重复了二次。我们成功将这二个复制品提取出来,尽管按疾病相关强度它们的排列位置
有些差别。
表1. 在不同选择强度下特征基因识别效果的一致性。训练集和检验集由一个5倍交叉证实法创建。在该基因芯片中,有二个探针
对应于相同的基因(R39465)
应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法
6 生 命 科 学 趋 势 第2卷
α0=0.1
基因ID α0=0.05 基因ID α0=0.01 基因ID FV FVFV
M26383 0.534 M26383 0.590 M26383 0.630
M63391 0.384 M63391 0.380 T58861 0.476
T58861 0.340 T58861 0.368 M63391 0.400
D14812 0.308 D14812 0.346 D14812 0.352
R39465 0.290 R39465 0.308 R39465 0.352
T51849 0.168 T51849 0.218 Z24727 0.208
H55933 0.160 H55933 0.180 H55758 0.200
R39465* 0.142 H55758 0.150 H55933 0.186
H55758 0.134 R39465* 0.140 T51849 0.170
M69135 0.096 Z24727 0.124 T94993 0.148
Z24727 0.096 M69135 0.114 H44011 0.110
T65938 0.080 H78386 0.090 T62947 0.092
H78386 0.078 T65938 0.082 U14973 0.092
R87126 0.076 T94993 0.062 R39465* 0.082
U14973 0.072 H87465 0.060 M69135 0.078
T62947 0.064 U14973 0.060 T65938 0.062
H44011 0.060 H44011 0.058 M14539 0.044
H87465 0.056 M14539 0.050 U06698 0.044
M14539 0.040 M37984 0.042 M94630 0.044
T62947 0.038 T78323 0.040
3.2基因采矿:生物类型分类
我们同样利用结肠癌组织数据来探索集成决策法在生物类型分类上的用途。分析相同的数据便于我们说明两个目
标间(生物类型分类与疾病相关基因的识别)的差异。通过对基因子集群(集成或叫森林)的评价,即根据每个
子集对外源性检验集的分类效果,我们识别了三个分类效果最好的基因子集。由公式(3)算得,三个子集的的
卡方值均为9.1183(P =0.003)。子集1(Best Tree 1)包含四个基因:M26383(由人类单核细胞衍生的嗜中性
白细胞活化蛋白mRNA,MONAP),T51849(酪氨酸一蛋白激酶受体ELK前体),Z24727(人类原肌球蛋白同工型mRNA)
和H55758(人类alpha烯醇化酶)。子集2(Best Tree 2)亦包含四个基因:M26383,T94993(人类成纤维细胞
生长因子受体2前体),T58861(克鲁维酵母菌P605核糖体蛋白L30E)和R39465(真核起始因子,orycfolagus
。子集3(Best Tree 3)包含5个基因:M63391(人类肌间线蛋白基因),D14812(人类某一未知基因开cunicnlus)
放式阅读框mRNA),H44011(人类肌球蛋白重链),T58861和H55933(人类相对于酵母核糖蛋白L41同源物mRNA)。
作为比较,我们选取由Zhang等[20]通过一个递归分割树归纳的二个基因子集(Zhang 1和Zhang 2)。张等在进
行特征基因选择时将所有62组织样本都作为训练集。Zhang 1包含三个基因:M26383,R15447(人类Calnexin
。Zhang 2亦包含三个基因:X57206(肌醇三磷酸盐激酶同工酶的前体)和M28214(人类ras关联蛋白RAB-3B)
mRNA),T62947(60S核蛋白L24)和X15183(人类90K道尔顿热休克蛋白mRNA)。为了进一步研究二个目标间的
关系,我们亦应用所有的20个结肠癌相关基因建立一个分类规则。毫不奇怪,M26383在其中的四个基因子集中
作为最重要的预测变量,因为按照与结肠癌的关联强度,它排列第一。考虑到由于在特征基因识别和后来预测中
采用同样的方法或者是相同的归纳法则应用于基因识别和分析检验样本可能造成的识别偏差(过学习),我们采
用外源性交叉证实方法评价这6个子集,分类器与实施基因识别的归纳算法完全不同,具体地说,就是采用与前
述通过重复取样技术选择特征子集的相同的过程评价这六个子集,但此时不做特征提取工作。我们采用在基因芯
应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法
第1期 李 霞等:应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法 7 片分析中有着广泛应用前景的分类方法:Fisher线性判别函数(FLD),罗杰斯蒂非线性(Logit)回归(LNR),
马氏距离(MD)和K维最邻近法(KNN)。表2总结了这6个子集采用上述分类器对500个抽样的数据分析的平均
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说公务员考试应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法(4)在线全文阅读。
相关推荐: