结果。我们将重点放在分类准确率和综合性能,推断6个子集对多个外源性分类器的适应性。
尽管或多或少有些变异,平均来说,四个由集成决策法识别的基因子集分类效果优于Zhang的二个子集。这
是我们所期望的,亦是我们投入大量精力发展创新方法的原因之一。根据这个外源性交叉证实的研究结果,很显
然,Zhang等[20]在他们研究中,远远过低估计了他们筛选的子集在分类结肠癌组织时的错误率。巧合的是,我
们的结果基本上与Ambroise和Mclachlan[3]的一致,即真实的分类错误率不容忽略,可达到14%以上。扼要地
说,(1)子集3分类效果最好,准确率达到85.7%。甚至优于将所有20个结肠癌相关基因作为预测变量的分类效
果。非常有兴趣的是,子集3并不包括M26383,它是与结肠癌相关强度最高的基因(2)由数据分析看来,与一
个目标高度相关并不是一个基因能否作为这个目标的预测变量的必要条件;(3)最后,我们应再强调一次:在这
20个相关基因中亦可能有“冗余”特征。尽管由这20个基因构建的子集对结肠癌组织预测分类效果很好,然而,
它既不是最经济的子集亦不是分类效果最理想的子集。事实上,提取“冗余”特征是集成决策分析生物芯片的主
要目标之一。
表2 比较由集成决策选拔的三个基因子集、Zhang等[20]鉴别的二个子集以及20个结肠癌相关基因作为预测子集,对结肠癌组织
的分类效果(分类准确率)。括号内为500次结果的标准差。 外部分类器 基因子集 FLD LNR MD KNN 准确率
0.792 (0.107)
0.742 (0.104)
0.882 (0.087)
0.728 (0.109)
0.776 (0.104)
0.871 (0.088) 0.826 (0.085) 0.794 (0.114) 0.866 (0.097) 0.829 (0.106) 0.767 (0.063) 0.765 (0.093) 0.776 (0.139) 0.823 (0.087) 0.904 (0.061) 0.579 (0.094) 0.681 (0.126) 0.724 (0.094) 0.635 (0.116) 0.824 (0.094) 0.835 (0.027) 0.578 (0.072) 0.740 (0.082) 0.887 (0.089) 0.757 0.796 0.857 0.679 0.741 0.812 总的性能 排序 4 3 1 6 5 2 Best Tree 1 Best Tree 2 Best Tree 3 Zhang 1 Zhang 2 20 genes
4 讨论
现有的特征基因(或子集)识别方法以预测或生物类型分型为目的,其基本策略是寻找这样单一的基因子集,使
得由它对生物类型进行预测,比如肿瘤组织与正常组织,达到最佳。由于这些方法本身固有的特性以及追求的目
标,大量的(基因之间)高相关基因或叫“冗余”特征被排除在“最佳”子集之外。然而,这些所谓的“冗余”
基因事实上对阐明复杂疾病的复杂遗传机制极为重要。他们可能是在某一生物、生化通路上相邻的基因(共调节
基因)或者是在不同的平行通道上的基因或者具有上位互作的基因。从严格的意义上说,以预测或肿瘤组织分类
为目的数学方法不能够有效地发现疾病相关基因和揭示在芯片上基因表达的神秘布局。因此,本文的主要目的之
一是为挖掘疾病相关基因提供一个高效能和可行的工具,这也是在后基因组时代主要的挑战之一。
我们提供的方法针对潜在的生物学复杂性之一是遗传异质性,它同时又是遗传连锁分析中一个辣手的问题[11,
12]。外在(表面上或临床上)“相同”的表型(如受累或正常)可能会由完全不同的遗传或非遗传原因引起的。
[2]一个典型的例子是利用基因组范围基因表达谱发掘新的肿瘤亚型。我们的基本思想是通过对样本抽样(表型的
不同组合)和利用树对样本和特征基因递归分割, 我们能够将遗传杂合的样本分割成相对同质性亚组,以至于
在某一亚组内,引起病例和正常对照组表型差异的遗传机制基本相同。通过大量的再抽样,我们有望捕获导致众
多复杂疾病亚型的多个基因通径。我们的分析策略事实上是Shannon等[11, 12]提出的方法的进一步扩展,他们
提出递归分割同胞对数据为相对同质的子集,使得在子集内利用回归检测连锁[25]可获得较高的效能。从另一个
角度考虑,我们新提出的方法是这样设计的,即将隐藏的各个疾病遗传通径一个一个挖掘出来,然后再将这些通
径整合在一起,从而获得该复杂遗传结构最佳的全貌。
我们的集成决策方法与随机森林(Random Forests)[9]有相似之处,比如,两种方法均采用树模型作为建树的
平台,但是,这二者之间有许多重要的区别。首先,研究的目标不同。我们的目标是生物类型分类或疾病基因采
矿,而随机森林侧重分类准确率的改进。这两种方法一经创建森林后开始分歧。在随机森林中,在大量的树创建
后,这些树被直接用来对最常见的类型进行投票,而在我们的集成决策法中,我们根据每一棵树对外源性检验样
应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法
8 生 命 科 学 趋 势 第2卷
本的分类效果,挑选最佳的基因子集。第二,随机森林的树是创建在随机选择特征空间的基础上。换句话说,随
机森林是以一维探索为基础的,因此它处理遗传异质性无效(其实它根本没有对隐芏的遗传亚型进行分离)。相
比之下,我们的集成决策方法是以二维(样本和特征)探索为基础的,是基于这样的假设:在研究的样本中可能
存在遗传异质性。第三,尽管随机森林方法已被广泛应用于分类问题,但它在生物芯片数据分析中的应用和识别
疾病相关基因方面并未见报道。事实上,这一创新方法是为提高分类的准确性和对噪音的鲁棒性。尽管作者对评
价一个特征变量的重要性提供了一个统计学的测度,但因为它是以分类为引导的[9],还不知道这种测度是否对
疾病相关基因识别也是一个有效的指标。众所周知,同时也为本研究所证实的事实是,特征的相关性并不意味着
它将被归属最佳特征子集(用于分类),同样特征的无关性也不意味着它不能作为最佳特征子集的一个元素用于
预测目的。我们认为:若应用随机森林挖掘复杂疾病相关基因,它在许多方面应作适当的调整和改进。
本研究揭示集成决策方法有望为我们通过分析由当代分子生物学产生的海量数据探索生命的奥秘。对一套著
名的芯片数据的分析说明这一新方法不但是生物类型分类同时也是挖掘疾病相关基因有效的工具。我们提出从多
组特征子集中识别重要的疾病相关基因,而每个子集又是根据它自身对目标的分类能力而被识别的。通过高效的
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说公务员考试应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法(5)在线全文阅读。
相关推荐: