图8.1 定量饱和曲线检查分布图
横坐标代表定位到基因组上的reads数占总reads数的百分比,纵坐标代表定量误差在
15%以内的基因的比例
8.2 RNA-Seq相关性检查
生物学重复是任何生物学实验所必须的,高通量测序技术也不例外(Hansen et al.)。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作是可以重复的且变异不大,另一个为后续的差异基因分析所需要的。样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理性的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。Encode计划建议皮尔逊相关系数的平方(R2)大于0.92(理想的取样和实验条件下)。具体的项目操作中,我们要求R2至少要大于0.8,否则需要对样品做出合适的解释,或者重新进行实验。此部
分,我们同时计算了spearman相关系数和kendall-tau相关系数作为参考,这两个主要是针对顺序变量的相关系数,即秩相关。
图8.2 RNA-Seq相关性检查
R^2:pearson相关系数的平方; rho:spearman相关系数; tau:kendall-tau相关系数
8.3 均一性分布检查
理想条件下,对于RNA-seq技术来说,测序序列(reads)之间为独立抽样并且reads在所有表达的转录本上的分布应该呈现均一化分布。然而很多研究表明,很多偏好型的因素都会影响这种均一化的分布(Dohm et al., 2008)。例如,在RNA-seq建库过程中,片段破碎和RNA反转录的顺序不一样会导致RNA-seq最终的数据呈现严重的3’偏好性。其他因素还包括转录区域的GC含量不同、随机引物等等,并且生物体内从5’或者3’的降解过程同样会导致不均一性分布。
图8.3 不同表达水平的转录本的reads密度分布图
High:高表达量转录本;Medium:中度表达量转录本;Low:低表达量转录本;横坐标为
距离转录本5’端的相对位置(以百分比表示),纵坐标为覆盖深度的平均值
9 基因差异表达分析
9.1 基因表达水平对比
通过所有基因的RPKM的分布图以及盒形图对不同实验条件下的基因表达水平进行比较。对于同一实验条件下的重复样品,最终的RPKM为所有重复数据的平均值。
图9.1 不同实验条件下基因表达水平比对图
RPKM分布图(左图)的横坐标为log10(RPKM), 纵坐标为基因的密度。RPKM盒形图(右图)的横坐标为样品名称,纵坐标为log10(RPKM),每个区域的盒形图对五个统计量(至上而下分
别为最大值,上四分位数,中值,下四分位数和最小值)
9.2 差异表达基因列表
基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。对于有生物学重复的样品,分析我们采用DESeq(Anders et al, 2010)进行分析: 该分析方法基于的模型是负二项分布,第 i 个基因在第 j 个样本中的 read count 值为Kij,则有
Kij ~ NB(μij,σ
2ij
)
对于无生物学重复的样品,先采用TMM对read count数据进行标准化处理,之后用DEGseq进行差异分析。差异表达基因列表如下:
表9.2 差异基因列表
gene_id readcount_HS readcount_HT 2835.13040784994 3.08090973423561 872.135924228591 143.509885523625 log2FoldChange -9.4224 9.0233 -4.5455 3.295 pval padj Novel05868 4.13191705589116 Novel05608 1603.13964277834 Novel08190 37.3477675965147 Novel05435 1408.60468719178 4.6547e-140 1.139e-135 8.0171e-124 9.8089e-120 1.1332e-40 1.0151e-31 9.2435e-37 6.21e-28 差异基因列表主要包括的内容:
(1) Gene_id: 基因编号
(2) readcount_Sample1:校正后样品1的readcount值 (3) readcount_Sample2:校正后样品2的readcount值 (4) log2FoldChange: log2(Sample1/Sample2) (5) pvalue(pval): 统计学差异显著性检验指标
(6) qvalue(padj): 校正后的pvalue。qvalue越小,表示基因表达差异越显著
9.3 差异表达基因筛选
用火山图可以推断差异基因的整体分布情况,对于无生物学重复的实验,为消除生物学变异,我们从差异倍数和显著水平两个水平进行评估,对差异基因进行筛选,阈值设定一般为: |log2(FoldChange)| > 1 且 qvalue < 0.005。对于有生物学重复的实验,由于DESeq已经进行了生物学变异的消除,我们对差异基因筛选的标准一般为: padj < 0.05。
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库有参考基因组的转录组生物信息分析模板(5)在线全文阅读。
相关推荐: