谈谈对基因组内不同序列分布差异进行量化的探讨论文

时间:2023-10-22 00:11:29
谈谈对基因组内不同序列分布差异进行量化的探讨论文

谈谈对基因组内不同序列分布差异进行量化的探讨论文

基因组常被比喻为一本“生命天书”,如果有几个关键词在书中出现的位置比较接近,则其关系可能比较密切。反之,若其出现的位置具有明显差异,则其可能关系较远。如果把序列看作是基因组内的关键词,则序列在基因组上出现的位置差异则可能说明这些序列之间的功能差异。如果两个重复序列在同一基因组上的分布相同,则说明这些序列之间可能有非常密切的关系。如果不同,则可以通过分布一致性检验来判断其差异是否具有统计学意义。当其差异具有统计学意义时,我们一般很想知道其差别到底有多大,以此来推断两者之间功能的差异。由于P 值受样本含量的影响,其大小难以反应分布之间的差异,因此需要寻找一个合适的指标对分布差异进行量化。相对熵( relativeentropy ),又称KL 散度( Kullback-Leibler divergence),是衡量不同分布之间差异的常用方法。但其有两个缺陷:①当计算的顺序不一样时,其结果不同;②对于定量数据,一般需将抽样数据进行适当分组再计算,而分组会损失一部分样本信息。Kolmogorov-Smirnov 检验(KS 检验) 一般用于两种分布之间是否有差异的假设检验。该方法完全避免了相对熵计算所存在的两个缺陷。那么是否可以利用KS 检验的统计量对分布之间差异进行量化呢?另外,不同的分布具有不同累积概率曲线,而图心(centroid)可以视为一个图形的中心,那么累积概率曲线下图形的图心差异也有可能用于衡量分布之间 ……此处隐藏2488个字……判别的D值差异在0. 1 附近,而图心差异在0. 02 附近。β(3,3) 的统计量D,在做均匀分布一致性检验时,其均值在0. 15 附近。β(3,3) 与均匀分布的差异已经较小,因此推断D 值< 0. 1 时,其实际意义可能较小。所以我们认为在考察分布差异时,当α > 0. 001 时,最小D 值差异在0. 1 以上时,最小样本含量应该大于100。对于图心差异来说,由于样本含量对其影响与D 值类似,因此可认为当α > 0. 001时,最小图心差异在0. 02 以上时,最小样本含量应该大于100。、当考察同一基因组上多个序列之间的关系时,若能将所有序列的分布画在一个坐标系内,则可以使序列分布之间的差异比较直观。因此本实验还探讨了在同一坐标系标记任意两个分布差异的可行性。当使用D 值差异时,由于对称性的存在,采用单个基准分布将有可能出现两个分布D 值差异相同的情况。此时采用两个基准分布可消除这一缺陷,而且可以将不同分布表示在同一坐标系,但该坐标系内分布之间的差异不一定等于D 值差异。但此时需注意,若采用不同的基准分布,则相当于换了不同的坐标系,分布之间的关系也将发生改变。若采用图心指标,不同的累积概率曲线会对应不同的图心,而且图心不会像D 值那样随基准分布而变。另外由于D 值反映的是最大累计概率差异,而图心则与整个图形有关,因此采用图心指标作图可能会更好地反映分布之间的差异。、在实例分析中,我们选取了同一基因组上的6 条序列进行了分析。正如本文开头所言,分布之间的关系可能作为功能联系密切程度的一个指标,因此该实例分析结果显示图心有可能作为序列功能聚类的一种指标。、最后,由于本研究采用数值模拟的方法,并不能完全反应各种实际情况,有待在实际运用中探讨证实。

《谈谈对基因组内不同序列分布差异进行量化的探讨论文.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式