比较不同样本同一区域测序深度的R实现

一、测序深度概率分布模型 只有理解测序深度分布模型,才能更好地理解测序数据,理解测序深度相关的分析,比如拷贝数变异检测、差异表达分析等。下文基于参考资料,加上自己的理解写成,理解的也不是很正确,欢迎留言指教。 1-多项分布 ki为某个region上比对的reads总数,一次测序好比从一个瓮中抽一个彩球,一个瓮就是一个pool,抽某个颜色的球的概率pi取决于彩球在瓮中的比例,如果抽样次数即测序总reads数N远远小于DNA模板数(即瓮中彩球总数),那么每种球抽到的个数(每个区域上的片段总数ki的向量)符合多项分布,每种球被抽到的概率pi是不会随着抽样次数N而改变的。但是随着我们测序通量的加大,测序的reads数有时候甚至能够超过模板数,因此这个模型可能不是太适用了。 2-二项分布和泊松分布 如果单独地考虑一个片段被测序的次数(一个球是否被抽到,不放回抽样),是否被测序(抽到没抽到)只有是否2个选项,测序彼此之间相互独立(每次抽相互独立,球与球之间不会互相干扰),区域i上测序reads数ki即符合二项分布,试验次数N即测序总reads数,成功概率取决于region i的片段占中片段的比例和测序的容易程度,pi会随着N而变化。N变大,pi变小,二项分布会收敛于泊松分布。实际的测序比较符合后者,因为现在的NGS里测序reads数都很大。 3-过度离散的泊松分布(复合泊松分布) 上述的理想实验描述了从一个非常大的DNA片段总体中重复抽样的过程,但是,重复抽样虽然可以作为技术重复的假设,却没办法作为生物学重复的假设。一个实验里的生物学重复就意味着生成了一个新的DNA片段总体,在这个新的样本总体里,基因组上不同区域上被抽样的概率p不是完全相同。因此虽然泊松近似的二项分布依然可以来描述一个单独的抽样,因为N依然很大,而pi很小,但是样本j在特征(比如区域)i上读断数的期望值E(Kij)会随着样本j而变化。测序深度符合泊松分布,测序深度的均值也符合泊松分布,所以就是复合泊松分布。而且因为方差大于均值,所以这个泊松分布是过度离散的。就是说不同样本同一个区域之间的reads数方差大于他们的均值。 为了构建这样一个模型,模型需要有以下的特征: 1)模型需要能够支持0...