CNV相关术语整理

经常有人会问某软件为什么检不出来某变异(某种CNV),笔者发现是因为他们不清楚变异名称和CNV大小的关系,认为某款软件(其实是算法导致)适用于检测所有的类型的CNV,因而混为一谈。所以笔者花了点时间整理了一下各种定义及其对应的CNV大小,在此记录一下。

因为个人知识有限,此文肯定存在某种程度的错误,欢迎评论批评指正。

1-    染色体异常chromosome abnormality):

减数分裂或有丝分裂过程中染色体的数目异常或者结构异常。

数目异常(numerical disorders)也叫非整倍体(aneuploidy),包括单体和具有一对以上染色体(如三体)。

结构异常(structural abnormalities)通常有:插入、缺失、重复、易位和倒位等形式。其中插入、缺失和重复属于不平衡结构变异,易位和倒位属于平衡结构变异。

2-    染色体缺失/重复综合征(chromosomal deletion/duplication syndromes):

     指通过核型分析检测到的较大(大于5Mb)的染色体结构异常,由此导致的综合征。

     常规染色体核型分析分辨率为5-10Mb,可以检测染色体数目和结构异常。难以检出5Mb以下的缺失重复。

3-    染色体微缺/微重综合征microdeletion/duplication syndromes):
     
     通过荧光探针检测到的(1-3Mb)的染色体结构异常,由此导致的综合征。

*核型分析和荧光探针定位都是CMANGS快速发展之前、用来进行致病基因定位的方法,染色体缺失/重复、染色体微缺/微重等术语由此而来。有许多已知综合征均由于这两种类型的结构变异导致。

4-    染色体微阵列分析Chromosomal microarray analysis, CMA)
     包括基于微阵列的比较基因组杂交(array comparative genomic hybridization , aCGH) 和单核苷酸多态性微阵技术(single nucleotide polymorphism array,SNP array) 

     可以检测染色体水平的缺失和重复,但是无法检测易位和倒位。如果检测Trio样本,SNP芯片能够利用纯合子区域检测单亲二倍体(uniparental disomy , UPD)和杂合缺失(Loss of heterozygosity,LOH)。其中SNP array技术可以在1天完成,并且最佳能够检测100kb以上的CNV,对于50kb以下的CNV检测不好。
类型
分辨率
BAC clone (~150 kb)
1Mb
Oligonucleotide (45-85 bp) arrays
可以定制,全基因组CNV阵列可以到5~6kb一条探针
Oligonucleotide SNP arrays
可以定制,普遍2-6 kb一条探针*
     *关于芯片详细介绍可以看参考资料[1]

5-   拷贝数变异copy number variation):

     指大于1Kb的染色体不平衡结构变异(插入、缺失、重复)。人群频率大于1%的拷贝数变异可以成为拷贝数多态(CNP)。为了简单起见,学界常用CNV指代染色体上的一切剂量变异(包括上述的染色体缺失/重复和微缺/微重)。另外,注意这里的变异指结构变异,一般不把SNPInDel级别的插入缺失称为CNV)。

     CNV的检测有许多方法,其中二代测序比起其他方法的优势(有前提):

     1)通过测序范围的扩大(比如WGS,或者设计更多的探针)和提高测序深度,可以使CNV的检出范围更加精确,检测更小的CNV(灵敏度更高)

     2)通过提高测序深度,检测杂合缺失和加倍(比如异质性肿瘤的拷贝数扩增)比传统方法更加灵敏;

     3)比起其他方法自由度高(其他方法往往需要定制探针),样本如果多,成本也相对较低。而且同时还可以检测单核苷酸改变。

     劣势在于:
     1) CNV的检测非常依赖探针设计和流程稳定性。
     2) CNV检测主要通过比较测序深度差异,数据噪声较大,需要用对照样本来降低噪声。
     3) 目前尚没有认可度非常高的CNV检测流程。不同流程检出结果差别可能会很大。

    *TCGA曾经做过室间质评(参考资料[5]),使用TCGA混的WGS数据,基本没有公司的检测流程是一模一样的,结果也是差别巨大。

    *所以所谓 “软件A检的出的结果软件B也要检出”这个要求,在范围较大的CNV可能能够实现(比如1Mb以上CNV,这里没有测量过大小的极限,仅做举例供参考),更小的CNV水平上是无法实现的。(原话其实是“别家公司检出的结果自己也要检出”,就更难保证一定能100%实现了,因为还涉及检测流程——包括捕获方法、流程试剂和对照样本的差异。)

     4) 由于检测灵敏度高于其他方法,检出的CNV往往也比其他方法检出的多,目前二代测序的CNV结果有很多还没有得到较好的生物学功能上的解释,意义未明,数据库上明确关联疾病的CNV,大多都是片段较大的、用其他的方法检出的结果。

     *二代测序CNV的研究、特别是群体水平的研究发展较晚,还需要积累更多的数据。得益于近几年测序成本不断下降,相信这项工作会在短时间内有较大的突破。

     *注意区分假阳性和意义未明:

     1CNV假阳性往往是由于CNV噪声导致的,噪声是永远无法完全消除的,只能尽可能地减小。(噪声来源于系统误差和随机误差,只能尽可能避免系统误差,无法避免随机误差。另外目标捕获测序本身即存在一定的系统误差,只要采用该方法就无法完全避免。)

    2)并不是所有的意义未明的CNV都是假阳性。文献里说的假阳性都是有条件的。而且近几年越来越多的研究发现正常人基因组里有很多1-100kbCNV,受限于目前研究的不足和技术局限性,从二代测序技术层面无法完全区别假阳性和这些意义未明的CNV,需要通过其他更加灵敏的手段才能区分,但是这种手段也往往代价较大,因此不是所有的研究里所有的CNV都能得到验证。研究里往往只解释和他们研究结果相关的CNV(比如疾病研究,只解释检出的疾病相关的CNV,其实同时还检出其他CNV,并不做过多解释,包括CMA这种方法也是同样的。不要误解为他们没有检出其他CNV。)

     6-   外显子缺失/重复

     指基因的单个或者多个外显子缺失。外显子缺失/重复的断点一般发生在内含子上。

     *目标捕获测序或者MLPA等方法均通过测定外显子的拷贝数来检测外显子缺失/重复。虽然外显子大多短于1kb,但是实际上外显子缺失/重复的CNV大小在1kb~100kb参考材料[6])之间。





                                                 图:人类基因长度分布



参考资料:
[1] https://www.ncbi.nlm.nih.gov/dbvar/content/overview/   
[2] https://www.nature.com/articles/nrg1767  
[3] https://www.merckmanuals.com/professional/pediatrics/chromosome-and-gene-anomalies/overview-of-chromosomal-anomalies
[4] https://www.merckmanuals.com/professional/pediatrics/chromosome-and-gene-anomalies/microdeletion-and-microduplication-syndromes
[5] https://www.nature.com/articles/ncomms10001
[6] https://biology.stackexchange.com/questions/48110/how-is-the-size-of-a-gene-defined 
[7] https://www.researchgate.net/publication/7498905_An_analysis_on_gene_architecture_in_human_and_mouse_genomes 


评论

此博客中的热门博文

R包编写详细教程

Hadley Wickham的R语言编写规范

RMarkdown中文报错的问题【解决】