CNV相关术语整理
经常有人会问某软件为什么检不出来某变异(某种CNV),笔者发现是因为他们不清楚变异名称和CNV大小的关系,认为某款软件(其实是算法导致)适用于检测所有的类型的CNV,因而混为一谈。所以笔者花了点时间整理了一下各种定义及其对应的CNV大小,在此记录一下。
因为个人知识有限,此文肯定存在某种程度的错误,欢迎评论批评指正。
因为个人知识有限,此文肯定存在某种程度的错误,欢迎评论批评指正。
1-
染色体异常(chromosome abnormality):
减数分裂或有丝分裂过程中染色体的数目异常或者结构异常。
数目异常(numerical disorders)也叫非整倍体(aneuploidy),包括单体和具有一对以上染色体(如三体)。
结构异常(structural abnormalities)通常有:插入、缺失、重复、易位和倒位等形式。其中插入、缺失和重复属于不平衡结构变异,易位和倒位属于平衡结构变异。
减数分裂或有丝分裂过程中染色体的数目异常或者结构异常。
数目异常(numerical disorders)也叫非整倍体(aneuploidy),包括单体和具有一对以上染色体(如三体)。
结构异常(structural abnormalities)通常有:插入、缺失、重复、易位和倒位等形式。其中插入、缺失和重复属于不平衡结构变异,易位和倒位属于平衡结构变异。
2-
染色体缺失/重复综合征(chromosomal deletion/duplication
syndromes):
指通过核型分析检测到的较大(大于5Mb)的染色体结构异常,由此导致的综合征。
常规染色体核型分析分辨率为5-10Mb,可以检测染色体数目和结构异常。难以检出5Mb以下的缺失重复。
3-
染色体微缺/微重综合征(microdeletion/duplication syndromes):
通过荧光探针检测到的(1-3Mb)的染色体结构异常,由此导致的综合征。
*核型分析和荧光探针定位都是CMA和NGS快速发展之前、用来进行致病基因定位的方法,染色体缺失/重复、染色体微缺/微重等术语由此而来。有许多已知综合征均由于这两种类型的结构变异导致。
*核型分析和荧光探针定位都是CMA和NGS快速发展之前、用来进行致病基因定位的方法,染色体缺失/重复、染色体微缺/微重等术语由此而来。有许多已知综合征均由于这两种类型的结构变异导致。
4-
染色体微阵列分析(Chromosomal microarray analysis, CMA)
包括基于微阵列的比较基因组杂交(array
comparative genomic hybridization , aCGH) 和单核苷酸多态性微阵技术(single nucleotide polymorphism array,SNP array)
可以检测染色体水平的缺失和重复,但是无法检测易位和倒位。如果检测Trio样本,SNP芯片能够利用纯合子区域检测单亲二倍体(uniparental disomy , UPD)和杂合缺失(Loss of heterozygosity,LOH)。其中SNP array技术可以在1天完成,并且最佳能够检测100kb以上的CNV,对于50kb以下的CNV检测不好。
类型
|
分辨率
|
BAC clone (~150 kb)
|
1Mb
|
Oligonucleotide (45-85 bp) arrays
|
可以定制,全基因组CNV阵列可以到5~6kb一条探针
|
Oligonucleotide SNP arrays
|
可以定制,普遍2-6 kb一条探针*
|
*关于芯片详细介绍可以看参考资料[1]。
指基因的单个或者多个外显子缺失。外显子缺失/重复的断点一般发生在内含子上。
*目标捕获测序或者MLPA等方法均通过测定外显子的拷贝数来检测外显子缺失/重复。虽然外显子大多短于1kb,但是实际上外显子缺失/重复的CNV大小在1kb~100kb(参考材料[6])之间。
5- 拷贝数变异(copy number
variation):
指大于1Kb的染色体不平衡结构变异(插入、缺失、重复)。人群频率大于1%的拷贝数变异可以成为拷贝数多态(CNP)。为了简单起见,学界常用CNV指代染色体上的一切剂量变异(包括上述的染色体缺失/重复和微缺/微重)。另外,注意这里的变异指结构变异,一般不把SNP和InDel级别的插入缺失称为CNV)。
CNV的检测有许多方法,其中二代测序比起其他方法的优势(有前提):
1)通过测序范围的扩大(比如WGS,或者设计更多的探针)和提高测序深度,可以使CNV的检出范围更加精确,检测更小的CNV(灵敏度更高);
2)通过提高测序深度,检测杂合缺失和加倍(比如异质性肿瘤的拷贝数扩增)比传统方法更加灵敏;
3)比起其他方法自由度高(其他方法往往需要定制探针),样本如果多,成本也相对较低。而且同时还可以检测单核苷酸改变。
劣势在于:
1) CNV的检测非常依赖探针设计和流程稳定性。
2) CNV检测主要通过比较测序深度差异,数据噪声较大,需要用对照样本来降低噪声。
3) 目前尚没有认可度非常高的CNV检测流程。不同流程检出结果差别可能会很大。
*TCGA曾经做过室间质评(参考资料[5]),使用TCGA混的WGS数据,基本没有公司的检测流程是一模一样的,结果也是差别巨大。
*所以所谓 “软件A检的出的结果软件B也要检出”这个要求,在范围较大的CNV可能能够实现(比如1Mb以上CNV,这里没有测量过大小的极限,仅做举例供参考),更小的CNV水平上是无法实现的。(原话其实是“别家公司检出的结果自己也要检出”,就更难保证一定能100%实现了,因为还涉及检测流程——包括捕获方法、流程试剂和对照样本的差异。)
4) 由于检测灵敏度高于其他方法,检出的CNV往往也比其他方法检出的多,目前二代测序的CNV结果有很多还没有得到较好的生物学功能上的解释,意义未明,数据库上明确关联疾病的CNV,大多都是片段较大的、用其他的方法检出的结果。
*二代测序CNV的研究、特别是群体水平的研究发展较晚,还需要积累更多的数据。得益于近几年测序成本不断下降,相信这项工作会在短时间内有较大的突破。
*注意区分假阳性和意义未明:
1)CNV假阳性往往是由于CNV噪声导致的,噪声是永远无法完全消除的,只能尽可能地减小。(噪声来源于系统误差和随机误差,只能尽可能避免系统误差,无法避免随机误差。另外目标捕获测序本身即存在一定的系统误差,只要采用该方法就无法完全避免。)
2)并不是所有的意义未明的CNV都是假阳性。文献里说的假阳性都是有条件的。而且近几年越来越多的研究发现正常人基因组里有很多1-100kb的CNV,受限于目前研究的不足和技术局限性,从二代测序技术层面无法完全区别假阳性和这些意义未明的CNV,需要通过其他更加灵敏的手段才能区分,但是这种手段也往往代价较大,因此不是所有的研究里所有的CNV都能得到验证。研究里往往只解释和他们研究结果相关的CNV(比如疾病研究,只解释检出的疾病相关的CNV,其实同时还检出其他CNV,并不做过多解释,包括CMA这种方法也是同样的。不要误解为他们没有检出其他CNV。)
CNV的检测有许多方法,其中二代测序比起其他方法的优势(有前提):
1)通过测序范围的扩大(比如WGS,或者设计更多的探针)和提高测序深度,可以使CNV的检出范围更加精确,检测更小的CNV(灵敏度更高);
2)通过提高测序深度,检测杂合缺失和加倍(比如异质性肿瘤的拷贝数扩增)比传统方法更加灵敏;
3)比起其他方法自由度高(其他方法往往需要定制探针),样本如果多,成本也相对较低。而且同时还可以检测单核苷酸改变。
劣势在于:
1) CNV的检测非常依赖探针设计和流程稳定性。
2) CNV检测主要通过比较测序深度差异,数据噪声较大,需要用对照样本来降低噪声。
3) 目前尚没有认可度非常高的CNV检测流程。不同流程检出结果差别可能会很大。
*TCGA曾经做过室间质评(参考资料[5]),使用TCGA混的WGS数据,基本没有公司的检测流程是一模一样的,结果也是差别巨大。
*所以所谓 “软件A检的出的结果软件B也要检出”这个要求,在范围较大的CNV可能能够实现(比如1Mb以上CNV,这里没有测量过大小的极限,仅做举例供参考),更小的CNV水平上是无法实现的。(原话其实是“别家公司检出的结果自己也要检出”,就更难保证一定能100%实现了,因为还涉及检测流程——包括捕获方法、流程试剂和对照样本的差异。)
4) 由于检测灵敏度高于其他方法,检出的CNV往往也比其他方法检出的多,目前二代测序的CNV结果有很多还没有得到较好的生物学功能上的解释,意义未明,数据库上明确关联疾病的CNV,大多都是片段较大的、用其他的方法检出的结果。
*二代测序CNV的研究、特别是群体水平的研究发展较晚,还需要积累更多的数据。得益于近几年测序成本不断下降,相信这项工作会在短时间内有较大的突破。
*注意区分假阳性和意义未明:
1)CNV假阳性往往是由于CNV噪声导致的,噪声是永远无法完全消除的,只能尽可能地减小。(噪声来源于系统误差和随机误差,只能尽可能避免系统误差,无法避免随机误差。另外目标捕获测序本身即存在一定的系统误差,只要采用该方法就无法完全避免。)
2)并不是所有的意义未明的CNV都是假阳性。文献里说的假阳性都是有条件的。而且近几年越来越多的研究发现正常人基因组里有很多1-100kb的CNV,受限于目前研究的不足和技术局限性,从二代测序技术层面无法完全区别假阳性和这些意义未明的CNV,需要通过其他更加灵敏的手段才能区分,但是这种手段也往往代价较大,因此不是所有的研究里所有的CNV都能得到验证。研究里往往只解释和他们研究结果相关的CNV(比如疾病研究,只解释检出的疾病相关的CNV,其实同时还检出其他CNV,并不做过多解释,包括CMA这种方法也是同样的。不要误解为他们没有检出其他CNV。)
6- 外显子缺失/重复:
指基因的单个或者多个外显子缺失。外显子缺失/重复的断点一般发生在内含子上。
*目标捕获测序或者MLPA等方法均通过测定外显子的拷贝数来检测外显子缺失/重复。虽然外显子大多短于1kb,但是实际上外显子缺失/重复的CNV大小在1kb~100kb(参考材料[6])之间。
参考资料:
[1] https://www.ncbi.nlm.nih.gov/dbvar/content/overview/
[2] https://www.nature.com/articles/nrg1767
[3] https://www.merckmanuals.com/professional/pediatrics/chromosome-and-gene-anomalies/overview-of-chromosomal-anomalies
[4] https://www.merckmanuals.com/professional/pediatrics/chromosome-and-gene-anomalies/microdeletion-and-microduplication-syndromes
[5] https://www.nature.com/articles/ncomms10001
[6] https://biology.stackexchange.com/questions/48110/how-is-the-size-of-a-gene-defined
[7] https://www.researchgate.net/publication/7498905_An_analysis_on_gene_architecture_in_human_and_mouse_genomes
评论
发表评论