近期cnv文献调研感想


经过15号下午和16号早上一天的调研,把这几年CNV相关的文献大体看了一遍,感想如下:

1)致病和可能致病的CNV(指的是10kb以上的,不包括单个外显子水平的CNV)在产前产后不同年龄遗传疑似患者等各种样本里的检出率,基本上是10-15%。大概是目前的检测极限性导致的。

2CNV软件目前依然未出现权威,倒是这几年关于外显子CNV的检测软件不断地发出来,说明人们越来越有需求,也越来越意识到两种CNV不能采用相同的策略。外显子CNV的假阳率依然是很大的问题。

3)开始出现了讨论CNV参考集样本如何挑选的文章【注1】,说明随着测序结果解读的发展,对CNV的检测准确率要求越来越高。以后CNV结果的分析在领域的重要性会不断攀升。只要NGS还占据主要份额,对掌握CNV分析和流程优化人才的需求也会越来越迫切。因为大量软件不根据自己的流程优化是不能直接生产使用,至少参考集得根据流程选择吧。

4)不管是点突变还是CNVWGSWES优势越来越明显(点突变是因为探针捕获的均一性会影响外显子区域的覆盖,WGS能保留更多区域的reads,特别是PCR-free的情况下)。如果还在这个领域待着的公司和个人,可能都要开始研发WGS相关的流程和产品了。

5)关于CNV检测方法,前几年(2017年前)有大量的关于机器学习甚至深度学习的文章出现,但是个人感觉这几年这样的文章变少了,而且关于CNV算法的文章也变少了,我个人认为可能是大家意识到复杂的算法会影响灵敏度和导致过拟合,影响CNV检测最大的因素还是数据的均一性和参考集的选择,越简单的模型可能越能够权衡灵敏度和特异度。但是这几年如何提高CNV检测的准确性的文章出现频率变高了,感想同3)。不过关于如何更准确地统计CNV检出率之类的文章还是没有找到……

6)ACMG呼吁CNV的致病评级应该去表型化,以及近几年关于CNV GWAS和疾病关系的研究越来越热门,说明以后CNV可能会变成比SNP更强的一种致病标记,更容易流程化(就和肿瘤靶向报告可以直接出一样)总之应该开始开发这类产品了,我很想研发,但是我们会社不给力啊……OTL


1 这篇文章说可以用knnk-means来筛选cnv的参考集,可能会有助于cnvkit和外显子cnv的检测,两者效果差不多但k均值速度更快。

注2:关于CNV检测的影响因素,笔者曾经整理过一篇博文,欢迎批评改进。

评论

此博客中的热门博文

R包编写详细教程

Hadley Wickham的R语言编写规范

RMarkdown中文报错的问题【解决】