Clinvar数据库CNV结果怎么获取【解决】

clinvar数据库每周都会更新。

获取制表符分隔的变异结果:
wget https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/variant_summary.txt.gz

从中筛选致病和可能致病的CNV(GRCh37)的结果:
grep -P "^#|GRCh37" variant_summary.txt | grep -P "^#|pathogenic\t|Pathogenic" | grep -P  "^#|copy number gain|copy number loss" > variant_summary_cnv.txt


另外,第二列是变异类型,可以先统计一下都有什么类型:
cut -f 2 variant_summary.txt | sort | uniq

之前查到过一种说法,gain和loss在肿瘤学里指拷贝数的变化,deletion则指纯合缺失,duplication指加倍以上(比如2倍体的拷贝数是2,加倍的拷贝数就是4,加倍以上就是至少拷贝数为5)的扩增。
不过这只是一种说法,我也不是很确信,至少在clinvar里,CNV应该是标黄的两个。
del和dup啊insertion等变异的叫法真的很容易混淆(中文也混淆),别人经常那这些东西问我,问过还容易忘记,我嘴皮子都解释破了,还是按照大小来区分吧。

complex
copy number gain
copy number loss
deletion
duplication
fusion
indel
insertion
inversion
NT expansion
protein only
short repeat
single nucleotide variant
Translocation
Type
undetermined variant


评论

此博客中的热门博文

R包编写详细教程

Hadley Wickham的R语言编写规范

RMarkdown中文报错的问题【解决】