博文

目前显示的是 一月, 2019的博文

怎样获得假基因列表【解决】

最近遇到一个问题,需要一个人类假基因的列表。查资料发现这个列表可以通过 UCSC Table Browser  工具来获得。 如果是Ensemble的转录本: Database选GENECODE Primary Table选Pseudogene 如果是NCBI的转录本: Database选37或者38 Primary Table选ncbiRefSeqOther 然后点击output就会输出一个注释文件,可以加入到annovar的注释流程中。

帖子标题字符长度分布

图片
偶然看到YIHUI大神提供的 这个数据 ,试着拟合了一下,感觉好像更符合NB啊。 代码如下: (借用了评论1里的画图脚本) len <- c(20,20,13,15,2,11,31,10,12,20,13,56,7,13,19,46,16,19,14,9,20,10,22,13,2,43,11,15,20,14,26,10,19,33,15,15,65,7,16,18,10,32,14,17,14,24,19,60,13,17,27,7,12,7,11,70,50,8,13,8,15,2,20,27,39,7,7,26,21,19,22,8,26,42,8,17,37,17,5,14,21,8,28,18,69,12,23,12,17,14,17,8,20,31,36,25,20,6,6,11) mean(len) sd(len) hist(len, 20) ll.pois <- function(p) {     mu <- p[1]     ll <- sum(dpois(len, lambda = mu, log = T))     -ll } ll.norm <- function(p) {     mu <- p[1]     sigma2 <- p[2]     ll <- sum(dnorm(len, mean = mu, sd = sigma2, log = T))     -ll } ll.nb <- function(p) {     mu <- p[1]     theta <- p[2]     ll <- sum(dnbinom(len, mu=mu, size = theta, log=T))     -ll } out.pois <- nlm(ll.pois, 2) out.norm <- nlm(ll.norm, c(2,1)) out.nb <- n...

R包编写详细教程

图片
最近在写一个R包,遇到了很多的坑,网上几乎没有一个教程能涵盖我遇到的所有问题,因此决定写一个教程。 当然,这不是说网上的教程都不好,网上那些教程都是写一个非常简单的示例,让你很快能够建立一个包,但是我们写包通常不是为了练练手,而是真的有开发的需求的,涉及到的点要比网上的示例和教程都多得多,动不动就会踩坑。所以决定把我踩到的坑都记录下来,方便自己也方便别人。 本文使用的环境是windows10系统Rstudio IDE,因此在写包的时候,需要先安装Rtools才能打包,如果要生成manual.pdf,同时还需要安装Latex的排版引擎,比如 MiKTeX ,本文不详述。还有如果你想写一个使用手册,最好使用RMarkdown,用它可以写出非常漂亮的使用手册,windows系统在Rstudio里可以通过install.packages('rmarkdown')直接安装,linux系统不知道如何安装可以看 Linux配置R markdown 。 本人是第一次写包,有些问题虽然各种查资料解决了,但是可能也没有真正的解决,欢迎各位在评论里批评指正。 写一个R包,大概要经过以下几个步骤: 1)准备一个R包,含有一些必需文件和文件夹。 2)准备R包需要用到的函数和测试数据,并写函数和测试数据的注释。 3)将函数封装成一个包。 4)写说明书。(非必须) 5)将R包上传到github,方便修改和维护。(非必须) 6)补充:遇到问题 以下介绍各个步骤的要点: 1、准备一个R包 在介绍这个之前,需要先了解一下 R包的结构。 我们可以通过Rstudio来获得一个基本的R包模板,模板里就是R包的结构和必需内容。通过Rstudio→File→New Project→New Directory→R package,填写R包名称和创建路径,获得一个名为“myPackage”的R包,里面有以下的文件或文件夹,是一个R包必须有的: myPackage(见图1)    | ------  man文件夹:用于存放.Rd文件的文件夹,里面有一个示例文件hello.Rd。    | ------  R文件夹:用于存放R函数的文件夹,里面有一个示例文件hello.R。    | -...

CNV相关术语整理

图片
经常有人会问某软件为什么检不出来某变异(某种CNV),笔者发现是因为他们不清楚变异名称和CNV大小的关系,认为某款软件(其实是算法导致)适用于检测所有的类型的CNV,因而混为一谈。所以笔者花了点时间整理了一下各种定义及其对应的CNV大小,在此记录一下。 因为个人知识有限,此文肯定存在某种程度的错误,欢迎评论批评指正。 1-     染色体异常 ( chromosome abnormality ): 减数分裂或有丝分裂过程中染色体的数目异常或者结构异常。 数目异常( numerical disorders )也叫非整倍体( aneuploidy ),包括单体和具有一对以上染色体(如三体)。 结构异常( structural abnormalities )通常有:插入、缺失、重复、易位和倒位等形式。其中插入、缺失和重复属于不平衡结构变异,易位和倒位属于平衡结构变异。 2-     染色体缺失 / 重复综合征 (chromosomal deletion/duplication syndromes):      指通过核型分析检测到的较大(大于 5Mb )的染色体结构异常,由此导致的综合征。      常规染色体核型分析分辨率为 5-10Mb ,可以检测染色体数目和结构异常。难以检出 5Mb 以下的缺失重复。 3-     染色体微缺 / 微重综合征 ( microdeletion/duplication syndromes ):            通过荧光探针检测到的( 1-3Mb )的染色体结构异常,由此导致的综合征。 * 核型分析和荧光探针定位都是 CMA 和 NGS 快速发展之前、用来进行致病基因定位的方法,染色体缺失 / 重复、染色体微缺 / 微重等术语由此而来。有许多已知综合征均由于这两种类型的结构变异导致。 4-     染色体微阵列分析 ( Chromosomal microarray analysis, CMA)     ...

Linux配置R markdown

Linux配置R markdown 附上一个写好的报告: https://rpubs.com/sanadamakomi/433391

R源码安装说明

R源码linux安装说明