Jenny

博文

目前显示的是一月, 2019的博文

怎样获得假基因列表【解决】

一月 22, 2019

最近遇到一个问题，需要一个人类假基因的列表。查资料发现这个列表可以通过 UCSC Table Browser 工具来获得。如果是Ensemble的转录本： Database选GENECODE Primary Table选Pseudogene 如果是NCBI的转录本： Database选37或者38 Primary Table选ncbiRefSeqOther 然后点击output就会输出一个注释文件，可以加入到annovar的注释流程中。

阅读全文

帖子标题字符长度分布

一月 22, 2019

偶然看到YIHUI大神提供的这个数据，试着拟合了一下，感觉好像更符合NB啊。代码如下：（借用了评论1里的画图脚本） len <- c(20,20,13,15,2,11,31,10,12,20,13,56,7,13,19,46,16,19,14,9,20,10,22,13,2,43,11,15,20,14,26,10,19,33,15,15,65,7,16,18,10,32,14,17,14,24,19,60,13,17,27,7,12,7,11,70,50,8,13,8,15,2,20,27,39,7,7,26,21,19,22,8,26,42,8,17,37,17,5,14,21,8,28,18,69,12,23,12,17,14,17,8,20,31,36,25,20,6,6,11) mean(len) sd(len) hist(len, 20) ll.pois <- function(p) { mu <- p[1] ll <- sum(dpois(len, lambda = mu, log = T)) -ll } ll.norm <- function(p) { mu <- p[1] sigma2 <- p[2] ll <- sum(dnorm(len, mean = mu, sd = sigma2, log = T)) -ll } ll.nb <- function(p) { mu <- p[1] theta <- p[2] ll <- sum(dnbinom(len, mu=mu, size = theta, log=T)) -ll } out.pois <- nlm(ll.pois, 2) out.norm <- nlm(ll.norm, c(2,1)) out.nb <- n...

阅读全文

R包编写详细教程

一月 10, 2019

最近在写一个R包，遇到了很多的坑，网上几乎没有一个教程能涵盖我遇到的所有问题，因此决定写一个教程。当然，这不是说网上的教程都不好，网上那些教程都是写一个非常简单的示例，让你很快能够建立一个包，但是我们写包通常不是为了练练手，而是真的有开发的需求的，涉及到的点要比网上的示例和教程都多得多，动不动就会踩坑。所以决定把我踩到的坑都记录下来，方便自己也方便别人。本文使用的环境是windows10系统Rstudio IDE，因此在写包的时候，需要先安装Rtools才能打包，如果要生成manual.pdf，同时还需要安装Latex的排版引擎，比如 MiKTeX ，本文不详述。还有如果你想写一个使用手册，最好使用RMarkdown，用它可以写出非常漂亮的使用手册，windows系统在Rstudio里可以通过install.packages('rmarkdown')直接安装，linux系统不知道如何安装可以看 Linux配置R markdown 。本人是第一次写包，有些问题虽然各种查资料解决了，但是可能也没有真正的解决，欢迎各位在评论里批评指正。写一个R包，大概要经过以下几个步骤： 1）准备一个R包，含有一些必需文件和文件夹。 2）准备R包需要用到的函数和测试数据，并写函数和测试数据的注释。 3）将函数封装成一个包。 4）写说明书。（非必须） 5）将R包上传到github，方便修改和维护。（非必须） 6）补充：遇到问题以下介绍各个步骤的要点： 1、准备一个R包在介绍这个之前，需要先了解一下 R包的结构。我们可以通过Rstudio来获得一个基本的R包模板，模板里就是R包的结构和必需内容。通过Rstudio→File→New Project→New Directory→R package，填写R包名称和创建路径，获得一个名为“myPackage”的R包，里面有以下的文件或文件夹，是一个R包必须有的： myPackage（见图1） | ------ man文件夹：用于存放.Rd文件的文件夹，里面有一个示例文件hello.Rd。 | ------ R文件夹：用于存放R函数的文件夹，里面有一个示例文件hello.R。 | -...

阅读全文

CNV相关术语整理

一月 03, 2019

经常有人会问某软件为什么检不出来某变异（某种CNV），笔者发现是因为他们不清楚变异名称和CNV大小的关系，认为某款软件（其实是算法导致）适用于检测所有的类型的CNV，因而混为一谈。所以笔者花了点时间整理了一下各种定义及其对应的CNV大小，在此记录一下。因为个人知识有限，此文肯定存在某种程度的错误，欢迎评论批评指正。 1- 染色体异常（ chromosome abnormality ）：减数分裂或有丝分裂过程中染色体的数目异常或者结构异常。数目异常（ numerical disorders ）也叫非整倍体（ aneuploidy ），包括单体和具有一对以上染色体（如三体）。结构异常（ structural abnormalities ）通常有：插入、缺失、重复、易位和倒位等形式。其中插入、缺失和重复属于不平衡结构变异，易位和倒位属于平衡结构变异。 2- 染色体缺失 / 重复综合征 (chromosomal deletion/duplication syndromes)：指通过核型分析检测到的较大（大于 5Mb ）的染色体结构异常，由此导致的综合征。常规染色体核型分析分辨率为 5-10Mb ，可以检测染色体数目和结构异常。难以检出 5Mb 以下的缺失重复。 3- 染色体微缺 / 微重综合征（ microdeletion/duplication syndromes ）：通过荧光探针检测到的（ 1-3Mb ）的染色体结构异常，由此导致的综合征。 * 核型分析和荧光探针定位都是 CMA 和 NGS 快速发展之前、用来进行致病基因定位的方法，染色体缺失 / 重复、染色体微缺 / 微重等术语由此而来。有许多已知综合征均由于这两种类型的结构变异导致。 4- 染色体微阵列分析（ Chromosomal microarray analysis, CMA) ...

阅读全文

Linux配置R markdown

一月 03, 2019

Linux配置R markdown 附上一个写好的报告： https://rpubs.com/sanadamakomi/433391

阅读全文

R源码安装说明

一月 03, 2019

R源码linux安装说明

阅读全文