RNA-seq分析-学习笔记

zd00572

Posted by zd200572 on July 9, 2017

RNA-seq分析-学习笔记

从南京图书馆借了本《生物信息学最佳实践》(冉隆科. 生物信息学最佳实践[M]. 科学出版社, 2016.),前几章的笔记记在了纸质笔记本上,感觉还是电子版的可以更便携,刚好一本笔记本记完了,剩下的简略的笔记就记在这里了。

一、分析流程(pipeline)

测序(.fastq)——Bowtie/TopHat(.fa)(read alignment)——Cufflinks(.gtf)(transcript compilation)——cuffmerge(gene identification)——Cuffdiff(differential expression)——CummRbund(visualization)

1、数据准备

2、软件准备

a、TopHat(短读段映射)

b、Bowtie(一个超快的短读段比对工具)

c、Cufflinks(转录组装配)

d、CummeRbund(R的bioconductor包进行差异可视化表达)

e、Samtools(读段识别工具)

3、分析过程

a、构建索引文件

bowtie2-build genome-fasta-file index-name

b、比对

tophat [options] index-base reads1 reads2

-p:CPU线程数

–solesa-quals

–library-type:链特异性library type(illumia fr-untrusted)

DrZv9.66 #参考基因索引文件前辍

d、转录组重建

cufflinks [options]* aligned_reads.sam/bam

-g :gff格式注释文件

-b:较正算法

-u:初步评估

e、合并装配后的转录本文件

cuffmerge -p 4 -g annotation/DrZv9.66_chr12.gtf -s genome/Zv9.fa assemblies.txt

f、识别新的转录本

上步文本中每行包含一个注释字段(class_node)

g、差异表达分析

cuffdiff

-L:不同样品条件

-T:不同时间序列条件

h、使用cummeRbund包进行差异表达分析

‘>library(cummeRbund)#载入包

cuff = readCufflinks(‘diff_out’)#导入cuffdiff结果文件夹中diff_out

csDensity(genes(cuff))#表达值分布

csScatter(genes(cuff), ZV9_2cells’, ‘ZV9-6h’)#散点图

csScatterMatrix(genes(cuff))#检查单个密度和与之配对的散点图

csVolcanoMatrix(genes(cuff)), ‘ZV9_2cells’, ‘ZV9-6h’)#火山图

gene_diff_data=diffData(genes(cuff))#基因水平的表达数据

nrow(gene_diff_data)#统计总的表达基因数

sig_gene_data = subset(gene_diff_data, (significant ==’yes’))#显著表达差异的基因数

nrow(sig_gene_data)

write.table(sig_gene_data, ‘sig_diff_genes.txt’, sep = ‘\t’, row.names=FALSE, quote =F)#输出差异到文件中