6 min to read
RNASeq数据比对——以hisat2、htseq为例
原理
去接头
Trim galore,是可以自动检测adapter。trimmomatic只是针对Illumina高通量测序平台设计的接头去除和低质量reads清洗软件。Trim Galore是对FastQC和Cutadapt的包装,适用于所有高通量测序,包括RRBS(Reduced Representation Bisulfite-Seq ), Illumina、Nextera 和smallRNA测序平台的双端和单端数据。主要功能包括两步:第一步首先去除低质量碱基,然后去除3' 末端的adapter,如果没有指定具体的adapter,程序会自动检测前1million的序列,然后对比前12-13bp的序列是否符合不同测序平台的adapter类型。
其他的分析流程有:HISAT-StringTie-Ballgown[06]。
常见linux命令[3]
分析环境搭建
RSeQC只支持python2.7,所以需要anaconda的默认python3.5版本切换为python2.7版本
数据下载
下载mRNA-seq数据
数据来自于GSE81916中敲除了AKAP95基因的人293细胞的mRNA-seq数据SRR3589956、SRR3589957。
###方法一
cd ~/ncbi/public/sra
for ((i=56;i<=57;i=i++));do prefetch -v SRR35899$i ;done
###方法二
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR548/SRR5483090/
##sra转fasta
#单端:
fastq-dump --fasta SRR6470965.sra #结果生成 :SRR6470965.fasta
fastq-dump SRR6470965.sra #结果生成 :SRR6470965.fastq
#双端:
fastq-dump --split-3 DRR002018.sra #结果生成 DRR002018_1.fastq;DRR002018_2.fastq
参考基因组hg19下载
下载地址,存放到~/ncbi/public/reference/genome目录下。
参考基因组注释gtf文件下载
第28版本的hg19人类基因组注释信息GTF文件下载地址,第28版本的hg19人类基因组注释信息GTF文件下载地址。
文件存放到~/ncbi/public/reference/annotation
人类基因组index文件下载
下载地址,存放到~/ncbi/public/reference/index目录下。
参考基因组注释bed文件下载
hg19_RefSeq.bed下载地址,存放到~/ncbi/public/reference/目录下。
数据分析
fastq-dump将sra数据转换成fastq格式
--gzip 使得输出的结果是.gz的格式;--split-3 对于PE测序,输出的结果是_1.fastq.gz和*_2.fastq.gz;-A 输入sra文件的绝对路径。*
Fastqc进行测序结果的质控
MultiQC对质控结果合并
测序数据比对到参考基因组上
sam格式转换为bam、排序、建立index
比对质控
计算基因组覆盖率
resds计数
合并reads计数数据形成表达矩阵
bedtools makewindows 计算序列覆盖度
参考资料
[01]. 浙大植物学小白的转录组笔记
[02]. 转录组入门(6): reads计数
[03]. 《Advanced Bash-Scripting Guide》 in Chinese
[04]. RNASEQ学习流程
[05]. Trim Galore ——自动检测adapter的质控软件
[06]. RNA-seq数据分析---方法学文章的实战练习
Comments