STAR:转录组数据比对工具简介

网友投稿 2505 2022-11-25

STAR:转录组数据比对工具简介

STAR:转录组数据比对工具简介

欢迎关注”生信修炼手册”!

STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。软件的源代码保存在github上,地址如下

​​xzvf 2.6.1b.tar.gz

解压缩之后,在​​bin/Linux_x86_64_static​​​目录下,提供了编译好的可执行文件​​STAR​​。和hisat等软件不同,STAR将所有的功能整合在了同一个程序中,通过切换runMode来执行不同的任务。

1. 构建基因组索引

运行比对前,首先需要对基因组建立索引,建立索引对应的runMode为​​genomeGenerate​​, 基本用法如下

STAR --runMode genomeGenerate \--runThreadN 20 \--genomeFastaFiles hg19.fasta \--genomeDir hg19_STAR_db \--sjdbGTFfile hg19.gtf \--sjdbOverhang 149

建立索引需要基因组的fasta和gtf文件,通过​​genomeFastaFiles​​​和​​sjdbGTFfile​​​这两个参数分别指定;STAR构建索引需要指定一个输出目录,这个目录必须事先创建好,在该目录下,会生成许多文件,所以必须有写权限;​​runThreadN​​​指定线程数;​​sjdbOverhang​​​的值默认为100, 在实际设置时,最佳取值为​​max(read_length) - 1​​。

在构建索引时,还支持加入​​intron​​​的区间信息,通过​​sjdbFileChrStartEnd​​指定对应的文件,多个文件用逗号分隔,这种格式的文件是由STAR比对产生的,通常用于2-pass比对模式。

官方推荐基因组的fasta采用​​primary_assembly​​​版本, 不应该包含​​alt_scaffold​​​和​​patches​​。对于human而言,NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_assembly_structure/Primary_Assembly/

Ensembl链接如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

2. 运行比对

STAR支持fasta/fastq格式的输入文件,如果序列文件是压缩之后的,需要用​​readFilesCommand​​参数指定文件解压缩的方法,对于gzip压缩的文件而言,有以下两种下写法

--readFilesCommand zcat--readFilesCommand gzip -c

比对完成后,会输出许多文件,包含4个类别

log文件sam文件bam文件剪切位点文件

每个文件都有事先定义好的名字,当多个样本同时运行时,为了加以区分,可以通过​​outFileNamePrefix​​​指定输出文件的前缀。前3种类型的文件都比较容易理解,剪切位点文件实际上是根据mapping情况,估算出来的intron区间的信息,默认的文件名称为​​SJ.out.tab​​。

默认输出的比对文件为SAM格式,为了节省磁盘空间,方便下游分析,可以通过​​outSAMtype​​​参数指定输出bam文件,该参数有两个字段值,第一个值指定文件类型, 取值有​​SAM​​​和​​BAM​​​两种,第二个值指定是否排序,取值范围包括​​Unsorted​​​, ​​SortedByCoordinate​​, 写法如下

--outSAMtype BAM SortedByCoordinate

上述写法输出排序之后的bam文件。

单端数据比对的基本用法如下

STAR \--runThreadN 20 \--genomeDir hg19_STAR_db \--readFilesIn reads.fq \--sjdbGTFfile hg19.gtf \--sjdbOverhang 149 \--outFileNamePrefix sampleA \--outSAMtype BAM SortedByCoordinate

双端数据比对的基本用法如下

STAR \--runThreadN 20 \--genomeDir hg19_STAR_db \--readFilesIn r1.fq.gz r2.fq.gz \--readFilesCommand zcat \--sjdbGTFfile hg19.gtf \--sjdbOverhang 149 \--outFileNamePrefix sampleA \--outSAMtype BAM SortedByCoordinate

以上只是基本的比对,STAR官方更推荐使用2-pass比对模式,即比对两次,有以下两种方式

multi-sample 2-pass第一次比对和上述的用法一致,比对完之后,每个样本会产生一个intron的区间文件​​SJ.out.tab​​; 在第二次比对之前,重新构建一次基因组的索引,添加所有样本的​​SJ.out.tab​​文件,然后利用新的基因组索引重新比对。这种做法综合了多个样本的​​intron​​信息,比对的灵敏度会更高,缺点是操作比较繁琐。per-sample 2-pass对于单个样本,在比对时直接添加​​--twopassMode Basic​​参数,软件会自动进行两次比对,将第一次比对的​​SJ.out.tab​​加入到索引,然后重新比对。这种方法操作简单,适用于单个样本的2-pass 比对。

更多参数和用法请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:详解人类基因在不同数据库中的ID
下一篇:HLA Epitope Registry-HLA抗原表位数据库
相关文章

 发表评论

暂时没有评论,来抢沙发吧~