STAR:转录组数据比对工具简介-FinClip官网

STAR:转录组数据比对工具简介

网友投稿 2505 2022-11-25

STAR:转录组数据比对工具简介

欢迎关注”生信修炼手册”!

STAR是一款RNA_seq数据专用的比对软件，比对速度非常快，最大的优势是灵敏度高，GATK推荐采用STAR比对，然后进行下游的SNP分析。软件的源代码保存在github上，地址如下

xzvf 2.6.1b.tar.gz

解压缩之后，在bin/Linux_x86_64_static目录下，提供了编译好的可执行文件STAR。和hisat等软件不同，STAR将所有的功能整合在了同一个程序中，通过切换runMode来执行不同的任务。

1. 构建基因组索引

运行比对前，首先需要对基因组建立索引，建立索引对应的runMode为genomeGenerate, 基本用法如下

STAR --runMode genomeGenerate \--runThreadN 20 \--genomeFastaFiles hg19.fasta \--genomeDir hg19_STAR_db \--sjdbGTFfile hg19.gtf \--sjdbOverhang 149

建立索引需要基因组的fasta和gtf文件，通过genomeFastaFiles和sjdbGTFfile这两个参数分别指定；STAR构建索引需要指定一个输出目录，这个目录必须事先创建好，在该目录下，会生成许多文件，所以必须有写权限；runThreadN指定线程数；sjdbOverhang的值默认为100，在实际设置时，最佳取值为max(read_length) - 1。

在构建索引时，还支持加入intron的区间信息，通过sjdbFileChrStartEnd指定对应的文件，多个文件用逗号分隔，这种格式的文件是由STAR比对产生的，通常用于2-pass比对模式。

官方推荐基因组的fasta采用primary_assembly版本, 不应该包含alt_scaffold和patches。对于human而言，NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_assembly_structure/Primary_Assembly/

Ensembl链接如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

2. 运行比对

STAR支持fasta/fastq格式的输入文件，如果序列文件是压缩之后的，需要用readFilesCommand参数指定文件解压缩的方法，对于gzip压缩的文件而言，有以下两种下写法

--readFilesCommand zcat--readFilesCommand gzip -c

比对完成后，会输出许多文件，包含4个类别

log文件sam文件bam文件剪切位点文件

每个文件都有事先定义好的名字，当多个样本同时运行时，为了加以区分，可以通过outFileNamePrefix指定输出文件的前缀。前3种类型的文件都比较容易理解，剪切位点文件实际上是根据mapping情况，估算出来的intron区间的信息，默认的文件名称为SJ.out.tab。

默认输出的比对文件为SAM格式，为了节省磁盘空间，方便下游分析，可以通过outSAMtype参数指定输出bam文件，该参数有两个字段值，第一个值指定文件类型，取值有SAM和BAM两种，第二个值指定是否排序，取值范围包括Unsorted, SortedByCoordinate, 写法如下

--outSAMtype BAM SortedByCoordinate

上述写法输出排序之后的bam文件。

单端数据比对的基本用法如下

STAR \--runThreadN 20 \--genomeDir hg19_STAR_db \--readFilesIn reads.fq \--sjdbGTFfile hg19.gtf \--sjdbOverhang 149 \--outFileNamePrefix sampleA \--outSAMtype BAM SortedByCoordinate

双端数据比对的基本用法如下

STAR \--runThreadN 20 \--genomeDir hg19_STAR_db \--readFilesIn r1.fq.gz r2.fq.gz \--readFilesCommand zcat \--sjdbGTFfile hg19.gtf \--sjdbOverhang 149 \--outFileNamePrefix sampleA \--outSAMtype BAM SortedByCoordinate

以上只是基本的比对，STAR官方更推荐使用2-pass比对模式，即比对两次，有以下两种方式

multi-sample 2-pass第一次比对和上述的用法一致，比对完之后，每个样本会产生一个intron的区间文件SJ.out.tab; 在第二次比对之前，重新构建一次基因组的索引，添加所有样本的SJ.out.tab文件，然后利用新的基因组索引重新比对。这种做法综合了多个样本的intron信息，比对的灵敏度会更高，缺点是操作比较繁琐。per-sample 2-pass对于单个样本，在比对时直接添加--twopassMode Basic参数，软件会自动进行两次比对，将第一次比对的SJ.out.tab加入到索引，然后重新比对。这种方法操作简单，适用于单个样本的2-pass 比对。

更多参数和用法请参考官方文档。

·end·

—如果喜欢，快分享给你的朋友们吧—

在数字化转型中，选择合适的跨平台开发框架不仅能提高效率，还有助于确保数据安全与合规性。

2505 2022-11-25

STAR:转录组数据比对工具简介

洞察掌握android电视app开发中的安全与合规策略，提升企业运营效率

在数字化转型中，选择合适的跨平台开发框架不仅能提高效率，还有助于确保数据安全与合规性。

在数字化转型浪潮中，企业如何通过跨端开发框架提升运营效率，兼顾合规性与数据安全？

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计