使用cell ranger拆分10X单细胞转录组原始数据

网友投稿 980 2022-11-25

使用cell ranger拆分10X单细胞转录组原始数据

使用cell ranger拆分10X单细胞转录组原始数据

欢迎关注”生信修炼手册”!

cell ranger是10X genomics公司提供的,专门用于分析10X 单细胞转录组数据的pipeline, 包含了原始数据拆分,表达定量,聚类分析等多个功能,本文主要介绍如何使用该软件来拆分原始数据。

直接从官网-最新版的软件即可,网址如下

​​mkfastq \--id test \--run run_directory \--csv simple.csvcellranger mkfastq \--id test \--run run_directory \--samplesheet samplesheet.csv

​​id​​​参数指定输出目录的名字,​​run​​​参数指定下机的原始​​bcl​​​文件所在的目录,该命令其实是对illumina提供的拆分数据的​​bcl2fastq​​命令的一个封装,需要样本名称,index等信息,支持两种格式,一种就是illlumina常规的samplesheet.csv文件,格式如下

另外一种是10X  genomics定制的一种简化版的csv格式,内容如下

Lane,Sample,Index1,test_sample,SI-GA-A3

只有3列,第一列指定lane ID, 第二列指定样本名称,第三列指定index的名称,10X  genomics的每个index代表4条具体的oligo序列,示意如下

在根据index确定样本时,允许1到2个碱基的错配。在实际拆分数据时,更加推荐使用三列的CSV文件,因为samplesheet文件中需要根据不同版本的试剂盒修改对应的​​Reads​​信息。

V2试剂盒产生的文库结构如下所示

V3试剂盒产生的文库结构如下所示

和V2相比,V3试剂盒中所用的​​UMI​​​和​​PolyT​​​的长度都发生了变化,从而导致测序得到的R1和R2端的序列长度也不一致,V2试剂盒的R1端长度为26bp, 包含16bp的barcode和10bp的​​UMI​​​序列,V3试剂盒的R1端长度为28bp, 包含16bp的barcode和12bp的​​UMI​​序列;V2试剂盒的R2端为98bp, V3试剂盒的R2端为91bp。

如果使用samplesheet文件,需要调整​​[Reads]​​​中的序列长度,而使用简化版的csv文件,cell ranger可以识别所用试剂盒版本,然后自动化的调整reads长度。拆分好之后的目录结构如下所示

├── fastq_path│ ├── H35KCBCXY│ │ └── test_sample│ │ ├── test_sample_S1_L001_I1_001.fastq.gz│ │ ├── test_sample_S1_L001_R1_001.fastq.gz│ │ └── test_sample_S1_L001_R2_001.fastq.gz

对于每个样本,除了常见的​​R1​​​和​​R2​​​端序列,还多出来一个​​I1​​序列文件,该文件中保存的是index序列,示意如下

@D00547:905:H35KCBCXY:1:1101:19188:87078 1:N:0:AGATCGGGAGATCGGG+.<<....<

后续的子命令也是通过这种特定的目录结构来进行分析,如果你有从其他地方-的原始数据,也可以整理成这种目录结构,方便后续使用cell ranger进行分析。

·end·

—如果喜欢,快分享给你的朋友们吧—

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【Android -- 写作工具】Markdown 分级标题
下一篇:Juicer:Hi-C数据处理分析的利器
相关文章

 发表评论

暂时没有评论,来抢沙发吧~