轻量级前端框架助力开发者提升项目效率与性能
1984
2022-11-25
QUAST:评估基因组组装效果
欢迎关注"生信修炼手册"!
对于不同kmer或者不同软件的基因组组装结果,我们通常会通过N50等指标来进行评估。
对于一个组装出来的序列,不论是contig还是scaffold, 首先将各个序列根据长度从大到小排序,然后从第一个序列开始,将长度进行累加,直到累加的长度超过了总长度的50%,此时,最后一个累加的contig的长度就是N50的长度。示意图如下
上图中N50的长度就是60,和N50的概念类似,还有N75, N90等说法,这些指标可以统称为Nx。Nx越大,说明组装出来的片段长度越长一定程度上,证实了组装结果越好。
除了Nx指标外,还有Lx指标,比如L50,指的是累加的contig的个数,示意图如下
上图中L50的值是3。在实际分析中,我们可以通过现有软件来计算N50, L50等指标,quast就是最常用的软件之一。该软件有在线服务,链接如下
xzvf quast-4.6.3.tar.gzcd quast-4.6.3/
quast基于python开发,以来matplotlib库进行绘图,保证python和matplotlib安装好,然后直接-源代码,解压缩就可以使用了。
用法如下
python quast.py -t 10 -o test1_out contigs.fasta
-t参数指定线程数,-o参数指定输出结果的目录。运行完成后,输出目录会生成如下文件
├── basic_stats├── icarus.html├── icarus_viewers├── quast.log├── report.html├── report.tex├── report.tsv├── report.txt├── transposed_report.tex├── transposed_report.tsv└── transposed_report.txt
直接看report.html文件就就可以了。
1. contig基本信息统计表
quast 会统计不同长度的contig的个数,以及N50,L50等指标,示例结果如下
2. Nx 长度分布曲线
横坐标为Nx,纵坐标为Nx的值,示意图如下
3. contig长度累计曲线
横坐标为contig个数,纵坐标为累加的长度,示意图如下
4. GC含量分布图
窗口的GC含量分布图,quast将每个contig划分为长度100bp的窗口,统计每个窗口的GC含量, 横坐标为GC含量,纵坐标为窗口个数, 示意图如下
contig GC含量分布图,对于每个contig,统计GC含量,横坐标为GC含量,纵坐标为contig个数,示意图如下
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~