政务桌面应用系统开发提升政府服务效率的关键所在
2517
2022-11-25
WES的CNV分析简介
欢迎关注”生信修炼手册”!
基于全基因组数据来检测CNV是非常有效的一个手段,然而全基因组的成本还是挺高的。全外显子组在检测SNP方面已经比较成熟,考虑到外显子上的变异可能更具有致病性,科研人员也希望通过检测外显子上的CNV来实现一个高效,经济的CNV检测,很多的软件被开发用于WES的CNV分析。
CNV区域的长度可能横跨了多个外显子或者基因,断裂点位于外显子以外的位置,所以全基因组分析中Read-pair, split-read的策略无法应用到WES的CNV分析中,只能通过read-depth的策略来进行分析。
然而和全基因组不同,全外显子靶向捕获了基因组的外显子区域,考虑到GC含量,序列捕获等系统误差,其测序深度的分布和CNV之间的相关性更加复杂,建模衡量的难度更大,所以之前适用于WGS分析的CNV检测软件很多都不可以用于WES的分析。
为了有效减少系统误差的影响,提高CNV检测的准确率,很多WES的分析软件都会需要一个对照样本,将对照样本和测试样本进行比较来识别二者间差异的地方,从而回避系统误差带来的影响。同样的protocol意味着同样的系统误差,而二者直接还存在的差异就是由于样本本身的差异引起的了,这就是对照样本的作用。所以WES的CNV检测经典的用处就是检测体细胞CNV,即SCNA变异,提供配对的癌和癌旁样本来进行分析。
在以下文献中,详细列举了几种外显子CNV检测的软件
data, 需要配对的对照样本pooled data, 不需要对照样本paired and pooled data, 两种策略都可以
1. paired data
软件列表如下
ExomeCNVVarscan2Control-Freecexome2cnvPropSeg
2. pooled data
软件列表如下
condexexomeCOPYcn.mopsconiferExomeDepthXHMMExoCNVTestExcavator
3. paired and pooled data
软件列表如下
contarADTExFishingCNV
该文章发表于2014年,在之后又陆续发表了很多新工具,比如excavator, 2016年发表在Nucleic Acids Research上的文章介绍了excavator2进行CNV分析的强大之处,链接如下
CNV长度和分布
不同软件检测到的CNV长度分布不同,结果统计如下
CNV的长度可以从几十bp跨越到几Mb的范围,通常认为小于300bp和长度在6kb左右的CNV应该是数量最多的。WES的CNV检测工具都是基于read-depth算法,采用滑动窗口的方法,窗口越大,最终鉴定出来的CNV可信度越高,所以在检测小片段的CNV方面,能力较差。
从统计结果可以看出,Conifer没有鉴定出1kb以下的CNV, 因为这款软件要求CNV至少需要覆盖3个exon区域,XHMM和ExomeDepth则可以同时检测小片段和大片段的CNV, CONTRA检测出来的数量过多,是由于其校正read-depthh的算法过于敏感,所以鉴定出来的CNV过多,在检测小于1kb的小片段CNV时,比较适合。
不同软件鉴定到的CNV的数量和类型展示如下
2. 和WGS的一致性
采用了cnvnator和ERDS两款软件对WGS数据进行CNV检测,然后和WES的结果进行一致性分析,以exon为单位进行评估,当一个exon 50%以上的区域落在CNV区域时进行计算,比较不同软件检测到的exon和WGS数据exon的overlap情况,结果如下
尽管都很低,但是很明显ExomeDepth overlap率最高,接下来是XHMM。
3. 和Common CNV的一致性
利用1000G项目中在人群中频率大于5%的cnvs作为common cnv, 采用上述的方法评估不同软件和common cnv的一致性,结果和WGS一致,也是ExomeDepth最高,XHMM次之。
4. Mendelian Error Rate评估
通常情况下denovo CNV的概率是非常低的,将denovo CNV作为Mendelian Error Rate的指标,对个体及其双亲同时进行CNV分析,评估denovo cnv的频率,结果如下
每个软件不符合孟德尔遗传的CNV比例都很高,conifer最高,而CONTRA最低。
5. deletion CNV的假阳性检测
对于deletion CNV而言,其染色体区域只剩下一份拷贝,在该区域内的SNV必然为纯合性的,所以将包含了杂合SNV的CNV区域作为假阳性的结果,考虑到SNP分型的准确率,将同时满足以下两个条件的缺失区域定义为假阳性的结果
包含了2个以上的杂合SNP20%以上的SNP位点为杂合
拷贝数缺失的假阳性统计结果如下
6. 不同软件之间的一致性
基于exon水平来统计不同软件之间的一致性,结果如下所示
综合以上6个指标来看,没有哪个软件是全面优于其他软件的,在不同指标上,不同软件各有优劣。
在进行WES的CNV检测时,基于一款软件的结果很难兼顾灵敏度和特异性,最好的方法还是结合多款软件的结果进行判断。
·end·
—如果喜欢,快分享给你的朋友们吧—
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~