WES的CNV分析简介

网友投稿 2517 2022-11-25

WES的CNV分析简介

WES的CNV分析简介

欢迎关注”生信修炼手册”!

基于全基因组数据来检测CNV是非常有效的一个手段,然而全基因组的成本还是挺高的。全外显子组在检测SNP方面已经比较成熟,考虑到外显子上的变异可能更具有致病性,科研人员也希望通过检测外显子上的CNV来实现一个高效,经济的CNV检测,很多的软件被开发用于WES的CNV分析。

CNV区域的长度可能横跨了多个外显子或者基因,断裂点位于外显子以外的位置,所以全基因组分析中Read-pair, split-read的策略无法应用到WES的CNV分析中,只能通过read-depth的策略来进行分析。

然而和全基因组不同,全外显子靶向捕获了基因组的外显子区域,考虑到GC含量,序列捕获等系统误差,其测序深度的分布和CNV之间的相关性更加复杂,建模衡量的难度更大,所以之前适用于WGS分析的CNV检测软件很多都不可以用于WES的分析。

为了有效减少系统误差的影响,提高CNV检测的准确率,很多WES的分析软件都会需要一个对照样本,将对照样本和测试样本进行比较来识别二者间差异的地方,从而回避系统误差带来的影响。同样的protocol意味着同样的系统误差,而二者直接还存在的差异就是由于样本本身的差异引起的了,这就是对照样本的作用。所以WES的CNV检测经典的用处就是检测体细胞CNV,即SCNA变异,提供配对的癌和癌旁样本来进行分析。

在以下文献中,详细列举了几种外显子CNV检测的软件

​​data, 需要配对的对照样本pooled data, 不需要对照样本paired and pooled data, 两种策略都可以

1. paired data

软件列表如下

ExomeCNVVarscan2Control-Freecexome2cnvPropSeg

2. pooled data

软件列表如下

condexexomeCOPYcn.mopsconiferExomeDepthXHMMExoCNVTestExcavator

3. paired and pooled data

软件列表如下

contarADTExFishingCNV

该文章发表于2014年,在之后又陆续发表了很多新工具,比如excavator, 2016年发表在Nucleic Acids Research上的文章介绍了excavator2进行CNV分析的强大之处,链接如下

​​CNV长度和分布

不同软件检测到的CNV长度分布不同,结果统计如下

CNV的长度可以从几十bp跨越到几Mb的范围,通常认为小于300bp和长度在6kb左右的CNV应该是数量最多的。WES的CNV检测工具都是基于read-depth算法,采用滑动窗口的方法,窗口越大,最终鉴定出来的CNV可信度越高,所以在检测小片段的CNV方面,能力较差。

从统计结果可以看出,Conifer没有鉴定出1kb以下的CNV, 因为这款软件要求CNV至少需要覆盖3个exon区域,XHMM和ExomeDepth则可以同时检测小片段和大片段的CNV, CONTRA检测出来的数量过多,是由于其校正read-depthh的算法过于敏感,所以鉴定出来的CNV过多,在检测小于1kb的小片段CNV时,比较适合。

不同软件鉴定到的CNV的数量和类型展示如下

2. 和WGS的一致性

采用了cnvnator和ERDS两款软件对WGS数据进行CNV检测,然后和WES的结果进行一致性分析,以exon为单位进行评估,当一个exon 50%以上的区域落在CNV区域时进行计算,比较不同软件检测到的exon和WGS数据exon的overlap情况,结果如下

尽管都很低,但是很明显ExomeDepth overlap率最高,接下来是XHMM。

3. 和Common CNV的一致性

利用1000G项目中在人群中频率大于5%的cnvs作为common cnv, 采用上述的方法评估不同软件和common cnv的一致性,结果和WGS一致,也是ExomeDepth最高,XHMM次之。

4. Mendelian Error Rate评估

通常情况下denovo CNV的概率是非常低的,将denovo CNV作为Mendelian Error Rate的指标,对个体及其双亲同时进行CNV分析,评估denovo cnv的频率,结果如下

每个软件不符合孟德尔遗传的CNV比例都很高,conifer最高,而CONTRA最低。

5. deletion CNV的假阳性检测

对于deletion CNV而言,其染色体区域只剩下一份拷贝,在该区域内的SNV必然为纯合性的,所以将包含了杂合SNV的CNV区域作为假阳性的结果,考虑到SNP分型的准确率,将同时满足以下两个条件的缺失区域定义为假阳性的结果

包含了2个以上的杂合SNP20%以上的SNP位点为杂合

拷贝数缺失的假阳性统计结果如下

6. 不同软件之间的一致性

基于exon水平来统计不同软件之间的一致性,结果如下所示

综合以上6个指标来看,没有哪个软件是全面优于其他软件的,在不同指标上,不同软件各有优劣。

在进行WES的CNV检测时,基于一款软件的结果很难兼顾灵敏度和特异性,最好的方法还是结合多款软件的结果进行判断。

·end·

—如果喜欢,快分享给你的朋友们吧—

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:PennCNV:利用SNP芯片检测CNV
下一篇:使用CNVkit进行CNV分析
相关文章

 发表评论

暂时没有评论,来抢沙发吧~