使用SnpSift filter对VCF文件进行筛选-FinClip官网

使用SnpSift filter对VCF文件进行筛选

网友投稿 2050 2022-11-25

使用SnpSift filter对VCF文件进行筛选

欢迎关注"生信修炼手册"

当完成突变位点注释之后，我们会得到一个巨大的VCF文件，文件大小从几十M到几十G不等。在数量如此多的突变位点中，我们只会根据注释结果从中挑选部分感兴趣的突变位点，这就要求对VCF文件进行过滤。如此大的文件用Excel 操作是不现实的，脚本语言处理大文件时效果也不尽人意，所以SnpEff的开发团队专门开发了一款工具，叫做SnpSift, 用来对VCF文件进行过滤。

对VCF进行过滤是SnpSift最基本的功能，除此之外，还提供了许多非常实用的功能。软件是集成在SnpEff软件包中的，在-的SnpEff安装包中，就会有这款软件。

基本用法如下

cat variants.vcf | java -jar SnpSift.jar filter "(CHROM = 'chr1')" > filtered.vcf

上面的例子是删选位于1号染色体上的突变位点， CHROM = 'chr1'就是筛选的条件表达式，用双引号包裹起来。`snpsift 提供了灵活的筛选策略，最核心的地方，就是条件表达式的写法，有以下几种用法

1. 单一值的变量

在VCF文件中，常用的字段都可以作为变量名称

1. CHROM

"( CHROM = 'chr1' )"

2. POS

"( POS > 123456 ) & ( POS < 654321 )"

3. REF

"( REF = 'A' )"

4. ALT

"( ALT = 'T' )"

5. QUAL

"( QUAL > 30 )"

6. FILTER

"( na FILTER ) | (FILTER = 'PASS')"

7. INFO

( DP > 10 ) & ( AF1 = 0 )

2. 多个值的变量

当一个变量有多个值时，可以使用下标进行访问，下标从0开始，比如CI95=0.04167,0.5417，对这个变量的值进行筛选可以采用如下的写法

"( CI95[0] > 0.1 ) & (CI95[1] <= 0.3)"

也可以采用通配符一次匹配多个下标，ANY和*的作用相同，至少一个值符合要求即可，写法如下

"( CI95[ANY] > 0.1 )""( CI95[*] > 0.1 )"

ALL和?的作用相同，所有值都符合要求，写法如下

"( CI95[ALL] > 0.1 )""( CI95[?] > 0.1 )"

3. 基因型信息

在表示基因型信息时，会看到如下的字段

GT:PL:GQ 1/1:255,66,0:63 0/1:245,0,255:99

代表了两个样本的基因型相关信息，在筛选时，对于不同的样本即可以采用数字下标表示，也可以用样本名称表示

"( GEN[0].GQ > 60 )""( GEN[HG00097].GQ > 60 )"

用GEN特指基因型信息，在对应样本时，可以用数字下标，也可以直接用样本名称，对于每个样本，会有GT, GQ, BL等信息，和样本之间用.点号连接。对于多个样本的基因型，也可以使用上面提到的通配符进行筛选。

4. 集合

当筛选一个变量的多种取值时，可以采用|逻辑或操作符进行连接，比如下面的示例，筛选位于1到3号染色体上的突变位点

"((CHROM = 'chr1') | (CHROM = 'chr2') | (CHROM = 'chr3'))"

但是当取值很多时，比如5个，10个，甚至更多，如果用|符号连接，对应的表达式就会特别的冗长，此时可以将这些值写到一个文件中，作为一个集合，每一行是一个值

chr1chr2chr3

在筛选时，通过-s参数指定这个文件，用法如下

cat variants.vcf | java -jar SnpSift.jar filter -s set.txt > filtered.vcf

5. 操作符

在书写条件表达式时，用到的操作符如下

可以分成如下几类

1. 比较操作符

=, >, >=, <, <=

2. 正则匹配

=~和!~

3. 逻辑操作符

&,|,!

4. 特殊操作符

exists判断某个字段的值是否存在；has表示包含的意思，有些字段会有多个取值的情况，比如snpEFF在注释突变类型时，会有以下结果

intron_variant&nc_transcript_variant

代表突变位点属于这两种突变类型，对这种突变类型过滤时，采用has操作符更加合适，写法如下

"ANN[*].EFFECT has 'missense_variant'"

6. 函数

函数主要用来操作基因型信息，详细的列表如下

对于基因型，提出了以下4个概念

homozygousheteroygousvariantreference

homozygous代表纯合，比如0/0和1/1; heteroygous代表杂合，比如0/1;variant代表发生了突变，包括0/1, 1/1; reference代表没有发生突变，专指0/0;函数可以分成两大类型第一种类型判断基因型的类型，is开头，包括以下4种

isHomisHetisVariantisRef

第二种类型统计特定基因型的个数，`count开头，包括以下4种

countHomcountHetcountVariantcountRef

以上的规则对于所有的VCF文件都通用，对于SnpEff注释产生的VCF文件，包含以下几个特殊字段的信息

1. ANN

snpEff 注释的结果存储在ANN字段中，ANN字段中每个sub field对应的变量名称如下

ALLELE (alias GENOTYPE)EFFECT (alias ANNOTATION):GENE: Gene nameGENEID: Gene IDFEATUREFEATUREID (alias TRID: Transcript ID)BIOTYPE:RANKHGVS_CHGVS_PCDNA_POS (alias POS_CDNA)CDNA_LEN (alias LEN_CDNA)CDS_POS (alias POS_CDS)CDS_LEN (alias LEN_CDS)AA_POS (alias POS_AA)AA_LEN (alias LEN_AA)DISTANCEERRORS (alias WARNING, INFOS)

条件表达式的写法如下：

"ANN[*].EFFECT has 'missense_variant'"

由于ANN字段可以由多个feature构成，所以也是采用了数组的形式

2. EFF

旧版本的snpEff会将注释信息保存在EFF字段中，每个sub field对应的变量名称如下

EFFECTIMPACTFUNCLASSCODONAAGENEBIOTYPECODINGTRIDRANK

条件表达式的写法如下：

"( EFF[0].EFFECT = 'NON_SYNONYMOUS_CODING' )"

3. LOF 和 NMD

这两个字段的变量相似，有以下几种

LOF.GENE | NMD.GENELOF.GENEID | NMD.GENEIDLOF.NUMTR | NMD.NUMTRLOF.PERC | NMD.PERC

条件表达式的写法如下

"(exists LOF[*].PERC) & (LOF[*].PERC > 0.9)"

通过snpsift, 可以方便灵活的对VCF文件进行过滤，在后续的文章中，还会介绍更多该软件实用的功能。

小程序页面之间进行传值的操作办法

2050 2022-11-25

使用SnpSift filter对VCF文件进行筛选

小程序页面之间进行传值的操作办法

解锁玩具小程序的开发密码

解读云小程序的开发秘籍

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计