微前端架构如何改变企业的开发模式与效率提升
2801
2022-11-25
dbSNP数据库简介
欢迎关注"生信修炼手册"!
dbSNP是NCBI中专门用于存储物种SNP位点信息的数据库,网址如下
Assay ID(ss)Reference SNP ID(rs)
对于每一个提交到dbSNP数据库的SNP位点, 首先会赋予一个唯一的ss ID。 由于不同研究结构提交的SNP会存在冗余,提取SNP位点上下游区域的序列,比对参考基因组,如果多个ss ID 比对上相同的位置,说明这几个SNP位点是冗余的,会赋予一个新的reference SNP ID, 以rs开头。
对于每个rsID, 数据库汇总会记录对应的物种,基因型,等位基因频率,位置,文献等相关信息。以rs1425711270为例,链接如下
Names给出了根据HGVS命名规则指定的突变信息。
剩余的信息分成了多个模块,每个模块对应不同的内容。看几个主要的模块的信息
1. Map
这部分给出了SNP位点在不同版本的基因组上的位置信息,可以看到,对于hg19和hg38两个不同版本,位置差别还是挺大的。
2. fasta
这部分给出SNP位点的序列
3. ss ID
这部分可以看到rs号对应的多个ssID
4. GeneView
这部分会给出SNP对应的染色体和基因信息,还有对转录本和蛋白质的影响。
们经常会使用dbsnp数据库中的VCF文件,以human 为例,-为
ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/
提供了common和All 两种,All包含所有的SNP位点,common只包含了MAF大于0.01的生殖细胞变异位点,通常-All.vcf.gz。注意-的时候把对应的md5和tbi文件-下来,md5用于检测-的文件是否完整,如果vcf.gz的md5码和.md5文件中的不一致,说明-不完整;tbi文件是vcf文件的索引,方便gatk等程序读取。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~