详解人类基因在不同数据库中的ID

网友投稿 2157 2022-11-25

详解人类基因在不同数据库中的ID

详解人类基因在不同数据库中的ID

欢迎关注”生信修炼手册”!

对于人类的基因而言,不同数据库提供了不同的命名方式。对于初学者而言,非常容易搞混淆。今天我们就来理一下,常见的基因命名方式。

首先看一下NCBI中基因的信息如何命名,NCBI的Gene数据库记录了不同物种的基因信息,在Gene数据库中,给每一个基因提供了一个唯一的ID, 这个ID叫做Entrez ID,Entrez是NCBI的检索系统的名字。

以​​TP53​​为例, 链接如下

​​ID。在该链接中,我们可以看到以下信息

​​gene symbol​​指的是基因的名字,对于每个基因,都有对应的symbol, 根据来源可以分为以下两类

offical symbolloc symbol

​​official symbol​​指的是由HGNC这个组织提供的基因的名称,HGNC是一个基因命名委员会,负责对人类基因组上的所有基因提供一个唯一的,标准的,可以广泛传播的symbol。HGNC命名的基因收录在以下数据库中

​​id​​, TP53基因对应的id为HGNC:11998。

如果这个基因没有HGNC提供的Symbol, 就在Entrez ID的前面添加​​LOC​​​前缀作为其symbol, 比如​​LOC100653049​​

在NCBI中,所有的基因都有​​Entrez ID​​​和​​Gene Symbol​​​, 其中只有部分基因拥有​​HGNC Symbol​​。

Ensembl 数据库也收录了基因的信息,用​​Ensembl ID​​​表示每个基因,以​​ENSG​​​开头,上述例子中的​​TP53​​​对应的Ensemb的ID为​​ENSG0000014150​​。需要注意的是,Ensembl和NCBI收录的基因总数不相同。

UCSC的基因ID以​​uc​​​开头,比如​​uc003tqk.4​​, 称之为knownGene, 完整的基因列表可以从以下链接-

​​数据库也拥有自己的gene ID, 以三个字母的物种缩写和id构成,比如​​tp53​​​对应的kegg gene id 为​​hsa:7157​​。链接如下

​​entrez IDNCBI gene symbolEnsembl gene IDUCSC gene IDKEGG gene ID

对于特定类型的基因,还会有自己的数据库

1. miRNA

miRNA目前公认的是miRBase 数据库的ID,​​MIR21​​对应的miRBase的ID 如下

2. lncRNA

lncRNA目前没有一个统一的命名,lncRNAdb, LNCipedia等数据库都有自己的ID。

其他类型的基因也会有自己的数据库,这里就不一一展开了。

·end·

—如果喜欢,快分享给你的朋友们吧—

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:@PathVariable和@RequestParam传参为空问题及解决
下一篇:STAR:转录组数据比对工具简介
相关文章

 发表评论

暂时没有评论,来抢沙发吧~