数据库ID格式整理

2021-01-12

常见的生物信息学数据库的ID格式整理。

gene ID (NCBI)

Gene ID 也称Entrez ID,EntrezGene ID 全为数字,比如.gene ID 为1时对应人的A1BG基因。Entrez id 相对稳定,gene ID列表可拿来做GO、KO富集分析。

RefSeq ID (NCBI)

NCBI的RefSeq数据库id,一般是两个大写首字母,加下划线,后面接数字。两个首字母如 ”NC_”、”NM_”、”NP_”分别对应DNA、mRNA、Protein。

Gene Bank accession Number (NCBI)

目前基本上与RefSeq ID一致,如下。

Gene Symbol (EBI)

Gene Symbol ,HOGN数据库为gene提供的官方命名,由大写字母和数字组成,一般为全名的缩写,如alpha-1-Bglycoprotein对应的Gene Symbol 为A1BG。

Ensembl ID (EBI)

BioMart中为Ensemblstable id,结构是”物种前缀+序列类型+数字“。在 Ensembl ID 后面有”小数”的为版本号,如这里的ENSG00000121410.11,注意千万记得不要用版本号去做在线的富集分析!

常见的物种前缀:“ENS“表示Homo sapiens (Human),”ENSMUS“表示Mus musculus (Mouse),”ENSDAR“表示Danio rerio (Zebrafish);而常见的序列类型用G、P、T、分别表示gene、protein和transcript。

## UniProt ID (EBI)

蛋白质组学中经常用到的uniprot数据库中,为每个蛋白提供的uniprot Accession编号。

PDB ID

为PDB蛋白结构数据库的id,每个id对应一种模型。

UCSC ID

为UCSC数据库的基因id,一般以“uc“开头。

GO ID

每个GO term 唯一的id,由“GO:”和7位数字组成,如GO:0005576。

KO ID

KEGG Orthology数据库为每个gene指配一个KO id(K number),常见由“K”和5个数字组成,如K09864。这里需要注意K号与Pathway id的区别,在使用OmicShare KEGG富集分析工具时,如果自己准备KEGG富集分析的背景文件,建议使用K号。

转载来源