数据库ID格式整理

2021-01-12

常见的生物信息学数据库的ID格式整理。

gene ID (NCBI)

Gene ID 也称Entrez ID，EntrezGene ID 全为数字，比如.gene ID 为1时对应人的A1BG基因。Entrez id 相对稳定，gene ID列表可拿来做GO、KO富集分析。

NCBI的RefSeq数据库id，一般是两个大写首字母，加下划线，后面接数字。两个首字母如 ”NC_”、”NM_”、”NP_”分别对应DNA、mRNA、Protein。

目前基本上与RefSeq ID一致，如下。

Gene Symbol ，HOGN数据库为gene提供的官方命名，由大写字母和数字组成，一般为全名的缩写，如alpha-1-Bglycoprotein对应的Gene Symbol 为A1BG。

BioMart中为Ensemblstable id，结构是”物种前缀+序列类型+数字“。在 Ensembl ID 后面有”小数”的为版本号，如这里的ENSG00000121410.11，注意千万记得不要用版本号去做在线的富集分析！

常见的物种前缀：“ENS“表示Homo sapiens (Human)，”ENSMUS“表示Mus musculus (Mouse)，”ENSDAR“表示Danio rerio (Zebrafish)；而常见的序列类型用G、P、T、分别表示gene、protein和transcript。

##　UniProt ID (EBI)

蛋白质组学中经常用到的uniprot数据库中，为每个蛋白提供的uniprot Accession编号。

为PDB蛋白结构数据库的id，每个id对应一种模型。

为UCSC数据库的基因id，一般以“uc“开头。

每个GO term 唯一的id，由“GO:”和7位数字组成，如GO:0005576。

KEGG Orthology数据库为每个gene指配一个KO id（K number），常见由“K”和5个数字组成，如K09864。这里需要注意K号与Pathway id的区别，在使用OmicShare KEGG富集分析工具时，如果自己准备KEGG富集分析的背景文件，建议使用K号。