常见的生物信息学数据库的ID格式整理。
gene ID (NCBI)
Gene ID 也称Entrez ID,EntrezGene ID 全为数字,比如.gene ID 为1时对应人的A1BG基因。Entrez id 相对稳定,gene ID列表可拿来做GO、KO富集分析。
RefSeq ID (NCBI)
NCBI的RefSeq数据库id,一般是两个大写首字母,加下划线,后面接数字。两个首字母如 ”NC_”、”NM_”、”NP_”分别对应DNA、mRNA、Protein。
Gene Bank accession Number (NCBI)
目前基本上与RefSeq ID一致,如下。
Gene Symbol (EBI)
Gene Symbol ,HOGN数据库为gene提供的官方命名,由大写字母和数字组成,一般为全名的缩写,如alpha-1-Bglycoprotein对应的Gene Symbol 为A1BG。
Ensembl ID (EBI)
BioMart中为Ensemblstable id,结构是”物种前缀+序列类型+数字“。在 Ensembl ID 后面有”小数”的为版本号,如这里的ENSG00000121410.11,注意千万记得不要用版本号去做在线的富集分析!
常见的物种前缀:“ENS“表示Homo sapiens (Human),”ENSMUS“表示Mus musculus (Mouse),”ENSDAR“表示Danio rerio (Zebrafish);而常见的序列类型用G、P、T、分别表示gene、protein和transcript。
## UniProt ID (EBI)
蛋白质组学中经常用到的uniprot数据库中,为每个蛋白提供的uniprot Accession编号。
PDB ID
为PDB蛋白结构数据库的id,每个id对应一种模型。
UCSC ID
为UCSC数据库的基因id,一般以“uc“开头。
GO ID
每个GO term 唯一的id,由“GO:”和7位数字组成,如GO:0005576。
KO ID
KEGG Orthology数据库为每个gene指配一个KO id(K number),常见由“K”和5个数字组成,如K09864。这里需要注意K号与Pathway id的区别,在使用OmicShare KEGG富集分析工具时,如果自己准备KEGG富集分析的背景文件,建议使用K号。