转录因子靶基因查询方法

2022-06-18

对于某个感兴趣的基因,可能想寻找可以调控该基因表达的上游转录因子有哪些;对于某个转录因子,可能想寻找查找它可以调控的靶基因有哪些。那么应该如何查找呢?

方法

使用的数据库是,Harmonizome。这个数据库的使用方法略有些复杂,不太直观,参考本文章进行学习,转录因子的靶基因,看这一个数据库就够了

我下载了Harmonizome 数据库中包含的6个 转录因子靶基因数据库,然后将6个数据库的内容进行了汇总。总的数据集很大,用excel打开会卡顿,所以我是在R中用正则表达式进行查询的。最终合并的数据我已保存rds对象,以便以后查询。

为了方便给他人介绍使用方法,我重点推荐两个transfac的curated 和predicted数据库,如下文介绍。

使用总结

我推荐下面两个数据库,可以查询转录因子所调控的靶基因。分别是manually curated的数据库 和predicted数据库。 第一个是manually curated的数据库, TRANSFAC Curated Transcription Factor Targets ,网址是: https://maayanlab.cloud/Harmonizome/dataset/TRANSFAC+Curated+Transcription+Factor+Targets 本数据集收录了201个转录因子,共调控3216个基因。

第二个是predicted数据库,TRANSFAC Predicted Transcription Factor Targets,网址是:https://maayanlab.cloud/Harmonizome/dataset/TRANSFAC+Predicted+Transcription+Factor+Targets 本数据集收录了158个转录因子,共调控9273个基因。

以上两个数据库的查询方法一样:在打开的网页中,Filter处输入要查询的转录因子,比如 TP53,即可看到TP53所调控的基因有哪些。

但是这两个工具不能反过来查询,就是输入一个靶基因,看调控它的转录因子有哪些。

所以我下载了两个数据库存储的转录因子-靶基因调控列表,然后整理合并在了一个表格中,名为TRANSFAC_target.xlsx。在Excel表格中,输入转录因子基因名称或者转录因子基因ID,或者反过来输入靶基因名称或者靶基因ID,都可以进行查询。