对于某个感兴趣的基因,可能想寻找可以调控该基因表达的上游转录因子有哪些;对于某个转录因子,可能想寻找查找它可以调控的靶基因有哪些。那么应该如何查找呢?
方法
使用的数据库是,Harmonizome。这个数据库的使用方法略有些复杂,不太直观,参考本文章进行学习,转录因子的靶基因,看这一个数据库就够了。
我下载了Harmonizome 数据库中包含的6个 转录因子靶基因数据库,然后将6个数据库的内容进行了汇总。总的数据集很大,用excel打开会卡顿,所以我是在R中用正则表达式进行查询的。最终合并的数据我已保存rds对象,以便以后查询。
为了方便给他人介绍使用方法,我重点推荐两个transfac的curated 和predicted数据库,如下文介绍。
使用总结
我推荐下面两个数据库,可以查询转录因子所调控的靶基因。分别是manually curated的数据库 和predicted数据库。 第一个是manually curated的数据库, TRANSFAC Curated Transcription Factor Targets ,网址是: https://maayanlab.cloud/Harmonizome/dataset/TRANSFAC+Curated+Transcription+Factor+Targets 本数据集收录了201个转录因子,共调控3216个基因。
第二个是predicted数据库,TRANSFAC Predicted Transcription Factor Targets,网址是:https://maayanlab.cloud/Harmonizome/dataset/TRANSFAC+Predicted+Transcription+Factor+Targets 本数据集收录了158个转录因子,共调控9273个基因。
以上两个数据库的查询方法一样:在打开的网页中,Filter处输入要查询的转录因子,比如 TP53,即可看到TP53所调控的基因有哪些。
但是这两个工具不能反过来查询,就是输入一个靶基因,看调控它的转录因子有哪些。
所以我下载了两个数据库存储的转录因子-靶基因调控列表,然后整理合并在了一个表格中,名为TRANSFAC_target.xlsx。在Excel表格中,输入转录因子基因名称或者转录因子基因ID,或者反过来输入靶基因名称或者靶基因ID,都可以进行查询。