【技术应用】一个基因可能被哪些转录因子调控?公共ChIP-seq数据可以这样挖
做了RNA-seq发现一个关键基因显著上调或下调功能也很关键下一步最容易卡住的问题就是它到底被谁调控这时候公共ChIP-seq数据库是一个很值得利用的线索库先去公共ChIP-seq数据库里挖一遍把候选转录因子从几千个缩到几个再针对性做验证。这一步做好了能直接省下几个月的实验时间。一、常用公共数据库有哪些01ChIP-Atlas上手最快物种覆盖最广网址https://chip-atlas.org/整合人、鼠、果蝇、线虫、酵母、拟南芥6个物种的公共ChIP-seq/ATAC-seq/Bisulfite-seq数据目前累计43万实验。第一次用可以从Peak Browser开始输入目标基因SymbolDistance from TSS先选±5kb保守如果空空如也再放宽到±10kb。注意Peak Browser默认显示所有数据一定要在Cell type选项里筛选自己研究体系相关的细胞或组织不然你会看到一堆毫无关系的peak比如做心脏的项目混进神经细胞的数据。三个最常用功能① Peak Browser输入基因Symbol或基因组坐标看附近所有公共TF的结合peak。最常用。② Target Genes反过来用输入TF名列出它可能调控的所有基因。适合扩展候选靶基因。③ Enrichment Analysis上传你的差异基因列表自动跑富集告诉你哪些TF在这些基因附近显著富集。差异基因数量在100–2000之间效果最好。注意• Threshold for Significance (MACS2 q-value) 默认是50初步挖掘建议先放宽到100宁可多看一眼也别漏后面再缩到50或更严。• Distance from TSS 默认±5kb对启动子调控来说够用如果怀疑有远端增强子参与放宽到±50kb甚至±100kb。• Cell type Class 那一栏务必筛不筛会把所有细胞系的数据都堆在一起信号一片混乱。图 ChIP-Atlas对公共ChIP-seq、ATAC-seq、DNase-seq 和WGBS数据进行整合与统一处理Zou Z. et al.,2022。02 Cistrome Data Browser适合人和小鼠方向的调控证据挖掘网址http://cistrome.org/db/v3.0收录约45,000个人样本和44,000个小鼠样本所有数据走统一pipeline处理并且每个样本都标了6项QC指标FastQC、map ratio、PBC、FRiP、UCSC track readability、conservation等于帮你做了一遍数据过滤。注意只有人和小鼠做其他物种不适合。使用技巧• 优先选QC打分全绿的数据集6项里至少5项过关质量差的数据peak乱七八糟看了反而误导判断。• Cistrome的Toolkit模块超好用传一段基因组坐标BED文件进去能告诉你这段区域最可能被哪些TF结合还能查附近哪些样本的peak最富集。做完ATAC-seq找到一段开放区域之后下一步直接扔进去就行。• 想做肿瘤、免疫、发育方向的TF候选筛选Cistrome的样本注释比ChIP-Atlas细能精确筛到具体亚型如CD8 T cell、HepG2、MCF7等。图 Cistrome DB v3.0 的数据处理流程与数据统计Taing L. et al.,2024。03 ENCODE适合查找标准化程度较高的公共调控数据网址https://www.encodeproject.org/ENCODE是非常重要的功能基因组数据资源其中TF ChIP-seq、组蛋白修饰 ChIP-seq、染色质开放性数据等都可以用于调控区域分析。比如其中TF ChIP-seq pipeline适用于分析预期以点状方式结合DNA的蛋白例如特定DNA序列或特定染色质构型上的转录因子或染色质重塑因子。使用技巧• 想找某个TF的金标准结合谱时优先选标记为released且audit全绿的实验。• ENCODE的SCREEN工具特别值得用输入基因或坐标能直接看到这个区域有没有候选顺式调控元件cCREs分为启动子、增强子、CTCF only等类型做调控分析非常省事。04 JASPAR适合做motif预测和候选TF辅助判断网址https://jaspar.genereg.net/JASPAR覆盖Ø真菌、昆虫、线虫、植物、脊索动物、脊椎动物。前三个数据库告诉你哪些TF可能结合JASPAR告诉序列上有没有结合位点。两者可以结合着看。从ChIP-Atlas/Cistrome找到一个候选peak → 把这段DNA序列提出来 → 扔进JASPAR的Scan工具 → 看序列里有没有候选TF的motif。有motif peak的可信度大大提升说明不是间接结合或非特异结合。阈值建议Relative score 0.8默认算可信 0.85更严。如果想批量扫建议用命令行版工具FIMOMEME套件效率更高。使用技巧如果想批量扫多个TF的motif用FIMO更专业可以一次性跑数百个PWMp-value一般卡在1e-4。图 JASPAR中的转录因子结合谱可用于预测潜在TF binding sites但预测结果仍需结合实验验证Rauluseviciute I. et al.,2024。二、挖掘思路01 查看目标基因附近的公共ChIP-seq peak可以先在ChIP-Atlas、Cistrome或ENCODE中输入目标基因名称或基因组坐标查看目标基因附近是否有TF ChIP-seq peak。重点关注启动子区域、已知增强子或开放染色质区域、与差异peak或ATAC peak重叠的区域等。如果多个数据集中某个TF的peak反复出现在目标基因启动子附近那么这个TF就值得重点关注。但也要注意有peak不等于一定调控。peak只能说明在某个公共数据对应的细胞或样本中该蛋白在该区域存在结合富集信号。是否调控目标基因还需要结合后续证据判断。02 筛选更可信的候选TF挖出来的候选TF动辄几十个全验证不现实。可以按下面这张表打分排序总分越高越值得做实验。03 根据研究目的挑实验注意事项1、不要直接拿人源数据套小鼠基因。TF的结合位点在物种间不一定保守。同源TF在不同物种里调控的靶基因经常差异很大。先做物种内挖掘再做跨物种比对。2、不要只看peak最近的基因。增强子作用范围可以跨50kb–1Mb。peak最近的基因不一定是真正的靶基因有条件最好结合Hi-C或3D基因组数据看互作圈。3、不能把公共peak直接当成自己样本里的真实结合。公共数据来自特定细胞、特定条件比如A549细胞里某TF在你目标基因附近有peak不代表HEK293细胞、或患者样本也有。尽量选与自己研究体系匹配同物种同组织/近缘细胞类型/类似处理条件的数据集。匹配不上时至少说明这是在某些细胞中观察到的潜在结合留待实验验证。参考文献[1] Zou Z, Ohta T, Miura F, Oki S. ChIP-Atlas 2021 update: a data-mining suite for exploring epigenomic landscapes by fully integrating ChIP-seq, ATAC-seq and Bisulfite-seq data.Nucleic Acids Res. 2022 Jul 5;50(W1):W175-W182.[2] Taing L, Dandawate A, LYi S, Gehlenborg N, Brown M, Meyer CA. Cistrome Data Browser: integrated search, analysis and visualization of chromatin data.Nucleic Acids Res. 2024 Jan 5;52(D1):D61-D66.[3] Rauluseviciute I, Riudavets-Puig R, Blanc-Mathieu R, Castro-Mondragon JA, Ferenc K, Kumar V, Lemma RB, Lucas J, Chèneby J, Baranasic D, Khan A, Fornes O, Gundersen S, Johansen M, Hovig E, Lenhard B, Sandelin A, Wasserman WW, Parcy F, Mathelier A. JASPAR 2024: 20th anniversary of the open-access database of transcription factor binding profiles.Nucleic Acids Res. 2024 Jan 5;52(D1):D174-D182.