PMET(paired motif enrichment software)是一款专门用于分析基因启动子区域中的同源和异源motifs(基序)的生物信息学工具。它的流程可以分为两个主要步骤:indexing(同源基序搜索)和pairing(异源基序搜索)。
- 提取Promoter: 利用fasta格式的基因组文件和gff3的注释文件,从每个基因的转录起始位点(TSS)前提取1000个碱基长度作为启动子区域,并加入3' UTR区域。这样,每个启动子的长度是1000个碱基加上3' UTR的长度。
- 删除重叠部分: 由于提取的启动子可能延伸到其他基因中,所以需要去除这些重叠部分,确保每个基因的启动子是独立的,并将它们保存在
promoter.fa
文件中。 - 获取Motifs信息: 从数据库中获取motifs信息,保存在.meme格式的文件中。例如,一个文件可能包含113个不同的motifs。
- Motif匹配: 使用MEME套件中的FIMO软件,将motifs匹配到每个启动子上,寻找同源基序。
- 计算概率: 对于每个motif与启动子的配对,选择p值最小的maxk个匹配(默认maxk为5),计算它们的几何平均概率(p_geo)。计算可能的匹配位置为
possibleLocations = 2 * (promoterLength - motifLength + 1)
。使用二项分布计算至少发生n次(0≤n≤maxk)事件的概率。这些概率值被记录在binomial_thresholds.txt
中。- 选取最佳匹配(Hits): 对于每个motif与特定启动子的配对,FIMO软件会提供一系列匹配(hits)的p值和物理结合坐标。在这些匹配中,选取p值最小的maxk个(默认maxk为5)。这些被选中的匹配代表了motif与启动子结合的最有可能的位置。
- 计算几何平均概率(p_geo): 对这些选中的maxk个匹配,计算它们p值的几何平均值。这个平均值p_geo用作该motif随机匹配到该promoter的概率,用于后续的二项分布测试。
- 确定可能的匹配位置(possibleLocations): 考虑到转录因子可以在两个方向上结合到DNA上,计算motif可能的匹配位置。这是通过公式
possibleLocations = 2 * (promoterLength - motifLength + 1)
来实现的。 - 二项分布概率计算: 使用p_geo和possibleLocations,对每个n(0≤n≤maxk)计算累积概率P(X≥n),即至少有n次匹配发生的概率。这是通过计算二项分布的累积分布函数来实现的。
- 选择保留的匹配数目: 查看这些累积概率值,找出最小的P(X≥n)值。如果这个最小概率值对应的n不是maxk,那么就选择保留n个motif a和promoter的匹配。这意味着,如果在maxk次匹配中发现了更低概率的较小匹配次数,系统会选择这个较小的匹配次数作为最终的结果。
- 记录最小阈值: 将计算出的最小的概率值(P(X≥n)的值)记录在
binomial_thresholds.txt
文件中,用于后续分析。
- 选择Top Promoters: 对于每个motif,计算其出所有启动子的最小阈值,所有启动子按阈值排序,并选择概率最小的topn个启动子(默认为5000)。
- 记录结果: 例如,
CCA1.txt
中保存了motif CCA1与拟南芥启动子的匹配数据。
- 比较Motifs: 对每一对不同的motifs进行一次比较,不重复。
- 寻找交集: 统计两个motifs的topn个promoters是否有交集。
- 检查重叠坐标: 对于交集中的的每个启动子,检查motif a和motif b的结合坐标是否有重叠。
- 重新计算概率: 如果发现重叠,并且重叠程度超过预设阈值(ICthresh),则重新计算二项分布概率,并与记录在
binomial_thresholds.txt
文件中对应motif的阈值比较。如果新的数值大于保存的阈值,就舍弃该motif对。 - 交集与功能群体: 计算特定功能群体(如某个cluster)的基因(比如细胞周期基因400个)与同时含有两个motif的基因的交集。
- 超几何分布测试: 对上述三个集合(功能群体、含有两个motif的基因群体及其交集)进行超几何分布测试,计算p值。
- 定义集合:
- 功能群体基因集合: 这是预先定义的特定功能群体,例如细胞周期相关的400个基因。
- 含有两个motif的基因群体: 从之前的步骤中得到,这些基因在其启动子区域同时包含motif a和motif b。
- 交集基因群体: 功能群体基因集合与含有两个motif的基因群体的交集。
- 超几何分布测试的目的: 该测试旨在评估在含有两个motif的基因群体中观察到特定数量的功能群体基因的概率。这可以揭示两个motifs在调控特定功能基因方面的相关性。
- 计算超几何分布概率(p值):
- 总体大小(N): 基因组中的总基因数。
- 成功总数(K): 功能群体中的基因总数(例如400个细胞周期基因)。
- 抽样数(n): 含有两个motif的基因群体的大小。
- 观察到的成功数(k): 交集基因群体的大小。
- 计算p值: 使用这些参数,计算在假设功能群体基因和含有两个motif的基因之间不存在特定关系的情况下,观察到至少k个功能群体基因在含有两个motif的基因群体中的概率。
- 统计显著性判断: 一个较低的p值表明观察到的交集不太可能仅是随机事件,暗示两个motifs在调控这个特定功能群体的基因中可能发挥协同作用。
- 定义集合:
- 输出结果: 所有motif的两两比较结果以及相关p值和交集基因列表被记录和输出。
通过这两个步骤,PMET可以精确地确定特定motif在启动子区域中的结合概率,并选出最有可能包含这些结合位点的启动子。这对于理解转录因子如何调控基因表达至关重要,尤其是在同源和异源motifs