Skip to content

Latest commit

 

History

History
43 lines (37 loc) · 5.98 KB

PMET_method_汉.md

File metadata and controls

43 lines (37 loc) · 5.98 KB

PMET软件工作流程解释

PMET(paired motif enrichment software)是一款专门用于分析基因启动子区域中的同源和异源motifs(基序)的生物信息学工具。它的流程可以分为两个主要步骤:indexing(同源基序搜索)和pairing(异源基序搜索)。

Indexing(同源基序搜索)

  1. 提取Promoter: 利用fasta格式的基因组文件和gff3的注释文件,从每个基因的转录起始位点(TSS)前提取1000个碱基长度作为启动子区域,并加入3' UTR区域。这样,每个启动子的长度是1000个碱基加上3' UTR的长度。
  2. 删除重叠部分: 由于提取的启动子可能延伸到其他基因中,所以需要去除这些重叠部分,确保每个基因的启动子是独立的,并将它们保存在promoter.fa文件中。
  3. 获取Motifs信息: 从数据库中获取motifs信息,保存在.meme格式的文件中。例如,一个文件可能包含113个不同的motifs。
  4. Motif匹配: 使用MEME套件中的FIMO软件,将motifs匹配到每个启动子上,寻找同源基序。
  5. 计算概率: 对于每个motif与启动子的配对,选择p值最小的maxk个匹配(默认maxk为5),计算它们的几何平均概率(p_geo)。计算可能的匹配位置为 possibleLocations = 2 * (promoterLength - motifLength + 1)。使用二项分布计算至少发生n次(0≤n≤maxk)事件的概率。这些概率值被记录在binomial_thresholds.txt中。
    1. 选取最佳匹配(Hits): 对于每个motif与特定启动子的配对,FIMO软件会提供一系列匹配(hits)的p值和物理结合坐标。在这些匹配中,选取p值最小的maxk个(默认maxk为5)。这些被选中的匹配代表了motif与启动子结合的最有可能的位置。
    2. 计算几何平均概率(p_geo): 对这些选中的maxk个匹配,计算它们p值的几何平均值。这个平均值p_geo用作该motif随机匹配到该promoter的概率,用于后续的二项分布测试。
    3. 确定可能的匹配位置(possibleLocations): 考虑到转录因子可以在两个方向上结合到DNA上,计算motif可能的匹配位置。这是通过公式 possibleLocations = 2 * (promoterLength - motifLength + 1) 来实现的。
    4. 二项分布概率计算: 使用p_geo和possibleLocations,对每个n(0≤n≤maxk)计算累积概率P(X≥n),即至少有n次匹配发生的概率。这是通过计算二项分布的累积分布函数来实现的。
    5. 选择保留的匹配数目: 查看这些累积概率值,找出最小的P(X≥n)值。如果这个最小概率值对应的n不是maxk,那么就选择保留n个motif a和promoter的匹配。这意味着,如果在maxk次匹配中发现了更低概率的较小匹配次数,系统会选择这个较小的匹配次数作为最终的结果。
    6. 记录最小阈值: 将计算出的最小的概率值(P(X≥n)的值)记录在binomial_thresholds.txt文件中,用于后续分析。
  6. 选择Top Promoters: 对于每个motif,计算其出所有启动子的最小阈值,所有启动子按阈值排序,并选择概率最小的topn个启动子(默认为5000)。
  7. 记录结果: 例如,CCA1.txt中保存了motif CCA1与拟南芥启动子的匹配数据。

Pairing(异源基序搜索)

  1. 比较Motifs: 对每一对不同的motifs进行一次比较,不重复。
  2. 寻找交集: 统计两个motifs的topn个promoters是否有交集。
  3. 检查重叠坐标: 对于交集中的的每个启动子,检查motif a和motif b的结合坐标是否有重叠。
  4. 重新计算概率: 如果发现重叠,并且重叠程度超过预设阈值(ICthresh),则重新计算二项分布概率,并与记录在binomial_thresholds.txt文件中对应motif的阈值比较。如果新的数值大于保存的阈值,就舍弃该motif对。
  5. 交集与功能群体: 计算特定功能群体(如某个cluster)的基因(比如细胞周期基因400个)与同时含有两个motif的基因的交集。
  6. 超几何分布测试: 对上述三个集合(功能群体、含有两个motif的基因群体及其交集)进行超几何分布测试,计算p值。
    1. 定义集合:
      1. 功能群体基因集合: 这是预先定义的特定功能群体,例如细胞周期相关的400个基因。
      2. 含有两个motif的基因群体: 从之前的步骤中得到,这些基因在其启动子区域同时包含motif a和motif b。
      3. 交集基因群体: 功能群体基因集合与含有两个motif的基因群体的交集。
    2. 超几何分布测试的目的: 该测试旨在评估在含有两个motif的基因群体中观察到特定数量的功能群体基因的概率。这可以揭示两个motifs在调控特定功能基因方面的相关性。
    3. 计算超几何分布概率(p值):
      • 总体大小(N): 基因组中的总基因数。
      • 成功总数(K): 功能群体中的基因总数(例如400个细胞周期基因)。
      • 抽样数(n): 含有两个motif的基因群体的大小。
      • 观察到的成功数(k): 交集基因群体的大小。
      • 计算p值: 使用这些参数,计算在假设功能群体基因和含有两个motif的基因之间不存在特定关系的情况下,观察到至少k个功能群体基因在含有两个motif的基因群体中的概率。
    4. 统计显著性判断: 一个较低的p值表明观察到的交集不太可能仅是随机事件,暗示两个motifs在调控这个特定功能群体的基因中可能发挥协同作用。
  7. 输出结果: 所有motif的两两比较结果以及相关p值和交集基因列表被记录和输出。

通过这两个步骤,PMET可以精确地确定特定motif在启动子区域中的结合概率,并选出最有可能包含这些结合位点的启动子。这对于理解转录因子如何调控基因表达至关重要,尤其是在同源和异源motifs