PMET软件工作流程解释

PMET（paired motif enrichment software）是一款专门用于分析基因启动子区域中的同源和异源motifs（基序）的生物信息学工具。它的流程可以分为两个主要步骤：indexing（同源基序搜索）和pairing（异源基序搜索）。

Indexing（同源基序搜索）

提取Promoter： 利用fasta格式的基因组文件和gff3的注释文件，从每个基因的转录起始位点（TSS）前提取1000个碱基长度作为启动子区域，并加入3' UTR区域。这样，每个启动子的长度是1000个碱基加上3' UTR的长度。
删除重叠部分： 由于提取的启动子可能延伸到其他基因中，所以需要去除这些重叠部分，确保每个基因的启动子是独立的，并将它们保存在promoter.fa文件中。
获取Motifs信息： 从数据库中获取motifs信息，保存在.meme格式的文件中。例如，一个文件可能包含113个不同的motifs。
Motif匹配： 使用MEME套件中的FIMO软件，将motifs匹配到每个启动子上，寻找同源基序。
计算概率： 对于每个motif与启动子的配对，选择p值最小的maxk个匹配（默认maxk为5），计算它们的几何平均概率（p_geo）。计算可能的匹配位置为 possibleLocations = 2 * (promoterLength - motifLength + 1)。使用二项分布计算至少发生n次（0≤n≤maxk）事件的概率。这些概率值被记录在binomial_thresholds.txt中。
1. 选取最佳匹配（Hits）： 对于每个motif与特定启动子的配对，FIMO软件会提供一系列匹配（hits）的p值和物理结合坐标。在这些匹配中，选取p值最小的maxk个（默认maxk为5）。这些被选中的匹配代表了motif与启动子结合的最有可能的位置。
2. 计算几何平均概率（p_geo）： 对这些选中的maxk个匹配，计算它们p值的几何平均值。这个平均值p_geo用作该motif随机匹配到该promoter的概率，用于后续的二项分布测试。
3. 确定可能的匹配位置（possibleLocations）： 考虑到转录因子可以在两个方向上结合到DNA上，计算motif可能的匹配位置。这是通过公式 possibleLocations = 2 * (promoterLength - motifLength + 1) 来实现的。
4. 二项分布概率计算： 使用p_geo和possibleLocations，对每个n（0≤n≤maxk）计算累积概率P(X≥n)，即至少有n次匹配发生的概率。这是通过计算二项分布的累积分布函数来实现的。
5. 选择保留的匹配数目： 查看这些累积概率值，找出最小的P(X≥n)值。如果这个最小概率值对应的n不是maxk，那么就选择保留n个motif a和promoter的匹配。这意味着，如果在maxk次匹配中发现了更低概率的较小匹配次数，系统会选择这个较小的匹配次数作为最终的结果。
6. 记录最小阈值： 将计算出的最小的概率值（P(X≥n)的值）记录在binomial_thresholds.txt文件中，用于后续分析。
选择Top Promoters： 对于每个motif，计算其出所有启动子的最小阈值，所有启动子按阈值排序，并选择概率最小的topn个启动子（默认为5000）。
记录结果： 例如，CCA1.txt中保存了motif CCA1与拟南芥启动子的匹配数据。

Pairing（异源基序搜索）

比较Motifs： 对每一对不同的motifs进行一次比较，不重复。
寻找交集： 统计两个motifs的topn个promoters是否有交集。
检查重叠坐标： 对于交集中的的每个启动子，检查motif a和motif b的结合坐标是否有重叠。
重新计算概率： 如果发现重叠，并且重叠程度超过预设阈值（ICthresh），则重新计算二项分布概率，并与记录在binomial_thresholds.txt文件中对应motif的阈值比较。如果新的数值大于保存的阈值，就舍弃该motif对。
交集与功能群体： 计算特定功能群体（如某个cluster）的基因（比如细胞周期基因400个）与同时含有两个motif的基因的交集。
超几何分布测试： 对上述三个集合（功能群体、含有两个motif的基因群体及其交集）进行超几何分布测试，计算p值。
1. 定义集合：
  1. 功能群体基因集合： 这是预先定义的特定功能群体，例如细胞周期相关的400个基因。
  2. 含有两个motif的基因群体： 从之前的步骤中得到，这些基因在其启动子区域同时包含motif a和motif b。
  3. 交集基因群体： 功能群体基因集合与含有两个motif的基因群体的交集。
2. 超几何分布测试的目的： 该测试旨在评估在含有两个motif的基因群体中观察到特定数量的功能群体基因的概率。这可以揭示两个motifs在调控特定功能基因方面的相关性。
3. 计算超几何分布概率（p值）：
  - 总体大小（N）： 基因组中的总基因数。
  - 成功总数（K）： 功能群体中的基因总数（例如400个细胞周期基因）。
  - 抽样数（n）： 含有两个motif的基因群体的大小。
  - 观察到的成功数（k）： 交集基因群体的大小。
  - 计算p值： 使用这些参数，计算在假设功能群体基因和含有两个motif的基因之间不存在特定关系的情况下，观察到至少k个功能群体基因在含有两个motif的基因群体中的概率。
4. 统计显著性判断： 一个较低的p值表明观察到的交集不太可能仅是随机事件，暗示两个motifs在调控这个特定功能群体的基因中可能发挥协同作用。
输出结果： 所有motif的两两比较结果以及相关p值和交集基因列表被记录和输出。

通过这两个步骤，PMET可以精确地确定特定motif在启动子区域中的结合概率，并选出最有可能包含这些结合位点的启动子。这对于理解转录因子如何调控基因表达至关重要，尤其是在同源和异源motifs

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PMET_method_汉.md

PMET_method_汉.md

PMET软件工作流程解释

Indexing（同源基序搜索）

Pairing（异源基序搜索）

Files

PMET_method_汉.md

Latest commit

History

PMET_method_汉.md

File metadata and controls

PMET软件工作流程解释

Indexing（同源基序搜索）

Pairing（异源基序搜索）