研究GRN时进行的现有方法整理,摘自《单细胞多组学时代的基因调控网络推理》[^1] ,由我进行翻译和补充。
$$ E = mc^2 $$
[ E = mc^2 ]
ANANSE从未配对的RNA-seq和ATAC-seq数据中推断出细胞类型特异性的GRN,这些数据是作为开放峰BAM文件的集合提供的,以及标准化的基因表达文本文件,每个样本和模态一个文件。它通过使用先前在REMAP2的大量ChIP-seq数据集合上训练的逻辑回归模型预测DNA结合的概率,将TF分配给开放峰。为了预测TF结合概率,该模型利用观察到的二进制峰值可及性和通过使用基序数据库CIS-BP4运行基序匹配器算法GimmeMotifs3获得的基序分数。为了给基因分配峰,ANANSE通过它们的基因组距离来加权相互作用,默认情况下距离基因TSS最多100 kb。峰到TSS的距离越大,其权重越低。基于此,它通过聚合由基因组距离加权的峰之间的所有结合概率来计算TF基因结合分数。它拟合了一个线性回归模型,其中脊正则化将观察到的二元峰可及性作为响应变量,并将先前获得的基序分数作为生成TF活性分数的系数,这些是拟合的基序系数。为了模拟最终的GRN,ANANSE通过平均缩放四个分数的等级来计算相互作用分数:(1)TF基因表达,(2)靶基因表达,(3)TF结合分数和(4)TF活性。最终的TF-基因相互作用范围从0到1,表明没有调节。此外,ANANSE可以从不同细胞类型或条件的源和靶网络构建差异GRN。将差异GRN与差异表达测试结果相结合,它计算出一个影响分数,可用于根据对比中的相关性对TF进行排名。
CellOracle使用scRNA-seq数据以不成对的方式从基于ATAC-seq数据构建的碱基GRN中推断上下文特异性GRN。通常,碱基GRN是从存储在Cell Data Set对象中的细胞类型或样本特异性scATAC-seq矩阵创建的。首先,使用HOMER6的注释将基因的TSS定位在可访问的ATAC-seq峰内,从而识别启动子和近端增强子区域。然后使用CICERO7基于区域的共同可访问性来识别远端调节元件。如果峰值与包含TSS的峰值的共同可访问性得分至少为0.8,并且距离峰值在500 kb以内,则峰值被视为远端调节元件。接下来,TFs通过GimmeMotifs3 python包及其主题数据库的TF基序扫描与峰值相关联,具有误判率阈值。然后将每个识别的TF-基因链接包含在基本GRN中。对于GRN的上下文化,使用存储在AnnData对象中的原始转录计数根据基因表达将数据集划分为几个集群,以识别特定的细胞类型或细胞状态。对于每个集群,使用线性回归模型根据潜在调节基因的表达预测目标基因的表达。特此,CellOracle使用贝叶斯岭回归或Bagging(引导聚合)岭回归估计每个TF-基因相互作用的边缘强度。得到的边缘强度系数分布用于通过进行单样本t检验来计算边缘强度的p值,以确定该系数是否与零显著不同。最后,可以根据p值和边缘强度系数的绝对平均值选择TF-基因相互作用,以形成最终的上下文化GRN。
DC3利用非负矩阵分解来同时反卷积批量或单细胞RNA-seq、ATAC-seq和Hi-C数据,并整合这些不成对的模式。它通过预先计算的表达矩阵、开放性矩阵和以文本文件提供的循环计数的线性建模方法构建细胞类型特定的GRN。DC3通过首先生成伪批量RNA和ATAC配置文件来识别每种细胞类型的关键调节因子。从ATAC配置文件中,它使用带有未定义主题数据库的HOMER6将TF与峰值匹配,并计算取决于主题富集的p值和TF表达的折叠变化的主题富集分数。然后,根据它们的基因表达水平、它们的基序富集分数以及它们与至少一种其他细胞类型相比是否有显著差异表达,为每种细胞类型选择TF。DC3不是基于基因组距离的方法,而是根据来自Hi-C数据的循环计数分配峰值基因对。接下来,模型通过计算TF和目标基因表达之间的相关性来生成TF峰值基因三胞胎。然后,TF-基因相互作用权重被分配为基序分数和循环计数乘积的总和。最后,GRN的节点分为三类之一:(1)核心,当节点既充当调节器又充当目标时,(2)上游,当节点仅充当调节器时,以及(3)下游,当节点仅充当目标时。
DeepMAPS是一个深度学习框架,它将成对的单细胞多组学数据投射到异构图表示中,找到细胞和基因的联合嵌入。然后,它推断出每个恢复的细胞类型簇的GRN。因此,用户必须提供来自JASPAR数据库10的H5格式、ATAC片段TSV文件和TF结合信息的基因表达和染色质可及性计数矩阵。峰值-基因链接是通过计算位于TSS上下游或基因外显子区域内150 kb内的每个峰值的调节潜在分数来推断的,如MAESTRO中所述。调节电位分数被定义为峰的开放性和调节电位权重的乘积,权重描述峰到TSS的基因组距离(+/-150 kb或在外显子区域)。通过使用来自JASPAR的带有TF结合基序的PWMScan24计算结合亲和力分数,通过一定的p值阈值来识别TF峰链接。接下来,为给定细胞中的每个TF基因链接计算调节强度分数,分别作为调节电位分数之和和和所有相关峰基因和TF峰链接的所有结合亲和力分数之和的乘积。基于目标基因的调节强度分数,计算给定集群中跨细胞的每个TF的调节活性分数。使用Wilcoxon秩和检验测试集群之间的差异活性。p值小于0.05且logFC大于0.10的调节被认为是集群特异性的。最终的GRN是通过合并所有集群特异性调节因子来构建的。最后,TF节点根据其特征向量中心性进行排名,排名前10位的最高TF被确定为集群特异性主TF。
Dictys从未配对的scRNA-seq数据和作为存储在TSV文件中的RNA读取计数矩阵提供的批量或scATAC-seq数据以及作为BAM文件读取的ATAC数据中推断出来自细胞类型或动态GRN等组的稳态GRN。Dictys首先从ATAC-seq数据构建支架网络。因此,用MACS213调用伪批量染色质可及性峰,并保留前500,000个峰。后来,来自pyDNase14的Wellington引导程序用于注释TF足迹,HOMER6用于扫描来自HOMER6或HOCOMOCO15的TF基序的峰。TF-基因链接被估计为足迹注释概率之和的最大值,基序的纯度,以及距离TSS最大500 kb的窗口中到基因的距离。每个基因的前20个TF保存在初始支架网络中。在下一步中,该网络通过建模基因表达动力学来完善,该动力学是与该基因链接的每个可能TF的转录调节强度的函数,同时还建模技术变异。基因表达动力学的建模基于Ornstein-Uhlenbeck随机过程,其中稳态分布代表每个细胞的生物表达变异。技术变化通过稀疏二项抽样建模。他们的建模过程产生了动态基因调控网络,该网络解释了反馈回路,并可以模拟基因扰动,从中得出具有直接和间接关系的最终调控网络。Dictys进一步允许从用户提供的轨迹中进行动态GRN推断,其中定义了移动窗口,首先生成静态单个GRN,然后是高斯核平滑和创建组合动态网络。
DIRECT-NET16从配对的scRNA-seq和scATAC-seq多组数据或单独的scATAC-seq构建细胞类型特定的GRN。数据以10x h5特征计数矩阵的形式提供,同时提供一个片段TSV文件,从中创建Seurat对象。首先,DIRECT-NET通过在用户定义的数据低维表示中聚合基于KNN图选择的相似细胞的基因表达和/或染色质可及性配置文件来创建假细胞。获得的两个组学的聚合配置文件通过DESeq217中实现的缩放因子进行归一化。为了识别功能峰-基因链接,DIRECT-NET基于XGBoost18构建了一个非线性回归模型。对于每个基因,它首先从TSS上游识别其启动子峰500 bp和增强子峰250 kb。当只有ATAC-seq数据可用时,模型根据其他潜在链接峰的聚合可及性预测观察到的聚合启动子可及性。当两个组学都可用时,模型根据其他潜在链接峰的聚合可及性预测观察到的聚合基因表达。对于每个远端峰,模型返回一个重要性分数,该分数对应于该峰对于预测给定基因表达的重要性程度。接下来,DIRECT-NET通过将重要性分数高于总体重要性分数中位数的所有峰与每种细胞类型中的差异可及峰重叠来检测高置信度功能峰。然后,使用基序扫描方法MOODs19和JASPAR10基序数据库将TF分配给峰。最后,GRN是通过只保留与被认为是给定细胞类型的标记基因的基因的链接来构建的。
FigR从配对的RNA-seq和ATAC-seq数据中生成GRN。它首先通过计算峰可及性的Spearman相关性和给定基因的TSS上下50 kb的搜索窗口内所有峰的基因表达来生成峰基因链接。接下来,通过使用单尾z检验对随机背景峰的置换相关系数进行测试来识别重要的峰基因链接。只有具有正相关的重要峰基因对被保留。然后,FigR识别了具有高密度峰基因相互作用的被称为调节染色质域(DORC)的基因集。对于每个集合和细胞,通过对显著相关峰的以均值为中心的归一化计数求和来计算可访问性分数。为了推断从TF到这些调节集的链接,FIG R计算调节分数。因此,它将TF表达式和调节区域集的可访问性分数之间的Spearman相关性与由基序匹配算法MOODs19识别的同一集合中CIS-BP4数据库中TF基序的相对丰富相结合。对于每个DORC,它根据平滑的DORC分数矩阵识别k个最近邻DORC,并选择自身及其相关峰的联合,创建一个峰池。使用TF峰关联,它计算由chromVAR21选择的池化峰和置换背景峰集(n=50)的TF频率,允许它使用z检验进行显著性测试。每个TF-DORC对的调节分数取决于相关性的方向以及富集和相关性的显著性。在最终的GRN中,正值表示给定的TF正向调节下游DORC,负值则相反。
GLUE同时从存储为AnnData对象的不同单细胞模式中学习特征和细胞嵌入。前者是通过在将启动子区域的峰与相应基因连接起来的先验生物知识图上训练图自编码器来学习的。然后定义一个特征嵌入空间。后者是通过每个模态训练一个变分自动编码器来学习的,该编码器还使用特征嵌入将细胞嵌入映射回它们的输入空间。训练后,当应用于scATAC-seq和scRNA-seq数据时,GLUE可以根据特征嵌入之间的余弦相似度推断峰基因链接(FDR校正的p值低于0.05)。然后可以根据不同的标准过滤峰基因连接,例如到TSS的距离(在他们的研究案例中考虑了150 kb的窗口)或来自Hi-C和eQTL数据的信息。然后,pySCENIC框架将被调整以利用这些顺式调节链接。首先,扫描基因组以基于TF结合基序建立TF-峰链接。GLUE推断的峰基因连接和基序支持的TF-峰结合链接都被整合到TF-基因顺式调节假说中,该假说通过每个TF-基因对共有的ATAC峰的数量来考虑。其次,GRNBoost2应用于scRNA-seq数据,基于共表达测量TF-基因关联。最后,基于表达的网络被顺式调节排名修剪,以保留TF-基因与顺式调节证据的连接。为了不仅仅因为在基因体附近没有测量到ATAC峰而错过法规,定义了第二组TF-基因调节链接。管道是相似的,但是GLUE推断的峰基因链接被基因和TSS侧翼区域之间的关联所取代。两组调节相互作用在最终输出中保持分离。
GRaNIE23从配对的大容量或单细胞染色质可及性峰值和RNA-seq计数表中推断出细胞类型特异性GRN。对于单细胞数据,转录组和ATAC-seq配置文件存储在多模态Seurat对象中。原始数据经过DESeq2’s17比率中位数或分位数归一化,并过滤以获得低读取计数和长峰值宽度。接下来,来自所有TF的预测TF结合位点,无论是自行预先计算的还是使用HOCOMOCO15或JASPAR10数据库从PWMscan24编译的,都与开放染色质峰重叠。GRaNIE然后计算TF表达水平和每个峰值信号之间的样本之间的成对Pearson相关性。对于每个TF,相关性被离散到箱中,对于每个箱,通过将没有识别的TF结合位点的TF-峰链接的数量除以该箱中的TF-峰链接的总数来计算经验FDR。此外,TF可以根据有和没有TF结合位点的峰的相关性分布分为假定的激活因子或抑制因子。与TF峰链接的推断类似,GRaNIE基于基因表达水平的Pearson相关性和来自TSS的250 kb内每个峰的峰值信号来识别峰基因链接。可选地,Hi-C数据可用于推断空间染色质结构,并通过仅测试具有拓扑相关域的峰基因对来取代基于基因组距离的方法。对于峰基因链接,FDR是通过使用Benjamini-Hochberg执行多次测试调整来计算的。默认情况下,最终GRN由通过FDR为0.2的箱中的TF峰链接和具有正相关且FDR小于0.1的峰基因链接的组合组成。GRaNIE还提供了一些质量控制,包括评估正与负峰基因相关性以判断信噪比,以及采用基于排列的方法进行比较。
Inferelator 2.5使用不成对的批量RNA-seq和批量ATAC-seq数据构建稳态GRN。它首先根据ATAC-seq数据和作为可访问峰的BED文件、TF基序PFMs目录和基因组特征位置(TSS,基因体)的BED文件提供的基序信息生成先前的支架GRN。当峰值位于基因体上下10kb的搜索窗口内时,它会分配给基因。接下来,它利用来自CIS-BP4、ENCODE26和TRANSFAC27数据库的基序信息,并扫描与FIMO28连接的峰区域,以找到显着丰富的TF基序。Inferelator 2.5将基因表达建模为TF活动和TF-基因相互作用的多元线性组合。它首先通过拟合一个模型来估计TF活性,其中解释变量是观察到的基因表达,协变量是支架GRN的二元拓扑和未知的TF活性。TF活性估计是通过找到最小二乘解来获得的。为了获得TF-基因相互作用系数,它基于先前获得的TF活性建立了一个基因表达的稀疏正则化线性模型,同时通过非负惩罚矩阵结合先验信息作为支架GRN中TF-基因链接的证据。在最终的GRN中,基于TF和基因之间的偏相关性优先考虑高置信度TF-基因链接。
Inferelator 3.0采用多任务学习方法从不成对的大块或单细胞RNA-seq和ATAC-seq数据构建GRN。表达数据被聚类并作为单独的学习任务提交,从中推断出单个GRN。它首先从ATAC-seq数据和作为峰的BED文件提供的基序信息生成先前的支架GRN,TF基序的MEME文件以及参考GTF和FASTA文件。当峰值位于TSS上游50 kb和下游2.5 kb的窗口内时,将其分配给基因。接下来,它利用来自JASPAR10、CIS-BP4和TRANSFAC27的基序,并使用FIMO28扫描峰值以找到重要的TF。对于每个TF-峰链接,基于在基序序列的每个位置观察到特定碱基的概率计算有效信息含量(EIC)分数。然后将TF-基因结合分数定义为最大EIC值。对于每个TF,这些结合分数被聚类,并且仅保留聚类中得分最高的TF-基因对,生成稀疏先验网络。接下来,通过拟合以基因表达为解释变量、二值化先验GRN和TF活动为协变量的多元线性模型来估计TF活动。对于每个基因,Inferelator 3.0然后构建自举正则化多元线性模型,将基因表达预测为估计TF活动的加权和。最后,对于每个基因,模型被重新设计,但留下给定的TF来计算为该相互作用解释的方差量。边缘根据解释的方差进行排名,跨引导将排名组合成单个GRN,并分配基于排名的置信度分数。这是为数据中存在的每个集群(例如细胞类型或时间序列)完成的。最后,聚类GRN被聚合生成统一的GRN。
IReNA从未配对的scRNA-seq和批量或scATAC-seq数据为给定轨迹构建GRN。要运行IReNA,用户必须提供片段BAM文件、峰值基因链接文本文件和足迹BED文件以及基因表达数据的Seurat对象,其中伪时间信息存储在元数据中。首先,IReNA识别每个模态的GRN,然后将它们相交。对于集成组学,它使用Monocle231识别用户定义的轨迹,平滑整个轨迹的表达和表观基因组概况,并执行差异表达和可访问性分析。对于scRNA-seq GRN,IReNA选择显著差异表达的基因和在>5%的细胞中表达的TFs,TFs是包含在基序数据库TRANSFAC27中的基因。通过运行随机森林回归算法GENIE332,它基于转录组学数据中的共表达来推断TF-基因对。为了确定相互作用的符号,它计算配对基因表达水平之间的皮尔逊相关性。对于ATAC-seq GRN,IReNA首先识别差异可访问峰。接下来,它通过将峰值可访问性与TSS周围+/-250 kb搜索窗口中每个基因的表达相关联来推断峰值-基因链接,如在archR33中实现的那样。使用HINT34检测差异可达峰中的TF结合事件。然后通过FIMO28使用基序数据库TRANSFAC27扫描高质量的结合位置以寻找基序。最后,它通过交叉RNA-seq和ATAC-seq GRN来生成集成GRN。进一步向下游,IReNA可以通过在平滑的表达谱上使用k-means聚类将差异表达基因和TF分组到模块中来模块化推断的GRN。通过计算轮廓分数来估计模块的理想数量。然后可以分析模块化GRN以寻找丰富的TF,并通过通过显着截止修剪模块内的边缘来简化。
MAGIC从未配对的scRNA-seq和scATAC-seq数据中推断GRN。它需要一组输入TXT文件,存储有关细胞类型注释、候选差异表达基因和差异可达峰的信息、两种模式的读取计数信息、从Hi-C数据获得的TF结合基序和拓扑相关域(TADs)的先验信息。候选调控电路是通过使用MOODs19方法将chromVAR21基序库(包括CIS-BP4和ENCODE26)中的TF基序映射到候选峰来构建的。如果具有至少一个基序匹配的峰位于同一TAD内,则将它们链接到候选基因。如果没有提供关于TADs的先验信息,用户可以指定将峰与基因链接的基因组距离。两种数据模式的集成与TF活性估计相结合,并且基于这样的假设,即给定细胞类型中TF活性的分布在两种模式的细胞中是相同的,只要它们来自同一样本。对于每个TF,MAGIC学习分布,然后推断其在每个细胞中的活性。最后,对于每种细胞类型中的每个调节性TF峰基因回路,推断出TF峰结合和峰基因循环置信度。MAGIC正在贝叶斯框架中分别为每种数据模式拟合一个模型。首先,染色质可及性数据由TF-峰结合和估计的TF活性解释,其次,基因表达数据由峰-基因相互作用和调节区域活性解释,这是两个先前推断变量的组合。为了获得最终的GRN高置信度电路,根据代表迭代Gibbs采样过程中采样频率的计算后验概率进行选择。输出GRN以TXT文件的形式提供,包括TF-峰结合置信度和峰-基因-相互作用作为边缘权重。
MICA基于单细胞转录组数据的互信息(MI)构建GRN,然后用来自未配对染色质可及性数据的信息进行细化。MICA首先从存储在SingleCell实验性对象中的归一化scRNA-seq数据生成支架GRN。它通过使用MI计算两个基因表达水平之间的相似性来构建共表达网络,与相关性相比,MI不假设线性、连续性或依赖的其他特定属性。然后,MICA根据计算的MI值的经验分布估计每个潜在TF-基因链接的P值。接下来,MICA使用上下文特定的ATACseq数据(作为开放峰值BAM文件提供)来细化预测的TF-基因相互作用。它使用来自JASPAR10和HOCOMOCO15的基序信息用HINT34识别开放区域中富集的TF基序。然后分配到开放区域的每个TF与具有最近TSS的基因相连。然后,在共表达网络中识别的TF基因链接与来自导致最终GRN的染色质可及性的TF基因对相交。
Pando从存储在Seurat对象中的配对scATAC-seq和scRNA-seq数据中推断出基因调控网络。它首先通过将ATAC共识峰与来自PhasCons的已知保守区域或来自ENCODE26的预注释保守CRE相交来选择候选增强子区域。接下来,使用motifmatchr21扫描所有候选区域的TF结合基序。结合基序从JASPAR10和CIS-BP4收集,或根据与来自同一家族的其他TF的蛋白质序列相似性推断。每个包含TF结合基序的调节区域都与一个基因相连,如果它包含基因体或TSS上游100 kb。然后,使用广义线性模型,根据与结合区域和TF基因表达重叠的峰值的可及性概率预测基因表达。因此,它估计了边缘权重,该权重可以解释为TF结合位点对下游基因的调节作用。这些拟合系数使用方差分析/t检验进行显著性测试,并使用Benjamini-Hochberg进行多次测试校正。然后过滤TF基因链接的显著性,并根据估计的系数分类为负或正调节相互作用。由此产生的GRN可以通过合并特定的可访问性配置文件来进一步上下文化,例如通过修剪具有明显较低染色质可访问性的调节链接来获得谱系或生理区域。此外,Pando允许整合Hi-C数据以确定基于TADs的峰基因链接。
PECA是一种概率线性模型,它从不同细胞类型或组织的配对批量RNA-seq和ATAC-seq数据中推断出样本特异性GRN。它基于峰的可及性以及TFs和染色质调节剂(所谓的辅因子)的表达来模拟基因表达的分布。为此,它使用存储在TXT文件中的FPKM或TPM标准化基因计数和存储在BAM文件中的染色质可及性数据作为输入。对于从ENCODE26获得的每个增强子,PECA识别位于TSS 1,000 kb范围内的潜在靶基因。然后,它根据峰的可及性和基因启动子区域(TSS上游2 kb)可及性之间的相关性以及峰的可及性和潜在靶基因的表达,分别计算开放性和表达的条件倍数变化。接下来,使用HOMER6将TFs分配给每个峰,并使用基序数据库JASPAR10、TRANSFAC27和UniPROBE39。最后,PECA建立了一个由三个组成部分组成的模型。(1)辅因子结合通过逻辑回归建模,该模型基于根据数据库BIOGRID40已知的辅因子结合伙伴的TFs的表达。(2)峰活性模型根据峰的可及性值和预测结合在其中的辅助因子的表达,也使用逻辑回归来预测峰是否活跃。(3)基因表达模型根据TFs及其与预测的活性峰结合的TF-复合物的表达的线性组合,将基因表达预测为高斯变量。一旦模型被拟合,PECA提取样品特异性GRNs,将表达的TFs连接到由活性峰连接的下游基因。
Regulatory Motifs是一种基于调控基序识别从成对的ATAC-seq和RNA-seq数据推断GRN的未命名方法。作为输入,该方法使用log-2转化的RNA和ATAC-seq计数矩阵,并从构建支架GRN开始,如果基因的TSS在给定峰的上游或下游3kb内,则将峰与靶基因连接起来。此外,其TSS位于上述基因的TSS的上游或下游5kb内的基因也与该峰相关联。TF通过使用HINT34识别峰足迹来分配给峰,这些峰足迹使用基序分析方法与HOCOMOCO15数据库中的TF基序匹配。从支架GRN中,该方法识别TF峰值基因和峰值TF基因调节基序三胞胎,并使用偏相关测试它们的表达/可及性以获得条件独立性,只保留重要的。为了模拟共调节事件,所谓的分叉,由连接到两个TF的峰值或连接到两个基因的峰值组成,也正在测试条件独立性并按显著性过滤。对于最终的GRN,只有当它们显示内部一致性时,调节基序三胞胎才会被保留,这意味着三个可能的成对相关性相乘的最终符号是正的。
RENIN通过专注于寻找准确的CRE来接近配对scATAC-seq和scRNA-seq的GRN推断。多组学数据存储在Seurat对象中,首先通过VISION的s44微聚类算法的修改版本聚合为元细胞。默认情况下,元细胞分别由100个细胞和10个细胞组成,用于scATAC和scRNA阵列。多变量回归模型首先将潜在的CRE与位于TSS 500 kb范围内的基因相关联,使用模型基因表达的峰值可及性。自适应弹性网络模型用于处理单细胞数据中的稀疏性和众多共线变量,L1惩罚以降低误报率,L2惩罚以提高模型在如此高维空间中的稳定性。一旦CREs与基因相关联,TFs就通过来自CIS-BP4的TF结合基序信息与CREs和启动子相关联。通过Signac45的AddMotifs函数将基序添加到Seurat对象的每个峰。然后通过这些基序和CREs基因关联将TFs与基因相关联。最后,运行第二个自适应弹性网络模型来预测哪些TFs可能调节靶基因。推断的调节链接被签名,并且可以通过它们的调节系数进行排名。
scAI使用迭代矩阵分解模型聚合和集成配对的scRNA-seq和scATAC-seq数据。在运行模型之前,存储在scAI对象中的计数矩阵受到质量控制,归一化以考虑文库大小,并选择高度可变的特征。然后将因子导出为对应于与特定细胞类型相关的已知生物过程或信号的低维表示。对于这些因子中的每一个,基于差异排序方法识别因子特异性标记基因和峰。接下来,如果标记峰位于标记基因的TSS的250kb上或下游,则分配候选峰-基因关系。从候选峰-基因关系中,使用扰动方法识别调节链接。在这种方法中,计算基因表达水平和峰的可及性水平之间的皮尔逊相关性,并将其与表达水平或可及性设置为0的扰动相关性进行比较。由此,计算微分相关性,用于选择相关的峰-基因相互作用。对于TF-基因链接的识别,scAI使用motifmatchr21和CIS-BP4的TF基序,从scATAC-seq数据中推断与基因相连的每个峰的TF活性。然后根据获得的每个峰的TF活性,将非负最小二乘回归模型拟合到基因表达水平。最后,如果TF的回归系数大于零,则推断TF-基因链接。
sc-compReg在来自log2转化的基因表达计数矩阵和log2转化的scATAC-seq矩阵的两种条件之间进行比较GRN分析,这些条件具有可能从耦合非负矩阵分解获得的非成对模态的一致聚类分配。首先,它通过将峰分配给目标基因来构建每个条件的支架GRN,这些目标基因在每个基因的TSS和TFs的未定义窗口中重叠,使用未定义的基序匹配器和未定义的基序数据库,遵循PECA38工作流程。sc-compReg然后使用t检验识别两种条件之间的差异表达基因。对于基因差异表达的支架GRN中的每个TF基因对,它根据跨细胞的TF表达、跨峰的TF结合基序强度、开放峰的可及性水平和每个峰-基因之间的相互作用强度独立计算两种条件的调节潜力分数。如果TF的调节潜力在两种条件之间不同并且TF和靶基因之间的关联/相关性不同,则选择条件之间的差异TF基因边缘。sc-compReg然后将获得的系数与基于伽玛分布的空分布进行比较,以检测最终的差异TF-基因链接。
SCENIC+从配对的scRNA-seq和scATAC-seq数据中推断出基于增强子的GRN。输入数据以原始转录本计数的形式提供,存储在AnnData对象中,旁边是一个cisTopic对象,其中包含从预处理的ATAC-seq数据和基序丰富字典的主题建模中识别的候选增强子。输入对象生成的预处理包括对细胞类型特定的伪批量配置文件进行峰值调用,并合并到一致的峰值集。仅保留通过两种数据模式QC的细胞。为了识别候选增强子,使用pycisTopic对预定义数量的共同可访问区域集进行建模。区域集概率被二值化并计算差分可访问区域。然后将假定的增强子用作基序匹配的输入。为了计算TF峰链接,使用预先计算的cisTarget基序数据库和pycisTarget基序匹配算法,该算法还包括HOMER的包装器。对于每个TF,创建一组包含相应结合基序的基因组区域。为了推断最终的eGRN,使用基于非线性树的梯度提升机回归方法来计算基于共表达的TF基因链接和峰基因链接,考虑TSS周围1-150 kb的定义搜索窗口内的所有共识峰。正相关和负相关链接由Pearson相关分离。最后,通过按区域名称将二值化的TF峰和峰基因关系相交来创建模块。通过使用来自TF-基因或峰-基因关系的重要性分数作为排名在模块的所有基因上运行GSEA来优化生成的模块。从所有前沿基因及其链接的二值化峰生成正则表达式,而包含少于10个目标基因或从负相关的峰-基因连接获得的正则表达式被丢弃。进一步的下游GRN速度可用于评估分支和非分支轨迹。
scMEGA从配对的scRNA-seq和scATAC-seq数据中沿着用户定义的轨迹推断GRN。对于后者,它利用FIGR的集成方法。它需要两个Seurat对象来存储基因表达和染色质可及性数据以及基因评分矩阵。一旦数据是多模态的,它就会通过使用Destiny的扩散图对用户选择的簇执行维数缩减。从获得的嵌入中,它使用ArchiR的s33方法计算感兴趣轨迹的伪时间分数,并相应地对细胞进行排名。接下来,scMEGA使用方法MOODs19和主题数据库JASPAR10将TF与峰值计数矩阵中的峰值相关联。然后,它根据获得的TF-峰值相互作用和chromVar21的峰值计数计算单细胞水平上的TF活性。为了考虑稀疏性,通过使用窗口平均值平滑它们的值,从轨迹中的有序细胞中创建伪时间点(TPs)。通过计算TF活性和TF对数归一化基因表达之间的皮尔逊相关性,过滤相关性大于0.3和错误发现率小于0.01,选择轨迹中的潜在相关TF。类似地,通过子集大多数可变基因的前90个百分位数来选择轨迹中的潜在相关基因。然后,它计算TP缩放对数归一化基因表达和TP缩放对数归一化峰值之间的Pearson相关性。最后,它通过到基因的TSS(250 kb向上或向下)的基因组距离、正相关和显著性来过滤获得的峰值基因链接。然后,scMEGA通过计算之前获得的相关TF和基因的TP缩放TF活性和TP缩放对数归一化基因表达之间的Pearson相关性来推断TF基因链接。最后,如果给定的TF在与给定基因相关的峰中有匹配的基序,则保留TF基因链接。
scMTNI是一种概率图形方法,它使用多任务学习从细胞谱系树和未配对的scRNA-seq和ATAC-seq数据中推断细胞类型特异性GRN。它首先从ATAC-seq数据中的集群特异性BAM文件中为每种细胞类型生成支架GRN。对于每种细胞类型,BAM文件被汇集以创建伪批量可访问性配置文件,并且TF基序分数是根据PWM与每个峰值的统一背景的对数比计算的,如使用CIS-BP4基序数据库的PIQ工具包53中定义的。然后,如果TSS位于峰值的上游或下游5 kb内,scMTNI将基序分配给每个ATAC-seq峰值,并将峰值链接到基因,从而导致TF峰值-基因相互作用。由于映射到一个TF的多个峰值可以分配给同一个基因,因此scMTNI选择所有可能峰值的最大基序分数作为TF基因的相互作用权重。最后,生成的二元支架GRN是通过保持基于母题分数的前20%的TF-基因相互作用来生成的。为了构建最终的细胞类型特异性GRN,scMTNI利用依赖网络,一类概率图形方法,将每个簇的归一化基因表达建模为依赖于一组TFs的随机变量。该模型由两个先验组成,在上一步中获得的细胞类型特异性支架GRN,以及作为细胞类型中TF-基因边缘概率的细胞谱系结构大概取决于其在前身细胞类型中的状态。有了这些,模型通过估计每个细胞类型的RNA-seq数据的后验分布来获得细胞类型特异性GRN权重。
SOMatic 利用自组织映射(SOM),一种无监督的深度学习嵌入技术,从不成对的scRNA-seq和scATAC-seq数据构建GRN。作为输入,SOMatic需要RSEM55定量后的RNA-seq数据,并将DNA测序和峰值数据分别映射为SAM和BED文件。SOMatic首先分别为RNA-seq和ATAC-seq训练SOM,然后为每个SOM识别元簇。对于两个组学之间的每个可能的元簇对,如果目标基因位于基因TSS的上或下游25 kb,SOMatic将峰值映射到目标基因。接下来,它通过使用主题数据库HOCOMOCO15使用FIMO28进行主题分析,将TF分配给每个峰值。为了只保留特定的TF-峰相互作用,计算配对元聚类峰中母题存在的单尾z分数测试,并删除非显着的。最后,SOMatic将所有重要的TFs链接到它们的下游靶基因跨成对的元聚类,获得最终的GRN。
Symphony是一种概率分层多视图混合方法,它将批量ATAC-seq数据反卷积到细胞类型配置文件中,并将这些数据与scRNA-seq数据集成,以不成对的方式推断细胞类型特异性GRN。它使用可访问性矩阵,量化为峰值高度,并使用对数转换的归一化基因计数矩阵作为输入。Symphony在具有三个组件的集成模型中同时拟合潜在参数。(1)表观遗传组件通过假设批量配置文件根据样本中集群的比例表示为加权和来模拟细胞类型特异性ATAC-seq配置文件。(2)GRN组件通过从ATAC-seq数据构建细胞类型支架GRN,假设调节链接依赖于基因组可访问性。首先,它使用带有未定义基序数据库的FIMO28将TF映射到峰值,然后将每个峰值分配给最接近的基因的TSS,生成TF-基因对。(3)表达组件假设对数转换的基因表达遵循多变量正态分布。对于每个TF-基因对,它定义了一种调节模式,这取决于它们在基因表达水平上的经验协方差的标志。通过使用2的路径长度在图中传播协方差,捕获间接调节事件,从而产生每个细胞类型的最终GRN,从而进一步完善了这个权重。
TimeReg根据配对的ATAC-seq和RNA-seq数据构建GRN并识别轨迹中每个时间点的关键调节因子。它首先根据以TXT文件形式提供的标准化表达和可访问性数据为每个时间点构建支架GRN,遵循与PECA38类似的框架。它将峰分配给每个基因TSS中未定义窗口中重叠的靶基因,并使用来自未定义数据库的主题的HOMER6在峰上分配TF。然后,它根据TF的表达水平、TF基序在可能的峰中的富集以及TF和基因之间的共表达为每个TF基因对定义跨调节分数。对于每个峰值基因对,TimeReg还根据TF基序结合分数、峰值基因相互作用的相互作用强度、峰值归一化可及性和先前计算的反式调节分数计算顺式调节分数。最后,它识别了在整个轨迹上对上调基因显示不同反式调节分数的驱动TF。
TRIPOD从Seurat对象中提供的配对scRNA-seq和scATAC-seq数据中推断出GRN。接下来,提取存储有关峰值可访问性、基序分数、基因表达等信息的多个数据对象以提交给TRIPOD。默认情况下,开放染色质区域用chromVAR21扫描JASPAR10数据库中的基序。为了考虑数据中的稀疏性,首先通过Seurat中实现的加权最近邻方法将细胞汇集到元细胞中。接下来,如果峰值位于TSS上游100 kb和下游100 kb的搜索窗口中,则它们与基因相关联。为了构建GRN,TRIPOD使用两种不同的方法推断监管三重奏。在第一种非参数方法中,元细胞以成对的方式匹配,同时固定TF表达或峰值可及性并丢弃低于用户定义阈值的匹配。在这里,调节三重奏是通过首先计算两个变量差异之间的Spearman相关性来确定的,其次应用回归模型来描述基因表达的差异,该模型描述了匹配对中峰值可及性差异与峰值可及性差异和平均TF表达差异的乘积的线性组合。根据固定参数,回归模型还可以描述TF表达的差异以及TF表达差异和平均峰值可及性差异的乘积。在第二种方法中,参数方法,在单个元细胞上使用多元线性回归模型来估计具有固定峰值可及性的TF表达的每次变化或具有固定TF表达的峰值可及性的每次变化的基因表达变化。对于这两种方法,最终的GRN都是通过按显著性过滤调节三元组来构建的。
[^1]: Badia-i-Mompel, P., Wessels, L., Müller-Dott, S. et al. Gene regulatory network inference in the era of single-cell multi-omics. Nat Rev Genet (2023). https://doi.org/10.1038/s41576-023-00618-5