鸿源韬生物

RIP-Seq生信分析报告

1.项目简介

1.1 样本信息

合同编号 RS20250611
实验技术 RIP-Seq
物种名称 小鼠
拉丁名 Mus musculus
参考基因组 mm39
报告生成日期 2025年06月26日
客户送样名称 测序文库名称 分组
WT_IP_rep1 WT_IP_rep1 WT
WT_IP_rep2 WT_IP_rep2 WT
WT_INPUT_rep1 WT_INPUT_rep1 WT
WT_INPUT_rep2 WT_INPUT_rep2 WT
Setd2_KO_IP_rep1 Setd2_KO_IP_rep1 Setd2_KO
Setd2_KO_IP_rep2 Setd2_KO_IP_rep2 Setd2_KO
Setd2_KO_INPUT_rep1 Setd2_KO_INPUT_rep1 Setd2_KO
Setd2_KO_INPUT_rep2 Setd2_KO_INPUT_rep2 Setd2_KO


1.2 实验原理及流程

转录水平对于真核生物基因表达至关重要,但mRNA水平并不总是与蛋白质的水平直接相关,这种差异的部分原因是mRNA的转录后调控。转录后调控的关键是RNA结合蛋白(RNA-binding protein, RBP)及其相关mRNA靶标的相互作用,RBP通过与mRNA靶标形成核糖核蛋白(Ribonucleoprotein, RNP)复合体来影响mRNA的定位、修饰、稳定性和翻译水平(Tenenbaum SA et al., 2000)。研究发现,随着原核生物向真核生物的进化和核膜的发育,RBP的数量显著增加,转录后的基因表达研究往往集中于RBP。从RNP的复合物中识别这些未知的mRNA靶标对于理解RBP的机制和功能及其对蛋白质表达水平的影响至关重要。

RNA免疫共沉淀高通量测序(RNA Immunoprecipititation and high-throughput sequencing,RIP-Seq)是一种用于分析蛋白质与RNA交互作用的研究方法。RIP利用目标蛋白的抗体将相应的RNA-蛋白复合物(RBP)沉淀下来,分离纯化捕获的RNA,结合高通量测序技术对目标RNA进行测序分析。RNA的功能远不止转录和后续的翻译。例如,RNA-蛋白质相互作用能够调控mRNA和非编码RNA的功能。对RNA潜能的这一新认识带动了新方法的发展,使研究人员能够定位 RNA-蛋白质相互作用。RIP是一种研究单个蛋白质和RNA分子间物理结合的实验方案(Zhao J et al., 2010)。



1.3 实验流程


RIP-Seq实验主要步骤有七步:
1.收集细胞(使用甲醛选择性处理细胞,体内交联蛋白质-RNA 复合物);
2.分离细胞核,裂解细胞核沉淀;
3.染色质片段化;
4.将所关注的 RNA 结合蛋白 (RBP) 和结合的 RNA 一起进行免疫沉淀;
5.洗去未结合的物质;
6.纯化免疫沉淀后 RBP 上结合的 RNA ;
7.将 RNA 逆转录为 cDNA,建立高通量测序文库。


RIP-Seq 实验原理(Zhao J et al., 2010)

1.4 分析流程

获得测序原始数据(raw data)后,首先对原始数据进行过滤,获得高质量的测序数据(clean data),将测序数据(clean data)比对到项目物种的参考基因组上,对比对结果进行鉴定峰位点(peak calling)。理想情况下,通过RIP对目的蛋白结合的RNA进行富集后,目的蛋白结合的RNA或者目的蛋白在RNA上的结合区域,在对应的参考基因组位置上,测序reads的覆盖度会显著升高,相对其他非结合区域形成明显的“peak”。对peak关联基因进行注释以及富集分析, 在有生物学重复时进行差异Peak、共识Peak分析。


RIP-Seq 生物信息学分析流程



2. 数据质控

我们交付的原始数据为fastq(简称fq)格式文件的压缩包,文件名后缀通常为 “.fq.gz”。交付数据前我们会计算每个压缩文件的md5值。在您拿到数据之后,请您先校>验每个压缩文件的md5值,Linux下可以在数据目录使用“md5sum -c <*md5.txt>”命令进行校验,Windows下可使用hashmyfiles等校验工具,如发现压缩文件md5值与附在数据文件目录下的md5文档中的不一致则说明文件可能在传输的过程中被损坏。数据文件大小为文件占用磁盘空间的大小,文件的大小通常与磁盘格式、压缩比例等因素有关,与测序数据量(碱基数)的多少无对应关系,因此对应PE测序的 read1和read2两个文件大小也可能不相同。

将高通量测序得到的原始图像数据经过Base Calling 转化为序列数据,即FASTQ格式,得到最原始的测序数据文件。FASTQ 格式文件可记录所测读段(read)的碱基及其质量分数。FASTQ 格式以测序读段为单位进行存储,每条读段占 4 行,第一行是序列标识(read ID)以及相关的描述信息,以“@” 开头;第二行即为碱基序列,长度由测序策略决定;第三行以“+”开头,后面是序列标示符、描述信息,或者什么也不加; 第四行是测序质量值(phred),与第二行一一对应,phred值以ASCII码标记,对应的 ASCII 值减去33,即为第二行对应碱基的测序质量值,示例如下:

@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT
NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT
+
#55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH

测序错误率用e表示, 平台测得数据的碱基质量值用Qphred表示,则有:Qphred=-10log10(e)。软件中碱基识别正确率与Phred分值之间的简明对应关系见下表:

Phred分值不正确的碱基识别碱基正确识别率Q-score
101/1090%Q10
201/10099%Q20
301/100099.9%Q30

测序Reads的错误率往往会随着测序接近尾声而升高,这是由测序过程中化学试剂的消耗造成共有的特征。



2.1 原始数据质控

RIP-Seq实验基于第二代测序(NGS)平台完成,采用双端测序文库构建策略(插入片段~300 bp)。我们需要对原始测序数据进行质量评估与过滤,以确保后续分析的可靠性。首先,我们使用FastQC(version 0.12.1)(Andrews, 2010)对原始测序数据(raw data)进行全局质量分析,包括碱基质量分布(Phred score)、碱基组成平衡性(base content uniformity)、重复序列比例(duplication level)及GC含量偏差等指标,以全面评估测序质量。
我们使用Fastp(version 0.24.0)(Chen et al., 2018)对原始测序数据进行以下过滤操作。
接头序列去除:识别并切除双端reads中的接头序列;
低复杂度序列过滤:剔除含模糊碱基(N碱基占比≥10%)的reads;
动态质量修剪:通过滑动窗口法(5 bp窗口步长)评估局部序列质量,当窗口平均Phred score小于20时,执行3'端截断;
长度筛选:保留长度≥25 bp的paired-end reads,长度不足的reads及其匹配reads(R1/R2)均被排除。
原始和过滤后质控结果请详见result/1.qc文件夹,raw为原始数据质控结果,clean为过滤后质控结果。



图2.1 各个样本平均测序碱基质量分数,横坐标代表150 bp长度序列中各个位置,纵坐标为该位置平均的碱基质量值Q;盒形图中间的红线表示中位数(median value);黄色部分代表四分位距(25-75%);上下分割线代表 90%和 10%的上下临界值;蓝色的线代表碱基质量的平均值。


图2.2 各个样本碱基平衡性,图中四条线代表A T C G在每个位置平均含量。理论上,A和T应该相等,G和C应该相等,且4种碱基平行且接近分布。正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现 bias 时,即四条线波动较大时可能存在测序数据或者文库污染。如果所有位置的碱基比例一致的表现出bias 时,即四条线平行但分开,往往代表文库有 bias (建库过程或本身特点),或者是测序中的系统误差。测序刚开始由于测序仪状态不稳定,在15bp之前很可能出现波动。


图2.3 各个样本重复序列水平,测序深度越高,越容易产生一定程度的重复(duplication),这属于正常的现象。但如果duplication 的程度很高,就提示我们可能有 bias 的存在(如建库过程中由于 PCR 扩增引起的duplication)。横坐标为 reads 重复的次数,纵坐标为重复次数对应的 reads 占 unique reads 的比例,以unique reads 的总数作为 100%。这里,我们仅对文件前 2000000 个reads 进行统计:对长度小于75bp 的reads 将其截短为 50bp,用于统计重复。


2.2 过滤后数据质控

这里展示Fastp过滤后的数据质控结果,图片内容与上面raw data类似。

图2.4 各个样本平均测序碱基质量分数,横坐标代表150 bp长度序列中各个位置,纵坐标为该位置平均的碱基质量值Q;盒形图中间的红线表示中位数(median value);黄色部分代表四分位距(25-75%);上下分割线代表 90%和 10%的上下临界值;蓝色的线代表碱基质量的平均值。

图2.5 各个样本碱基平衡性,图中四条线代表A T C G在每个位置平均含量。理论上,A和T应该相等,G和C应该相等,且4种碱基平行且接近分布。正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现 bias 时,即四条线在某些位置波动较大时,可能测序数据或者文库存在污染。当所有位置的碱基比例一致的表现出bias 时,即四条线平行但分开,往往代表文库有 bias (建库过程或本身特点),或者是测序中的系统误差。一般测序的时候,刚开始测序仪状态不稳定,在15bp之前很可能出现波动。

图2.6 各个样本重复序列水平,测序深度越高,越容易产生一定程度的重复(duplication),这属于正常的现象。但如果duplication 的程度很高,就提示我们可能有 bias 的存在(如建库过程中由于 PCR 扩增引起的duplication)。横坐标为 reads 重复的次数,纵坐标为重复次数对应的 reads 占 unique reads 的比例,以unique reads 的总数作为 100%。这里,我们仅对文件前 2000000 个reads 进行统计:对长度小于75bp 的reads 将其截短为 50bp,用于统计重复。



2.3 数据过滤结果统计

我们对数据过滤结果进行统计,如下表所示:

Sample Raw_Total_Reads Raw_Total_Bases Raw_Q20_Rate Raw_Q30_Rate Raw_GC_Content Clean_Total_Reads Clean_Total_Bases Clean_Q20_Rate Clean_Q30_Rate Clean_GC_Content
Setd2-KO_rep1_INPUT 5.50M 825.42M 0.983 0.948 0.574 5.47M 803.63M 0.984 0.950 0.575
Setd2-KO_rep1_IP 7.70M 1154.38M 0.984 0.954 0.548 7.67M 1055.71M 0.987 0.959 0.550
Setd2-KO_rep2_INPUT 5.82M 873.64M 0.975 0.928 0.572 5.79M 851.55M 0.976 0.930 0.573
Setd2-KO_rep2_IP 8.29M 1243.87M 0.976 0.934 0.547 8.27M 1142.89M 0.980 0.940 0.549
WT_rep1_INPUT 6.45M 967.38M 0.983 0.949 0.573 6.43M 940.26M 0.985 0.952 0.574
WT_rep1_IP 6.81M 1022.20M 0.984 0.954 0.555 6.80M 954.67M 0.987 0.958 0.557
WT_rep2_INPUT 7.41M 1112.20M 0.975 0.929 0.572 7.38M 1079.87M 0.977 0.932 0.574
WT_rep2_IP 7.91M 1186.82M 0.977 0.934 0.554 7.89M 1111.72M 0.980 0.940 0.556

表 2.1数据过滤结果统计:
Sample:样品名称;
Raw_Total_Reads/Clean_Total_Reads:过滤前后样本总reads数量,单位为百万;
Raw_Total_Bases/Clean_Total_Bases:过滤前后样本总碱基数量,单位为百万;
Raw_Q20_Rate/Clean_Q20_Rate:过滤前后样本Q20碱基比例;
Raw_Q30_Rate/Clean_Q30_Rate:过滤前后样本Q30碱基比例;
Raw_GC_Content/Clean_GC_Content:过滤前后样本GC含量。







3. 比对参考基因组

我们将各样品过滤后的clean data的reads与参考基因组进行比对,获取Reads在参考基因组上的定位信息,这里使用的软件是Hisat2(version 2.2.1)(Kim D et al., 2015)。来自一个DNA片段的多个拷贝,可能会锚定在多个read上,经过测序得到的这些reads就是PCR重复。PCR本身就是为了产生重复序列的。理论上来讲,不同的序列在进行PCR扩增时,扩增的倍数应该是相同的。但是由于聚合酶的偏好性,PCR扩增次数过多的情况下,会导致一些序列持续扩增,而另一些序列扩增到一定程度后便不再进行,也就是我们常说的PCR偏好性。因此,比对完成后我们使用软件Sambamba(version 1.0.1)(Tarasov A. et al., 2015)去除PCR重复,获取unique reads。

3.1 比对参考基因组情况

sample clean_reads PCR_dup PCR_dup % prop_map_reads prop_map % MAPQ30
Setd2-KO_INPUT_rep1 6,586,881 3,309,598 50.250 3,406,604 62.320 561,290
Setd2-KO_INPUT_rep2 7,346,744 3,440,442 46.830 3,453,742 59.650 566,065
Setd2-KO_IP_rep1 13,398,930 3,905,763 29.150 6,106,196 79.580 2,128,793
Setd2-KO_IP_rep2 13,410,666 4,227,447 31.520 6,524,068 78.910 2,254,402
WT_INPUT_rep1 7,273,464 4,000,191 55.000 4,085,858 63.510 595,248
WT_INPUT_rep2 8,811,177 4,593,900 52.140 4,632,378 62.790 643,559
WT_IP_rep1 11,044,429 3,590,200 32.510 5,288,770 77.820 1,704,613
WT_IP_rep2 12,293,593 4,222,067 34.340 6,116,598 77.510 1,929,020

表 3.1比对结果统计:
Sample:样品名称;
clean_reads:clean后reads总数;
PCR_dup:鉴定为PCR重复的reads数;
PCR_dup %:PCR重复reads百分比;
prop_map_reads:完美比对的reads总数,PE两端reads比对到同一条序列,且根据比对结果推断的插入片段大小符合设置的阈值;
prop_map %:完美比对reads百分比;
MAPQ30:MAPQ值大于30的reads数。




3.2 Reads富集情况

我们使用Deeptools(version 3.5.4)(Ramírez F. et al., 2016)软件对reads富集情况进行可视化,绘制reads覆盖度信号在基因组上基因不同区域(Transcription Start Site,转录起始位点,TSS; Transcription End Site,转录终止位点,TES)的分布。


图3.1 各样本reads富集情况。横坐标为相对基因位置,纵坐标为按照基因组大小RPGC标准化后reads富集分数。



图3.2 各样本reads富集热图。下方热图代表基因上下游Reads富集情况,每一行代表一个基因上下游区域reads富集程度。




3.3 比对可视化

软件比对所得结果为bam格式文件(位于report/result/2.map文件夹中),bam文件是压缩的⼆进制⽂件,无法直接作为文本打开查看。由于bam文件数据较大,我们将其转为较小的bw格式文件。客户可以结合物种参考基因组和注释文件使用IGV (Integrative Genomics Viewer) 浏览器对bam、bw、bed等文件进行可视化浏览。IGV浏览器使用方法可参考我们提供的使用说明文档IGV快速上手







4. 峰鉴定

CLAM(CLIP-seq Analysis of Multi-mapped reads)(version 1.2.1)(Zhang Z. & Xing Y. 2017)是一种用于CLIP-seq和RIP-seq数据分析的计算方法,旨在利用多映射读取来提高峰调用的准确性。CLAM通过一个期望最大化(EM)算法来解决多映射读取的分配问题,从而能够识别和利用那些在传统分析中被丢弃的多映射读取。具体来说,CLAM首先将读取映射到基因组区域,然后通过EM算法推断出每个多映射读取的真实来源区域。接着,CLAM结合唯一映射读取和重新分配的多映射读取来进行峰调用,并使用置换检验来控制基因特异性错误发现率(FDR)。这种方法能够显著提高对重复序列区域的覆盖,并发现传统方法无法检测到的新RNA调控位点。本节结果请详见位于report/result/3.peak文件夹中

4.1 Peak信息统计

sample Peak num FRIP Peak reads Total reads
Setd2-KO_rep1_IP 213 0.040 381,121 9,493,167
Setd2-KO_rep2_IP 200 0.037 337,977 9,183,219
WT_rep1_IP 168 0.034 256,451 7,454,229
WT_rep2_IP 158 0.031 247,481 8,071,526

表 4.1 Peak信息统计:
sample:样品名称;
Peak num:Peak数量;
FRiP(Fraction of Reads in Peaks)值表示映射到峰区的 reads 占总 reads 的比例,反映了RIP实验的富集效果。较高的 FRiP 值表明实验成功地富集了目标区域的RNA片段,而较低的FRiP值可能表明富集效果差或背景噪声较高。




4.2 Call Peak结果

各个样本peak信息结果表部分内容如下,完整信息请查看report/result/3.peak/{样本名称}.bed文件中。“.bed”格式文件用于描述峰区域信息,可在IGV浏览器中打开。

显示前100行 (共212行)
chr1 45892483 45892533 Setd2-KO_rep1_peak_1 1000 + 1.910 1.696e-02 3.392e-02 .
chr1 54288281 54288331 Setd2-KO_rep1_peak_2 1000 - 1.360 0.020 0.061 .
chr1 63218213 63218263 Setd2-KO_rep1_peak_3 1000 + 2.130 0.000 0.000 .
chr1 65033660 65033710 Setd2-KO_rep1_peak_4 1000 - 3.300 0.014 0.056 .
chr1 86015073 86015123 Setd2-KO_rep1_peak_5 1000 + 3.160 0.000 0.000 .
chr1 86283983 86284033 Setd2-KO_rep1_peak_6 1000 - 2.460 0.000 0.000 .
chr1 118386921 118386971 Setd2-KO_rep1_peak_7 1000 - 1.820 0.000 0.000 .
chr1 153385361 153385411 Setd2-KO_rep1_peak_8 1000 - 0.910 0.004 0.045 .
chr1 160863420 160863470 Setd2-KO_rep1_peak_9 1000 + 2.050 0.000 0.000 .
chr1 160863627 160863677 Setd2-KO_rep1_peak_10 1000 + 1.500 0.000 0.000 .
chr1 171330666 171330716 Setd2-KO_rep1_peak_11 1000 - 3.610 0.000 0.000 .
chr1 171538706 171538756 Setd2-KO_rep1_peak_12 1000 + 2.200 0.001 0.001 .
chr2 19308163 19308213 Setd2-KO_rep1_peak_13 1000 + 1.980 0.015 0.029 .
chr2 23046618 23046668 Setd2-KO_rep1_peak_14 1000 - 2.730 0.000 0.000 .
chr2 26527909 26527959 Setd2-KO_rep1_peak_15 1000 - 1.260 0.000 0.000 .
chr2 26527910 26527960 Setd2-KO_rep1_peak_16 1000 - 1.310 0.000 0.000 .
chr2 27429867 27429917 Setd2-KO_rep1_peak_17 1000 - 4.660 0.000 0.000 .
chr2 130118207 130118257 Setd2-KO_rep1_peak_18 1000 + 1.370 0.000 0.000 .
chr2 158201768 158201818 Setd2-KO_rep1_peak_19 1000 - 2.140 0.000 0.000 .
chr3 83737625 83737675 Setd2-KO_rep1_peak_20 1000 + 2.640 0.000 0.000 .
chr3 88707229 88707279 Setd2-KO_rep1_peak_21 1000 + 0.920 0.000 0.003 .
chr3 96177368 96177418 Setd2-KO_rep1_peak_22 1000 + 1.800 0.010 0.077 .
chr3 96235791 96235841 Setd2-KO_rep1_peak_23 1000 + 4.670 0.000 0.000 .
chr3 96281387 96281437 Setd2-KO_rep1_peak_24 1000 + 3.160 0.000 0.000 .
chr3 96357804 96357854 Setd2-KO_rep1_peak_25 1000 - 1.240 0.000 0.000 .
chr3 96367424 96367474 Setd2-KO_rep1_peak_26 1000 + 2.330 0.000 0.000 .
chr3 96367440 96367490 Setd2-KO_rep1_peak_27 1000 - 2.080 0.000 0.000 .
chr3 123301636 123301686 Setd2-KO_rep1_peak_28 1000 - 0.800 0.001 0.004 .
chr3 153616200 153616250 Setd2-KO_rep1_peak_29 1000 - 2.990 0.000 0.000 .
chr3 153617247 153617297 Setd2-KO_rep1_peak_30 1000 - 1.100 0.007 0.014 .
chr3 153617762 153617812 Setd2-KO_rep1_peak_31 1000 - 1.150 0.012 0.023 .
chr4 3835079 3835129 Setd2-KO_rep1_peak_32 1000 - 1.470 0.012 0.024 .
chr4 43492833 43492883 Setd2-KO_rep1_peak_33 1000 - 3.220 0.000 0.000 .
chr4 43492838 43492888 Setd2-KO_rep1_peak_34 1000 - 2.810 0.000 0.000 .
chr4 86504740 86504790 Setd2-KO_rep1_peak_35 1000 - 2.400 0.000 0.000 .
chr4 117059776 117059826 Setd2-KO_rep1_peak_36 1000 + 0.970 0.000 0.000 .
chr4 117059775 117059825 Setd2-KO_rep1_peak_37 1000 + 1.320 0.000 0.000 .
chr4 119227113 119227163 Setd2-KO_rep1_peak_38 1000 - 1.830 0.000 0.001 .
chr4 131997445 131997495 Setd2-KO_rep1_peak_39 1000 - 1.950 0.000 0.000 .
chr4 132037601 132037651 Setd2-KO_rep1_peak_40 1000 + 0.710 0.009 0.026 .
chr4 132038002 132038052 Setd2-KO_rep1_peak_41 1000 + 2.790 0.000 0.000 .
chr5 74254241 74254291 Setd2-KO_rep1_peak_42 1000 + 1.370 0.000 0.000 .
chr5 115627518 115627568 Setd2-KO_rep1_peak_43 1000 + 2.350 0.003 0.008 .
chr5 115627518 115627568 Setd2-KO_rep1_peak_44 1000 + 2.480 0.000 0.001 .
chr5 115628313 115628363 Setd2-KO_rep1_peak_45 1000 + 1.440 0.007 0.020 .
chr5 121343144 121343194 Setd2-KO_rep1_peak_46 1000 + 2.190 0.001 0.041 .
chr5 129871659 129871709 Setd2-KO_rep1_peak_47 1000 + 2.610 0.000 0.000 .
chr5 146772004 146772054 Setd2-KO_rep1_peak_48 1000 + 4.370 0.000 0.000 .
chr6 3201494 3201544 Setd2-KO_rep1_peak_49 1000 + 0.720 0.001 0.012 .
chr6 3201544 3201594 Setd2-KO_rep1_peak_50 1000 + 1.120 0.004 0.037 .
chr6 47755215 47755265 Setd2-KO_rep1_peak_51 1000 + 1.350 0.001 0.007 .
chr6 47758619 47758669 Setd2-KO_rep1_peak_52 1000 + 1.300 0.013 0.051 .
chr6 71101744 71101794 Setd2-KO_rep1_peak_53 1000 + 1.930 0.028 0.084 .
chr6 71101844 71101894 Setd2-KO_rep1_peak_54 1000 + 2.060 0.004 0.021 .
chr6 71859591 71859641 Setd2-KO_rep1_peak_55 1000 - 1.470 0.000 0.000 .
chr6 125098737 125098787 Setd2-KO_rep1_peak_56 1000 + 3.030 0.000 0.000 .
chr6 128775848 128775898 Setd2-KO_rep1_peak_57 1000 - 2.100 0.002 0.005 .
chr6 136781051 136781101 Setd2-KO_rep1_peak_58 1000 - 1.510 0.025 0.075 .
chr6 136781151 136781201 Setd2-KO_rep1_peak_59 1000 - 1.760 0.014 0.075 .
chr7 44776288 44776338 Setd2-KO_rep1_peak_60 1000 - 2.560 0.014 0.028 .
chr7 44776342 44776392 Setd2-KO_rep1_peak_61 1000 - 1.500 0.026 0.026 .
chr7 81179653 81179703 Setd2-KO_rep1_peak_62 1000 + 2.300 0.002 0.005 .
chr7 81179664 81179714 Setd2-KO_rep1_peak_63 1000 + 2.300 0.000 0.000 .
chr7 99128820 99128870 Setd2-KO_rep1_peak_64 1000 - 2.510 0.000 0.000 .
chr7 99132042 99132092 Setd2-KO_rep1_peak_65 1000 - 2.260 0.000 0.000 .
chr7 109119377 109119427 Setd2-KO_rep1_peak_66 1000 + 2.280 0.000 0.000 .
chr7 109120537 109120587 Setd2-KO_rep1_peak_67 1000 + 1.270 0.001 0.002 .
chr7 127127096 127127146 Setd2-KO_rep1_peak_68 1000 + 3.370 0.000 0.000 .
chr7 141028766 141028816 Setd2-KO_rep1_peak_69 1000 + 2.970 0.000 0.000 .
chr8 3853269 3853319 Setd2-KO_rep1_peak_70 1000 - 1.540 0.016 0.047 .
chr8 13926141 13926191 Setd2-KO_rep1_peak_71 1000 + 3.270 0.000 0.000 .
chr8 13926147 13926197 Setd2-KO_rep1_peak_72 1000 + 3.260 0.000 0.000 .
chr8 31639892 31639942 Setd2-KO_rep1_peak_73 1000 - 0.980 0.000 0.000 .
chr8 34181879 34181929 Setd2-KO_rep1_peak_74 1000 + 3.250 0.000 0.000 .
chr8 124294376 124294426 Setd2-KO_rep1_peak_75 1000 - 1.210 0.022 0.043 .
chr8 124312981 124313031 Setd2-KO_rep1_peak_76 1000 - 0.920 0.025 0.051 .
chr8 124321493 124321543 Setd2-KO_rep1_peak_77 1000 - 0.920 0.021 0.041 .
chr8 124323196 124323246 Setd2-KO_rep1_peak_78 1000 - 1.110 0.006 0.012 .
chr8 124324897 124324947 Setd2-KO_rep1_peak_79 1000 - 0.870 0.033 0.066 .
chr8 124329986 124330036 Setd2-KO_rep1_peak_80 1000 - 1.150 0.002 0.003 .
chr8 124333352 124333402 Setd2-KO_rep1_peak_81 1000 - 0.830 0.016 0.032 .
chr8 124335059 124335109 Setd2-KO_rep1_peak_82 1000 - 0.830 0.017 0.034 .
chr8 124336756 124336806 Setd2-KO_rep1_peak_83 1000 - 0.870 0.011 0.022 .
chr8 124338454 124338504 Setd2-KO_rep1_peak_84 1000 - 0.720 0.030 0.060 .
chr8 124340153 124340203 Setd2-KO_rep1_peak_85 1000 - 0.820 0.015 0.031 .
chr8 124341838 124341888 Setd2-KO_rep1_peak_86 1000 - 0.820 0.012 0.024 .
chr8 124343549 124343599 Setd2-KO_rep1_peak_87 1000 - 0.730 0.037 0.075 .
chr8 124346980 124347030 Setd2-KO_rep1_peak_88 1000 - 0.850 0.025 0.049 .
chr8 124348667 124348717 Setd2-KO_rep1_peak_89 1000 - 0.810 0.018 0.036 .
chr8 127671647 127671697 Setd2-KO_rep1_peak_90 1000 - 1.160 0.000 0.000 .
chr9 15237760 15237810 Setd2-KO_rep1_peak_91 1000 - 4.260 0.000 0.000 .
chr9 64203263 64203313 Setd2-KO_rep1_peak_92 1000 + 3.610 0.000 0.000 .
chr9 65103907 65103957 Setd2-KO_rep1_peak_93 1000 - 2.960 0.000 0.000 .
chr9 65103904 65103954 Setd2-KO_rep1_peak_94 1000 - 2.830 0.000 0.000 .
chr9 65109058 65109108 Setd2-KO_rep1_peak_95 1000 - 2.940 0.000 0.000 .
chr9 78082635 78082685 Setd2-KO_rep1_peak_96 1000 - 0.890 0.003 0.010 .
chr9 78082835 78082885 Setd2-KO_rep1_peak_97 1000 - 1.810 0.001 0.007 .
chr9 109961211 109961261 Setd2-KO_rep1_peak_98 1000 - 1.670 0.003 0.008 .
chr9 119958505 119958555 Setd2-KO_rep1_peak_99 1000 + 2.610 0.000 0.020 .
chr9 119958525 119958575 Setd2-KO_rep1_peak_100 1000 - 2.760 0.000 0.004 .
chr9 119957896 119957946 Setd2-KO_rep1_peak_101 1000 + 1.240 0.000 0.001 .

表 4.2 Call Peak结果。{样本}.bed文件,其中包含有关被调用峰的信息。您可以在excel/WPS中打开它。各列信息为:
1.chr,染色体名称;
2.start,peak起始位置;
3.end,peak的结束位置;
4.length,peak长度;
5.bed score,通常为1000;
6.Strand,peak所在的正负链;
7.signal value,峰区域的信号富集强度;
8.Peak pValue,峰的统计学显著性P值(基于排列检验计算);
9.Peak qValue,峰的错误发现率(False Discovery Rate),通过Benjamini-Hochberg校正后的P值,用于控制假阳性;
10.Point-source called for this peak,通常为空。







5. 差异Peak分析

在存在多个分组且组内有生物学重复的情况下,可以对组间进行差异Peak(differential peak)分析,以确定哪些Peak在组间存在显著差异,同时获取组内共识峰(consensus peak)。如果没有差异分析则本节内容为空。

5.1 差异Peak分析结果

存在组内生物学重复时,我们使用软件DiffBind(version 3.10)(Stark,R., & Brown,G.,2012)对样本peaks进行分析。结果详见report/result/4.diff。后文中提到的“diff”代表组间差异,“cons”代表组内交集。
DiffPeak:“sampAvssampB_res.csv”为各组样本差异分析结果,sampA代表实验组,sampB代表对照组; DiffPeak_sampAvssampB_up.bed为sampA和sampB比较,结合强度上调的peak; DiffPeak_sampA vs sampB_down.bed为sampA和sampB比较,结合强度下调的peak; sampA_consensus_peaks.bed为A组组内共识峰。



图5.1 比较组PCA图。主成分分析是将原来较多维度的指标 (peak 的分布特征),降维到较低的维度(二维),来研究样品间的主成分关系。二维PCA分析结果中,会展示主成分1(PC1) 和主成分2(PC2)分别作为 X 轴和 Y 轴的散点图,每个点代表 1 个样本。坐标轴上百分比代表主成分的贡献率,贡献率越大,说明该主成分对样本差异的解释能力越强。如果两个样本距离越远,则说明样本 peaks 分布的差异越大。 反之,则说明相应样本peaks整体分布模式越接近。所以,PCA 分析常用于评估样本重复性的好坏。理想情况下,生物学重复的样本应该聚类在一起,而不同组间应该可以区分开。



图5.2 差异Peak火山图。横坐标为log2(Fold Change),纵坐标为-log10(FDR),蓝色为显著性下调的峰,红色为显著性上调的峰,灰色为非显著性差异的峰。







6. 基因组注释

为了进一步探讨peak结合位点特征,理解染色质开放区域对基因调控的机制, 使用R包ChIPseeker(version 1.36)(Wang et al., 2022)对Peak区域进行注释,我们统计Peak在各基因功能元件分布情况,并将各个peak与基因关联。本节结果请详见位于report/result/5.anno文件夹。

6.1 Peak 在基因组分布

图6.1 Peak在基因功能元件上分布饼图。
一般来说,peaks最多的区域是位于转录起始点(TSS)上游1kb的启动子区域“promoter(<=1kb)”,它与基因的表达调控密切相关;“promoter(1~2kb)”代表TSS上游1~2kb的启动子区域,“promoter(2~3kb)”代表TSS上游2~3kb的启动子区域。
5'非翻译区(5' UTR)和外显子区域(Exon)与mRNA的稳定性或基因表达的调控有关。
3'非翻译区(3' UTR)、内含子(Intron)、远端基因间区(Distal Intergenic)以及TSS下游区(Downstream),这些区域的调控活动可能涉及长距离的基因调控或影响基因的后续处理和表达。



图6.2 各样本Peak在基因功能元件上分布比例堆叠条状图,samples代表单个样本,cons代表组内共识峰,diff代表组间差异峰。



图6.3 各样本Peak在TSS(转录起始位点)侧翼分布比例堆叠条状图,samples代表单个样本,cons代表组内共识峰,diff代表组间差异峰,各元件内容含义见图 6.1。



6.2 Peak关联基因注释

各个样本Peak关联基因注释结果表部分内容如下,完整信息请查看report/result/5.anno/{样本名称}_PeakAnno.csv表格。{组名}_PeakAnno.csv代表组内共识峰注释结果,{比较组}_{up/down}_PeakAnno.csv代表组间差异峰注释结果。

显示前100行 (共120行)
chr start end peaknum annotation geneChr geneStart geneEnd geneLength geneStrand geneId transcriptId distanceToTSS
chr1 63218034 63218434 Setd2-KO_cons_peak_1 Promoter (<=1kb) 1 63218163 63218294 132 1 ENSMUSG00000064602.3 ENSMUST00000082668.3 0
chr1 118386728 118387128 Setd2-KO_cons_peak_2 Promoter (<=1kb) 1 118386871 118386995 125 2 ENSMUSG00000080542.3 ENSMUST00000116892.3 0
chr1 143654523 143654923 Setd2-KO_cons_peak_3 Promoter (<=1kb) 1 143654666 143654800 135 1 ENSMUSG00000088323.3 ENSMUST00000157698.3 0
chr1 153385166 153385566 Setd2-KO_cons_peak_4 Intron (ENSMUST00000041874.9/ENSMUSG00000042684.9, intron 10 of 11) 1 153331504 153363406 31903 2 ENSMUSG00000042699.12 ENSMUST00000042141.12 -21761
chr1 160863241 160863858 Setd2-KO_cons_peak_5 Promoter (<=1kb) 1 160863331 160866109 2779 1 ENSMUSG00000053332.16 ENSMUST00000310985.1 0
chr1 160865483 160865883 Setd2-KO_cons_peak_6 Promoter (<=1kb) 1 160865652 160865728 77 1 ENSMUSG00000064968.3 ENSMUST00000083034.3 0
chr1 171330472 171330872 Setd2-KO_cons_peak_7 Promoter (<=1kb) 1 171330616 171330731 116 2 ENSMUSG00000119640.1 ENSMUST00000083099.3 0
chr1 171538548 171538948 Setd2-KO_cons_peak_8 Promoter (<=1kb) 1 171538656 171538850 195 1 ENSMUSG00000059058.8 ENSMUST00000118448.2 0
chr10 111317215 111317615 Setd2-KO_cons_peak_9 Promoter (<=1kb) 10 111317354 111317497 144 1 ENSMUSG00000087819.3 ENSMUST00000157194.3 0
chr10 121273193 121273593 Setd2-KO_cons_peak_10 Intron (ENSMUST00000026902.9/ENSMUSG00000025795.9, intron 1 of 4) 10 121250292 121298118 47827 2 ENSMUSG00000025795.9 ENSMUST00000219500.2 24525
chr11 48753819 48754219 Setd2-KO_cons_peak_11 Exon (ENSMUST00000147151.2/ENSMUSG00000046879.8, exon 2 of 2) 11 48745257 48749020 3764 2 ENSMUSG00000132080.1 ENSMUST00000310045.1 -4800
chr11 55373405 55373805 Setd2-KO_cons_peak_12 Promoter (<=1kb) 11 55373520 55373659 140 1 ENSMUSG00000065061.3 ENSMUST00000083127.3 0
chr11 68964146 68964546 Setd2-KO_cons_peak_13 Promoter (<=1kb) 11 68964253 68964387 135 1 ENSMUSG00000064899.3 ENSMUST00000082965.3 0
chr11 69558547 69558947 Setd2-KO_cons_peak_14 Promoter (<=1kb) 11 69558208 69558889 682 2 ENSMUSG00000059796.17 ENSMUST00000140186.2 0
chr11 69559555 69559955 Setd2-KO_cons_peak_15 Promoter (<=1kb) 11 69559678 69559821 144 2 ENSMUSG00000089542.3 ENSMUST00000158917.3 0
chr11 87313590 87313990 Setd2-KO_cons_peak_16 Promoter (<=1kb) 11 87313693 87313856 164 1 ENSMUSG00000119476.1 ENSMUST00000240501.1 0
chr11 87317393 87317793 Setd2-KO_cons_peak_17 Promoter (<=1kb) 11 87317542 87317705 164 1 ENSMUSG00000118815.1 ENSMUST00000093684.3 0
chr11 97672347 97672747 Setd2-KO_cons_peak_18 Promoter (<=1kb) 11 97672465 97672601 137 2 ENSMUSG00000064901.3 ENSMUST00000082967.3 0
chr11 106391659 106392059 Setd2-KO_cons_peak_19 Promoter (<=1kb) 11 106391819 106391888 70 1 ENSMUSG00000065126.3 ENSMUST00000083192.3 0
chr11 116967982 116968382 Setd2-KO_cons_peak_20 Promoter (<=1kb) 11 116968004 116969781 1778 1 ENSMUSG00000086859.7 ENSMUST00000328767.1 0
chr12 17595999 17596399 Setd2-KO_cons_peak_21 Promoter (<=1kb) 12 17596147 17596282 136 1 ENSMUSG00000064427.3 ENSMUST00000082493.3 0
chr12 54765889 54766289 Setd2-KO_cons_peak_22 Promoter (<=1kb) 12 54765941 54766104 164 2 ENSMUSG00000118864.1 ENSMUST00001239507.1 0
chr12 54776246 54776646 Setd2-KO_cons_peak_23 Promoter (<=1kb) 12 54776380 54776543 164 1 ENSMUSG00000118751.1 ENSMUST00000240287.1 0
chr12 69205968 69206419 Setd2-KO_cons_peak_24 Promoter (<=1kb) 12 69206069 69206368 300 1 ENSMUSG00000118866.1 ENSMUST00000175032.4 0
chr12 69407904 69408406 Setd2-KO_cons_peak_25 Promoter (<=1kb) 12 69407956 69408255 300 2 ENSMUSG00000118841.1 ENSMUST00000174924.4 0
chr12 109510270 109510670 Setd2-KO_cons_peak_26 Promoter (<=1kb) 12 109510424 109510503 80 1 ENSMUSG00000084535.3 ENSMUST00000122586.3 0
chr13 22015963 22016363 Setd2-KO_cons_peak_27 Promoter (<=1kb) 13 22015937 22016366 430 2 ENSMUSG00000069305.4 ENSMUST00000102979.2 3
chr13 22220133 22220533 Setd2-KO_cons_peak_28 Promoter (<=1kb) 13 22220040 22220515 476 1 ENSMUSG00000062727.5 ENSMUST00000110455.4 94
chr13 22225177 22225577 Setd2-KO_cons_peak_29 Promoter (<=1kb) 13 22224806 22225532 727 2 ENSMUSG00000060639.6 ENSMUST00000102977.4 0
chr13 23715188 23715588 Setd2-KO_cons_peak_30 Promoter (<=1kb) 13 23715220 23715689 470 1 ENSMUSG00000060981.8 ENSMUST00000102972.6 0
chr13 23930873 23931273 Setd2-KO_cons_peak_31 Promoter (<=1kb) 13 23930717 23931224 508 1 ENSMUSG00000075031.5 ENSMUST00000099703.5 157
chr13 51802121 51802521 Setd2-KO_cons_peak_32 Promoter (<=1kb) 13 51802235 51802370 136 1 ENSMUSG00000064672.3 ENSMUST00000082738.3 0
chr13 97150416 97150816 Setd2-KO_cons_peak_33 Promoter (<=1kb) 13 97151393 97151807 415 2 ENSMUSG00000113934.2 ENSMUST00000222278.2 991
chr13 108807642 108808042 Setd2-KO_cons_peak_34 Promoter (<=1kb) 13 108807137 108807931 795 1 ENSMUSG00000059751.8 ENSMUST00000074680.8 506
chr14 51044755 51045356 Setd2-KO_cons_peak_35 Promoter (<=1kb) 14 51045298 51058758 13461 1 ENSMUSG00000036023.7 ENSMUST00000036126.7 0
chr14 64991235 64991635 Setd2-KO_cons_peak_36 Promoter (<=1kb) 14 64991367 64991501 135 1 ENSMUSG00000064442.3 ENSMUST00000082508.3 0
chr15 34440813 34441213 Setd2-KO_cons_peak_37 Promoter (<=1kb) 15 34440937 34441068 132 2 ENSMUSG00000065899.3 ENSMUST00000083965.3 0
chr15 83033716 83034116 Setd2-KO_cons_peak_38 Promoter (<=1kb) 15 83033845 83033995 151 1 ENSMUSG00000065176.3 ENSMUST00000083242.3 0
chr15 98417451 98417851 Setd2-KO_cons_peak_39 Promoter (<=1kb) 15 98417643 98417759 117 2 ENSMUSG00000106463.3 ENSMUST00000199842.3 0
chr15 98424094 98424494 Setd2-KO_cons_peak_40 Promoter (<=1kb) 15 98424227 98424363 137 2 ENSMUSG00000065939.3 ENSMUST00000084005.3 0
chr16 10961801 10962253 Setd2-KO_cons_peak_41 Promoter (<=1kb) 16 10961986 10968469 6484 1 ENSMUSG00000141422.1 ENSMUST00000365190.1 0
chr16 18351787 18352187 Setd2-KO_cons_peak_42 Intron (ENSMUST00000231621.2/ENSMUSG00000000884.18, intron 2 of 7) 16 18367493 18371334 3842 1 ENSMUSG00000000884.18 ENSMUST00000151253.2 -15306
chr16 22927509 22927909 Setd2-KO_cons_peak_43 Promoter (<=1kb) 16 22927703 22927771 69 1 ENSMUSG00000088524.3 ENSMUST00000157899.3 0
chr16 22929392 22929792 Setd2-KO_cons_peak_44 Promoter (<=1kb) 16 22929422 22930690 1269 1 ENSMUSG00000022884.17 ENSMUST00000150117.2 0
chr16 22929906 22930633 Setd2-KO_cons_peak_45 Promoter (<=1kb) 16 22930051 22930179 129 1 ENSMUSG00000064382.3 ENSMUST00000082448.3 0
chr16 30687753 30688153 Setd2-KO_cons_peak_46 Promoter (<=1kb) 16 30687849 30688952 1104 2 ENSMUSG00000116951.3 ENSMUST00000304664.1 799
chr16 32062399 32062799 Setd2-KO_cons_peak_47 Promoter (<=1kb) 16 32062530 32062673 144 2 ENSMUSG00000080440.3 ENSMUST00000116790.3 0
chr16 55855973 55856373 Setd2-KO_cons_peak_48 Promoter (<=1kb) 16 55856116 55856250 135 2 ENSMUSG00000064994.3 ENSMUST00000083060.3 0
chr17 24938535 24938940 Setd2-KO_cons_peak_49 Promoter (<=1kb) 17 24938650 24938777 128 2 ENSMUSG00000089255.3 ENSMUST00000158630.3 0
chr17 24939617 24940017 Setd2-KO_cons_peak_50 Promoter (<=1kb) 17 24939797 24940841 1045 1 ENSMUSG00000044533.16 ENSMUST00000129580.2 0
chr17 35170798 35171198 Setd2-KO_cons_peak_51 Promoter (<=1kb) 17 35154724 35170952 16229 2 ENSMUSG00000092203.10 ENSMUST00000371044.1 0
chr17 40157093 40157787 Setd2-KO_cons_peak_52 Promoter (<=1kb) 17 40157244 40159092 1849 1 ENSMUSG00000119584.1 ENSMUST00000240377.1 0
chr17 40158190 40159287 Setd2-KO_cons_peak_53 Promoter (<=1kb) 17 40157244 40159092 1849 1 ENSMUSG00000119584.1 ENSMUST00000240377.1 947
chr18 10150877 10151277 Setd2-KO_cons_peak_54 Promoter (<=1kb) 18 10150977 10151140 164 2 ENSMUSG00000095616.2 ENSMUST00000083435.3 0
chr18 14780732 14781132 Setd2-KO_cons_peak_55 Promoter (<=1kb) 18 14780824 14780987 164 2 ENSMUSG00000094306.3 ENSMUST00000084007.4 0
chr18 33928075 33928475 Setd2-KO_cons_peak_56 Promoter (<=1kb) 18 33928173 33929044 872 1 ENSMUSG00000087590.5 ENSMUST00000335104.1 0
chr18 35687407 35687807 Setd2-KO_cons_peak_57 Promoter (<=1kb) 18 35687620 35687689 70 1 ENSMUSG00000105743.3 ENSMUST00000199259.3 0
chr19 8701444 8701844 Setd2-KO_cons_peak_58 Promoter (<=1kb) 19 8701615 8701689 75 1 ENSMUSG00000065392.3 ENSMUST00000083458.3 0
chr19 8702274 8702674 Setd2-KO_cons_peak_59 Promoter (<=1kb) 19 8702456 8702520 65 1 ENSMUSG00000065378.3 ENSMUST00000083444.3 0
chr2 19307987 19308387 Setd2-KO_cons_peak_60 Intron (ENSMUST00000049255.7/ENSMUSG00000037683.15, intron 17 of 18) 2 19344481 19349004 4524 2 ENSMUSG00000124341.1 ENSMUST00000263154.1 40617
chr2 26527744 26528144 Setd2-KO_cons_peak_61 Promoter (<=1kb) 2 26527860 26527986 127 2 ENSMUSG00000064858.4 ENSMUST00000082924.4 0
chr2 27429692 27430092 Setd2-KO_cons_peak_62 Promoter (<=1kb) 2 27429817 27429942 126 2 ENSMUSG00000080538.3 ENSMUST00000116888.3 0
chr2 102914594 102914994 Setd2-KO_cons_peak_63 Promoter (1-2kb) 2 102913302 102922135 8834 1 ENSMUSG00000010911.13 ENSMUST00000155004.2 1293
chr2 130118022 130118422 Setd2-KO_cons_peak_64 Promoter (<=1kb) 2 130118079 130120883 2805 1 ENSMUSG00000027405.17 ENSMUST00000149955.9 0
chr2 144103384 144103784 Setd2-KO_cons_peak_65 Promoter (<=1kb) 2 144103509 144103646 138 2 ENSMUSG00000065725.3 ENSMUST00000083791.3 0
chr2 158201571 158201971 Setd2-KO_cons_peak_66 Promoter (<=1kb) 2 158201718 158201849 132 2 ENSMUSG00000064405.3 ENSMUST00000082471.3 0
chr2 166907017 166907417 Setd2-KO_cons_peak_67 Promoter (<=1kb) 2 166907196 166907285 90 1 ENSMUSG00000077698.3 ENSMUST00000104510.3 0
chr3 88707049 88707449 Setd2-KO_cons_peak_68 Exon (ENSMUST00000253106.1/ENSMUSG00000122440.1, exon 6 of 6) 3 88724693 88728201 3509 1 ENSMUSG00000122565.1 ENSMUST00000253674.1 -17244
chr3 96147104 96147504 Setd2-KO_cons_peak_69 Promoter (<=1kb) 3 96147184 96147321 138 1 ENSMUSG00002076697.1 ENSMUST00020181968.1 0
chr3 96152916 96153316 Setd2-KO_cons_peak_70 Promoter (<=1kb) 3 96153142 96153279 138 2 ENSMUSG00002076967.1 ENSMUST00020182038.1 0
chr3 96176957 96177549 Setd2-KO_cons_peak_71 Promoter (<=1kb) 3 96177037 96186317 9281 1 ENSMUSG00000050936.7 ENSMUST00000051089.4 0
chr3 96235632 96236032 Setd2-KO_cons_peak_72 Promoter (<=1kb) 3 96235741 96235906 166 1 ENSMUSG00000119427.1 ENSMUST00000239827.1 0
chr3 96281198 96281598 Setd2-KO_cons_peak_73 Promoter (<=1kb) 3 96281337 96281501 165 1 ENSMUSG00000119030.1 ENSMUST00000240438.1 0
chr3 96357653 96358053 Setd2-KO_cons_peak_74 Promoter (<=1kb) 3 96357762 96357927 166 1 ENSMUSG00000119774.1 ENSMUST00000083839.3 0
chr3 96367289 96367689 Setd2-KO_cons_peak_75 Promoter (<=1kb) 3 96367340 96367505 166 2 ENSMUSG00000118677.1 ENSMUST00000240510.1 0
chr3 123301473 123301873 Setd2-KO_cons_peak_76 Promoter (<=1kb) 3 123301586 123301715 130 2 ENSMUSG00000092730.3 ENSMUST00000174989.3 0
chr3 153616005 153616405 Setd2-KO_cons_peak_77 Promoter (<=1kb) 3 153616200 153616270 71 2 ENSMUSG00000064731.3 ENSMUST00000082797.3 0
chr3 153617597 153617997 Setd2-KO_cons_peak_78 Promoter (<=1kb) 3 153612924 153617948 5025 2 ENSMUSG00000038975.15 ENSMUST00000197438.5 0
chr4 43492725 43493125 Setd2-KO_cons_peak_79 Promoter (<=1kb) 4 43492900 43494205 1306 1 ENSMUSG00000028461.13 ENSMUST00000143073.8 0
chr4 119226939 119227339 Setd2-KO_cons_peak_80 Intron (ENSMUST00000238759.2/ENSMUSG00000028637.17, intron 5 of 14) 4 119209443 119230950 21508 2 ENSMUSG00000028637.17 ENSMUST00000238779.2 3611
chr4 131997261 131997661 Setd2-KO_cons_peak_81 Promoter (<=1kb) 4 131997391 131997524 134 2 ENSMUSG00000077323.3 ENSMUST00000104135.3 0
chr4 132037405 132037805 Setd2-KO_cons_peak_82 Promoter (<=1kb) 4 132037551 132037680 130 1 ENSMUSG00000064949.3 ENSMUST00000083015.3 0
chr5 74254042 74254442 Setd2-KO_cons_peak_83 Promoter (<=1kb) 5 74254191 74254311 121 1 ENSMUSG00000093355.3 ENSMUST00000175614.3 0
chr5 115627366 115627766 Setd2-KO_cons_peak_84 Promoter (<=1kb) 5 115627518 115627658 141 1 ENSMUSG00000119520.1 ENSMUST00000239680.1 0
chr5 118567548 118567948 Setd2-KO_cons_peak_85 Intron (ENSMUST00000279925.1/ENSMUSG00000127080.1, intron 1 of 1) 5 118563375 118571739 8365 1 ENSMUSG00000127080.1 ENSMUST00000279925.1 4174
chr5 121342929 121343329 Setd2-KO_cons_peak_86 Promoter (<=1kb) 5 121343073 121343206 134 1 ENSMUSG00000064841.3 ENSMUST00000082907.3 0
chr5 125485899 125486299 Setd2-KO_cons_peak_87 Promoter (<=1kb) 5 125483388 125486552 3165 2 ENSMUSG00000132160.1 ENSMUST00000310468.1 253
chr5 129871464 129871864 Setd2-KO_cons_peak_88 Promoter (<=1kb) 5 129871609 129871739 131 1 ENSMUSG00000093413.3 ENSMUST00000177461.3 0
chr5 146771806 146772206 Setd2-KO_cons_peak_89 Promoter (<=1kb) 5 146772016 146772796 781 1 ENSMUSG00000041453.13 ENSMUST00000135345.2 0
chr6 3201344 3201744 Setd2-KO_cons_peak_90 Intron (ENSMUST00000318661.1/ENSMUSG00000133541.1, intron 3 of 3) 6 3207869 3208706 838 1 ENSMUSG00000107601.2 ENSMUST00000203560.2 -6125
chr6 47755027 47755427 Setd2-KO_cons_peak_91 Promoter (<=1kb) 6 47755311 47757431 2121 1 ENSMUSG00000126201.1 ENSMUST00000275052.1 0
chr6 69493265 69493665 Setd2-KO_cons_peak_92 Promoter (<=1kb) 6 69493323 69493613 291 1 ENSMUSG00000092746.5 ENSMUST00000175005.5 0
chr6 71101581 71101981 Setd2-KO_cons_peak_93 Promoter (<=1kb) 6 71101594 71101947 354 1 ENSMUSG00000068396.10 ENSMUST00000121998.2 0
chr6 71859402 71859802 Setd2-KO_cons_peak_94 Promoter (<=1kb) 6 71857622 71859579 1958 2 ENSMUSG00000063884.7 ENSMUST00000205269.2 0
chr6 124692151 124692551 Setd2-KO_cons_peak_95 Promoter (<=1kb) 6 124692311 124693913 1603 1 ENSMUSG00000004264.18 ENSMUST00000143000.8 0
chr6 125098567 125098967 Setd2-KO_cons_peak_96 Promoter (<=1kb) 6 125098687 125098822 136 1 ENSMUSG00000088208.3 ENSMUST00000157583.3 0
chr6 136780969 136781369 Setd2-KO_cons_peak_97 Promoter (<=1kb) 6 136778551 136781413 2863 2 ENSMUSG00000096010.3 ENSMUST00000179285.3 44
chr7 44776096 44776496 Setd2-KO_cons_peak_98 Promoter (<=1kb) 7 44775347 44776303 957 2 ENSMUSG00000074129.15 ENSMUST00000210792.2 0
chr7 99128628 99129028 Setd2-KO_cons_peak_99 Promoter (<=1kb) 7 99128770 99128914 145 2 ENSMUSG00000064966.3 ENSMUST00000083032.3 0
chr7 99131861 99132261 Setd2-KO_cons_peak_100 Promoter (<=1kb) 7 99131992 99132139 148 2 ENSMUSG00000065822.3 ENSMUST00000083888.3 0

上表第一列到第三列为peak在基因组位置;第五列annotation为peak的基因组功能元件身份;第六列到第十列为关联基因的位置信息; 第十一列geneId为基因ID;第十二列transcriptId为转录本ID;第十三列distanceToTSS为peak到TSS距离。







7. 基因富集分析

我们使用clusterprofiler(version 4.14.6)(Wu T. et al., 2021)进行GO和KEGG通路富集分析。富集分析结果表格未使用阈值过滤,您可以在表格中查看所有可能富集的通路。

7.1 GO富集分析

GO (Gene Ontology, http://www.geneontology.org) 是基因本体论联合会建立的将全世界所有与基因有关的研究结果进行分类汇总的综合数据库。该数据库标准化了不同数据库中关于基因和基因产物的生物学术语,适用于各物种,对基因和蛋白功能进行限定和描述。利用GO 数据库,可以对peak峰相关基因进行富集分析,可以找到不同条件下的peak峰相关基因按照其参与的BP(Biological Process, 生物过程)、MF(Molecular Function, 分子功能) 及CC(Cellular Component, 细胞组分) 三个方面进行分类注释。GO 注释有助于理解基因背后所代表的生物学意义。GO功能显著性富集分析给出与基因组背景相比,在相关基因中显著富集的GO功能条目,从而给出与peak峰相关基因与哪些生物学功能显著相关。该分析首先把所有相关向Gene Ontology数据库的各个term映射,计算每个term的基因数目,然后应用超几何检验,找出与整个基因组背景相比,在与peak峰相关基因中显著富集的GO条目。

下面展示peak关联的基因富集GO富集分析部分结果,完整结果请见/result/6.gokegg/GOALLterm_peakanno_*.csv。GO富集分析完整结果请详见位于report/result/6.gokegg文件夹的*_GO_res.csv表格文件。

显示前100行 (共530行)
ONTOLOGY ID Description GeneRatio BgRatio RichFactor FoldEnrichment zScore pvalue p.adjust qvalue geneID Count
BP GO:0002181 cytoplasmic translation 7/48 142/22777 0.049 23.392 12.300 0.000 0.000 0.000 ENSMUSG00000042699/ENSMUSG00000059796/ENSMUSG00000022884/ENSMUSG00000044533/ENSMUSG00000041453/ENSMUSG00000074129/ENSMUSG00000032518 7
BP GO:0002183 cytoplasmic translational initiation 3/48 27/22777 0.111 52.725 12.358 0.000 0.005 0.005 ENSMUSG00000059796/ENSMUSG00000022884/ENSMUSG00000074129 3
BP GO:2000765 regulation of cytoplasmic translation 2/48 27/22777 0.074 35.150 8.159 0.001 0.188 0.175 ENSMUSG00000042699/ENSMUSG00000074129 2
BP GO:0006413 translational initiation 3/48 115/22777 0.026 12.379 5.622 0.002 0.188 0.175 ENSMUSG00000059796/ENSMUSG00000022884/ENSMUSG00000074129 3
BP GO:0070269 pyroptotic inflammatory response 2/48 40/22777 0.050 23.726 6.611 0.003 0.264 0.245 ENSMUSG00000042699/ENSMUSG00000010911 2
BP GO:0022618 protein-RNA complex assembly 3/48 168/22777 0.018 8.474 4.468 0.005 0.355 0.330 ENSMUSG00000042699/ENSMUSG00000074129/ENSMUSG00000032518 3
BP GO:0071826 protein-RNA complex organization 3/48 176/22777 0.017 8.088 4.338 0.006 0.355 0.330 ENSMUSG00000042699/ENSMUSG00000074129/ENSMUSG00000032518 3
BP GO:0022613 ribonucleoprotein complex biogenesis 4/48 417/22777 0.010 4.552 3.364 0.011 0.377 0.351 ENSMUSG00000042699/ENSMUSG00000027405/ENSMUSG00000074129/ENSMUSG00000032518 4
BP GO:0001731 formation of translation preinitiation complex 1/48 10/22777 0.100 47.452 6.752 0.021 0.377 0.351 ENSMUSG00000074129 1
BP GO:0010501 RNA secondary structure unwinding 1/48 10/22777 0.100 47.452 6.752 0.021 0.377 0.351 ENSMUSG00000042699 1
BP GO:0032661 regulation of interleukin-18 production 1/48 10/22777 0.100 47.452 6.752 0.021 0.377 0.351 ENSMUSG00000042699 1
BP GO:0046543 development of secondary female sexual characteristics 1/48 10/22777 0.100 47.452 6.752 0.021 0.377 0.351 ENSMUSG00000004264 1
BP GO:0070934 CRD-mediated mRNA stabilization 1/48 10/22777 0.100 47.452 6.752 0.021 0.377 0.351 ENSMUSG00000042699 1
BP GO:1904959 regulation of cytochrome-c oxidase activity 1/48 10/22777 0.100 47.452 6.752 0.021 0.377 0.351 ENSMUSG00000004264 1
BP GO:0070213 protein auto-ADP-ribosylation 1/48 11/22777 0.091 43.138 6.424 0.023 0.377 0.351 ENSMUSG00000036023 1
BP GO:1900152 negative regulation of nuclear-transcribed mRNA catabolic process, deadenylation-dependent decay 1/48 11/22777 0.091 43.138 6.424 0.023 0.377 0.351 ENSMUSG00000042699 1
BP GO:1904732 regulation of electron transfer activity 1/48 11/22777 0.091 43.138 6.424 0.023 0.377 0.351 ENSMUSG00000004264 1
BP GO:0032621 interleukin-18 production 1/48 12/22777 0.083 39.543 6.137 0.025 0.377 0.351 ENSMUSG00000042699 1
BP GO:0009086 methionine biosynthetic process 1/48 13/22777 0.077 36.502 5.884 0.027 0.377 0.351 ENSMUSG00000010911 1
BP GO:0045136 development of secondary sexual characteristics 1/48 13/22777 0.077 36.502 5.884 0.027 0.377 0.351 ENSMUSG00000004264 1
BP GO:0046831 regulation of RNA export from nucleus 1/48 13/22777 0.077 36.502 5.884 0.027 0.377 0.351 ENSMUSG00000042699 1
BP GO:0018342 protein prenylation 1/48 14/22777 0.071 33.894 5.658 0.029 0.377 0.351 ENSMUSG00000038975 1
BP GO:0097354 prenylation 1/48 14/22777 0.071 33.894 5.658 0.029 0.377 0.351 ENSMUSG00000038975 1
BP GO:2000767 positive regulation of cytoplasmic translation 1/48 14/22777 0.071 33.894 5.658 0.029 0.377 0.351 ENSMUSG00000042699 1
BP GO:0006555 methionine metabolic process 1/48 15/22777 0.067 31.635 5.454 0.031 0.377 0.351 ENSMUSG00000010911 1
BP GO:0033147 negative regulation of intracellular estrogen receptor signaling pathway 1/48 15/22777 0.067 31.635 5.454 0.031 0.377 0.351 ENSMUSG00000004264 1
BP GO:0071360 cellular response to exogenous dsRNA 1/48 15/22777 0.067 31.635 5.454 0.031 0.377 0.351 ENSMUSG00000042699 1
BP GO:0032543 mitochondrial translation 2/48 132/22777 0.015 7.190 3.277 0.032 0.377 0.351 ENSMUSG00000063884/ENSMUSG00000035202 2
BP GO:0000097 sulfur amino acid biosynthetic process 1/48 16/22777 0.062 29.658 5.270 0.033 0.377 0.351 ENSMUSG00000010911 1
BP GO:0023035 CD40 signaling pathway 1/48 16/22777 0.062 29.658 5.270 0.033 0.377 0.351 ENSMUSG00000004264 1
BP GO:0032048 cardiolipin metabolic process 1/48 16/22777 0.062 29.658 5.270 0.033 0.377 0.351 ENSMUSG00000004264 1
BP GO:0032239 regulation of nucleobase-containing compound transport 1/48 16/22777 0.062 29.658 5.270 0.033 0.377 0.351 ENSMUSG00000042699 1
BP GO:0007096 regulation of exit from mitosis 1/48 17/22777 0.059 27.913 5.101 0.035 0.377 0.351 ENSMUSG00000004264 1
BP GO:0045947 negative regulation of translational initiation 1/48 17/22777 0.059 27.913 5.101 0.035 0.377 0.351 ENSMUSG00000074129 1
BP GO:2000637 positive regulation of miRNA-mediated gene silencing 1/48 17/22777 0.059 27.913 5.101 0.035 0.377 0.351 ENSMUSG00000042699 1
BP GO:0019081 viral translation 1/48 18/22777 0.056 26.362 4.947 0.037 0.377 0.351 ENSMUSG00000042699 1
BP GO:0060148 positive regulation of post-transcriptional gene silencing 1/48 18/22777 0.056 26.362 4.947 0.037 0.377 0.351 ENSMUSG00000042699 1
BP GO:0061051 positive regulation of cell growth involved in cardiac muscle cell development 1/48 18/22777 0.056 26.362 4.947 0.037 0.377 0.351 ENSMUSG00000036023 1
BP GO:1900370 positive regulation of post-transcriptional gene silencing by RNA 1/48 18/22777 0.056 26.362 4.947 0.037 0.377 0.351 ENSMUSG00000042699 1
BP GO:0000028 ribosomal small subunit assembly 1/48 20/22777 0.050 23.726 4.673 0.041 0.377 0.351 ENSMUSG00000032518 1
BP GO:0033599 regulation of mammary gland epithelial cell proliferation 1/48 20/22777 0.050 23.726 4.673 0.041 0.377 0.351 ENSMUSG00000004264 1
BP GO:0009067 aspartate family amino acid biosynthetic process 1/48 21/22777 0.048 22.596 4.550 0.043 0.377 0.351 ENSMUSG00000010911 1
BP GO:0071359 cellular response to dsRNA 1/48 21/22777 0.048 22.596 4.550 0.043 0.377 0.351 ENSMUSG00000042699 1
BP GO:0046782 regulation of viral transcription 1/48 22/22777 0.045 21.569 4.436 0.045 0.377 0.351 ENSMUSG00000042699 1
BP GO:0060749 mammary gland alveolus development 1/48 22/22777 0.045 21.569 4.436 0.045 0.377 0.351 ENSMUSG00000004264 1
BP GO:0061377 mammary gland lobule development 1/48 22/22777 0.045 21.569 4.436 0.045 0.377 0.351 ENSMUSG00000004264 1
BP GO:0071398 cellular response to fatty acid 1/48 22/22777 0.045 21.569 4.436 0.045 0.377 0.351 ENSMUSG00000086859 1
BP GO:0140053 mitochondrial gene expression 2/48 167/22777 0.012 5.683 2.791 0.048 0.377 0.351 ENSMUSG00000063884/ENSMUSG00000035202 2
BP GO:0006353 DNA-templated transcription termination 1/48 25/22777 0.040 18.981 4.134 0.051 0.377 0.351 ENSMUSG00000042699 1
BP GO:0046697 decidualization 1/48 25/22777 0.040 18.981 4.134 0.051 0.377 0.351 ENSMUSG00000036023 1
BP GO:0039529 RIG-I signaling pathway 1/48 26/22777 0.038 18.251 4.045 0.053 0.377 0.351 ENSMUSG00000004264 1
BP GO:1900151 regulation of nuclear-transcribed mRNA catabolic process, deadenylation-dependent decay 1/48 26/22777 0.038 18.251 4.045 0.053 0.377 0.351 ENSMUSG00000042699 1
BP GO:0006417 regulation of translation 3/48 408/22777 0.007 3.489 2.331 0.055 0.377 0.351 ENSMUSG00000042699/ENSMUSG00000063884/ENSMUSG00000074129 3
BP GO:0032727 positive regulation of interferon-alpha production 1/48 27/22777 0.037 17.575 3.960 0.055 0.377 0.351 ENSMUSG00000042699 1
BP GO:0051443 positive regulation of ubiquitin-protein transferase activity 1/48 27/22777 0.037 17.575 3.960 0.055 0.377 0.351 ENSMUSG00000044533 1
BP GO:0046471 phosphatidylglycerol metabolic process 1/48 28/22777 0.036 16.947 3.880 0.057 0.377 0.351 ENSMUSG00000004264 1
BP GO:0060444 branching involved in mammary gland duct morphogenesis 1/48 29/22777 0.034 16.363 3.804 0.059 0.377 0.351 ENSMUSG00000004264 1
BP GO:0071353 cellular response to interleukin-4 1/48 30/22777 0.033 15.817 3.732 0.061 0.377 0.351 ENSMUSG00000044533 1
BP GO:0140374 antiviral innate immune response 1/48 30/22777 0.033 15.817 3.732 0.061 0.377 0.351 ENSMUSG00000004264 1
BP GO:0010458 exit from mitosis 1/48 31/22777 0.032 15.307 3.663 0.063 0.377 0.351 ENSMUSG00000004264 1
BP GO:0032647 regulation of interferon-alpha production 1/48 32/22777 0.031 14.829 3.597 0.065 0.377 0.351 ENSMUSG00000042699 1
BP GO:0070670 response to interleukin-4 1/48 32/22777 0.031 14.829 3.597 0.065 0.377 0.351 ENSMUSG00000044533 1
BP GO:0000096 sulfur amino acid metabolic process 1/48 33/22777 0.030 14.379 3.535 0.067 0.377 0.351 ENSMUSG00000010911 1
BP GO:0010155 regulation of proton transport 1/48 33/22777 0.030 14.379 3.535 0.067 0.377 0.351 ENSMUSG00000004264 1
BP GO:0033598 mammary gland epithelial cell proliferation 1/48 33/22777 0.030 14.379 3.535 0.067 0.377 0.351 ENSMUSG00000004264 1
BP GO:0060964 regulation of miRNA-mediated gene silencing 1/48 34/22777 0.029 13.956 3.474 0.069 0.377 0.351 ENSMUSG00000042699 1
BP GO:0061050 regulation of cell growth involved in cardiac muscle cell development 1/48 34/22777 0.029 13.956 3.474 0.069 0.377 0.351 ENSMUSG00000036023 1
BP GO:0017148 negative regulation of translation 2/48 208/22777 0.010 4.563 2.372 0.071 0.377 0.351 ENSMUSG00000042699/ENSMUSG00000074129 2
BP GO:0032607 interferon-alpha production 1/48 35/22777 0.029 13.558 3.417 0.071 0.377 0.351 ENSMUSG00000042699 1
BP GO:0043094 cellular metabolic compound salvage 1/48 35/22777 0.029 13.558 3.417 0.071 0.377 0.351 ENSMUSG00000010911 1
BP GO:0001893 maternal placenta development 1/48 36/22777 0.028 13.181 3.361 0.073 0.377 0.351 ENSMUSG00000036023 1
BP GO:0070542 response to fatty acid 1/48 36/22777 0.028 13.181 3.361 0.073 0.377 0.351 ENSMUSG00000086859 1
BP GO:1900368 regulation of post-transcriptional gene silencing by regulatory ncRNA 1/48 36/22777 0.028 13.181 3.361 0.073 0.377 0.351 ENSMUSG00000042699 1
BP GO:0033146 regulation of intracellular estrogen receptor signaling pathway 1/48 37/22777 0.027 12.825 3.308 0.075 0.377 0.351 ENSMUSG00000004264 1
BP GO:0060147 regulation of post-transcriptional gene silencing 1/48 37/22777 0.027 12.825 3.308 0.075 0.377 0.351 ENSMUSG00000042699 1
BP GO:0034248 regulation of amide metabolic process 3/48 470/22777 0.006 3.029 2.042 0.076 0.377 0.351 ENSMUSG00000042699/ENSMUSG00000063884/ENSMUSG00000074129 3
BP GO:0000423 mitophagy 1/48 38/22777 0.026 12.487 3.257 0.077 0.377 0.351 ENSMUSG00000004264 1
BP GO:0060966 regulation of gene silencing by regulatory ncRNA 1/48 38/22777 0.026 12.487 3.257 0.077 0.377 0.351 ENSMUSG00000042699 1
BP GO:0006284 base-excision repair 1/48 40/22777 0.025 11.863 3.160 0.081 0.377 0.351 ENSMUSG00000036023 1
BP GO:0033144 negative regulation of intracellular steroid hormone receptor signaling pathway 1/48 40/22777 0.025 11.863 3.160 0.081 0.377 0.351 ENSMUSG00000004264 1
BP GO:1903725 regulation of phospholipid metabolic process 1/48 40/22777 0.025 11.863 3.160 0.081 0.377 0.351 ENSMUSG00000004264 1
BP GO:0006418 tRNA aminoacylation for protein translation 1/48 41/22777 0.024 11.574 3.114 0.083 0.377 0.351 ENSMUSG00000035202 1
BP GO:0009066 aspartate family amino acid metabolic process 1/48 41/22777 0.024 11.574 3.114 0.083 0.377 0.351 ENSMUSG00000010911 1
BP GO:0060603 mammary gland duct morphogenesis 1/48 41/22777 0.024 11.574 3.114 0.083 0.377 0.351 ENSMUSG00000004264 1
BP GO:0010613 positive regulation of cardiac muscle hypertrophy 1/48 42/22777 0.024 11.298 3.070 0.085 0.377 0.351 ENSMUSG00000036023 1
BP GO:0034249 negative regulation of amide metabolic process 2/48 231/22777 0.009 4.108 2.182 0.085 0.377 0.351 ENSMUSG00000042699/ENSMUSG00000074129 2
BP GO:0014742 positive regulation of muscle hypertrophy 1/48 43/22777 0.023 11.035 3.027 0.087 0.377 0.351 ENSMUSG00000036023 1
BP GO:0032508 DNA duplex unwinding 1/48 44/22777 0.023 10.785 2.985 0.089 0.377 0.351 ENSMUSG00000042699 1
BP GO:0043039 tRNA aminoacylation 1/48 44/22777 0.023 10.785 2.985 0.089 0.377 0.351 ENSMUSG00000035202 1
BP GO:0050691 regulation of defense response to virus by host 1/48 44/22777 0.023 10.785 2.985 0.089 0.377 0.351 ENSMUSG00000042699 1
BP GO:0032781 positive regulation of ATP-dependent activity 1/48 45/22777 0.022 10.545 2.945 0.091 0.377 0.351 ENSMUSG00000042699 1
BP GO:0043038 amino acid activation 1/48 45/22777 0.022 10.545 2.945 0.091 0.377 0.351 ENSMUSG00000035202 1
BP GO:0048246 macrophage chemotaxis 1/48 47/22777 0.021 10.096 2.869 0.094 0.377 0.351 ENSMUSG00000074129 1
BP GO:0055023 positive regulation of cardiac muscle tissue growth 1/48 47/22777 0.021 10.096 2.869 0.094 0.377 0.351 ENSMUSG00000036023 1
BP GO:0140236 translation at presynapse 1/48 47/22777 0.021 10.096 2.869 0.094 0.377 0.351 ENSMUSG00000074129 1
BP GO:0003298 physiological muscle hypertrophy 1/48 48/22777 0.021 9.886 2.832 0.096 0.377 0.351 ENSMUSG00000036023 1
BP GO:0003301 physiological cardiac muscle hypertrophy 1/48 48/22777 0.021 9.886 2.832 0.096 0.377 0.351 ENSMUSG00000036023 1
BP GO:0061049 cell growth involved in cardiac muscle cell development 1/48 48/22777 0.021 9.886 2.832 0.096 0.377 0.351 ENSMUSG00000036023 1
BP GO:0140241 translation at synapse 1/48 48/22777 0.021 9.886 2.832 0.096 0.377 0.351 ENSMUSG00000074129 1
BP GO:0140242 translation at postsynapse 1/48 48/22777 0.021 9.886 2.832 0.096 0.377 0.351 ENSMUSG00000074129 1

表7.1 GO富集分析部分结果:
ONTOLOGY:GO方面,细胞成分,生物过程或分子功能之一;
ID:GO标识符,GO ID;
Description:GO术语的文字描述;
GeneRatio:该条目基因比例,分子是富集到这个GO条目上的基因的数目,分母是所有peak关联基因的数目;
BgRatio:背景比例,分母是物种全部有GO注释的基因的数目,分子是这些基因中注释到这个GO条目上面的基因的数目;
RichFactor​​:富集因子(Enrichment Factor)= GeneRatio / BgRatio;
​​FoldEnrichment​:富集倍数(Fold Enrichment)= (富集通路基因数 / 输入基因数) / (背景通路基因数 / 背景总基因数);
​​zScore​:标准化富集得分(基于超几何分布的 Z 值);
pvalue:富集的p值;
p.adjust:使用BH校正之后的p值;
qvalue:q值,使用FDR校正之后的p值,q-value相比于p-value更加严格,表示p-value产生假阳性的概率;
geneID:富集到这个GO条目上面的具体的基因ID;
Count:富集到这个GO条目上面的基因的数目。




图7.2 Peak关联基因GO气泡图。纵坐标是GO Term 名称,横坐标是对应GO Term 中检出的基因占背景基因的个数,颜色代表显著性,气泡大小代表该条目基因比例。



图7.3 Peak关联基因GO条状图。按照BP、MF、CC三个方面分别展示GO富集结果。纵坐标是GO Term 名称,横坐标值越大显著性越高,如果为0代表qvalue等于1。



7.2 KEGG富集分析

KEGG (Kyoto Encyclopedia of Genes and Genomes, http://www.genome.jp/kegg/) 是日本京都大学构建的基因组信息数据库,它将基因组序列信息与功能信息相结合,提供了一个全面的基因组功能信息资源。在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息。KEGG富集分析可以对peak关联基因进行KEGG通路富集分析。

下面展示peak关联的基因富集KEGG富集分析部分结果,完整结果请见/result/6.gokegg/GOALLterm_peakanno_*.csv。GO富集分析完整结果请详见位于report/result/6.gokegg文件夹的*_KEGG_res.csv表格文件。

显示前100行 (共8行)
ID Description GeneRatio BgRatio RichFactor FoldEnrichment zScore pvalue p.adjust qvalue geneID Count
05322 Systemic lupus erythematosus 6/16 142/6516 0.042 17.208 9.688 0.000 0.000 0.000 ENSMUSG00000069305/ENSMUSG00000062727/ENSMUSG00000060639/ENSMUSG00000060981/ENSMUSG00000075031/ENSMUSG00000096010 6
03010 Ribosome 4/16 102/6516 0.039 15.971 7.560 0.000 0.000 0.000 ENSMUSG00000044533/ENSMUSG00000041453/ENSMUSG00000074129/ENSMUSG00000032518 4
00290 Valine, leucine and isoleucine biosynthesis 1/16 11/6516 0.091 37.023 5.932 0.027 0.071 0.047 ENSMUSG00000035202 1
03013 Nucleocytoplasmic transport 2/16 160/6516 0.013 5.091 2.599 0.057 0.112 0.074 ENSMUSG00000059796/ENSMUSG00000022884 2
03410 Base excision repair 1/16 35/6516 0.029 11.636 3.130 0.083 0.112 0.074 ENSMUSG00000036023 1
00270 Cysteine and methionine metabolism 1/16 36/6516 0.028 11.312 3.078 0.085 0.112 0.074 ENSMUSG00000010911 1
00970 Aminoacyl-tRNA biosynthesis 1/16 42/6516 0.024 9.696 2.805 0.098 0.112 0.074 ENSMUSG00000035202 1
03008 Ribosome biogenesis in eukaryotes 1/16 77/6516 0.013 5.289 1.878 0.173 0.173 0.114 ENSMUSG00000027405 1

表7.2 KEGG富集分析部分结果:
ID:KEGG通路标识符,前面省略"map",比如“04120”代表“map04120”;
Description:KEGG通路的文字描述;
GeneRatio:该条目基因比例,分子是富集到这个KEGG通路上的基因的数目,分母是所有peak关联基因的数目;
BgRatio:背景比例,分母是物种全部有KEGG注释的基因的数目,分子是这些基因中注释到这个KEGG通路上面的基因的数目;
RichFactor​​:富集因子(Enrichment Factor)= GeneRatio / BgRatio;
​​FoldEnrichment​:富集倍数(Fold Enrichment)= (富集通路基因数 / 输入基因数) / (背景通路基因数 / 背景总基因数);
​​zScore​:标准化富集得分(基于超几何分布的 Z 值);
pvalue:富集的p值;
p.adjust:使用BH校正之后的p值;
qvalue:q值,使用FDR校正之后的p值,q-value相比于p-value更加严格,表示p-value产生假阳性的概率;
geneID:富集到这个KEGG通路上面的具体的基因ID;
Count:富集到这个KEGG通路上面的基因的数目。



图7.4 Peak关联基因KEGG气泡图。纵坐标是KEGG通路名称,横坐标是对应KEGG通路中检出的基因占背景基因的个数,颜色代表显著性,气泡大小代表该通路基因比例。



图7.5 Peak关联基因KEGG条状图。纵坐标是KEGG通路名称,横坐标是出现在该通路的基因数,颜色代表显著性。






8. Motif分析

对于一些基因元件或peak区域,分析这些区域的序列中是否有频繁出现的一些基序(motif),从而可以进一步分析这些基序相关的转录因子或结合蛋白。各种蛋白通过不同的motif识别蛋白-DNA结合位点,因此我们通过Homer(version 4.11.1)(Heinz S et al., 2010)来提取peak所在区间的序列对peak之间共有的motif进行扫描,查找其共有的motif区域,基于富集分析预测可能与peaks结合的蛋白。对于有组内生物学重复的样本,我们取其交集({组名}_consensus)进行motif分析。各样本分析结果位于report/result/7.motif文件夹中:
homerMotifs.motifs8/10/12:这些是de novo(从头预测)查找motif的输出文件,由motif长度分隔。
homerMotifs.all.motifs:由所有homerMotifs.motifs组成的连接文件。
motifFindingParameters.txt:用于执行findMotifsGenome.pl的命令,包含使用的参数
knownResults.txt:基于已知motifs富集的统计信息的文本文件(在EXCEL/WPS中打开)。
seq.autonorm.tsv:用于lower-order oligo标准化的autonormalization统计。
knownResults.html:基于已知motifs富集的格式化输出。
homerResults.html:de novo预测motif的格式化输出。



8.1 已知Motif分析

基于已知motifs富集的分析结果,请打开下方链接查看,其文件对应在各个文件夹下的“knownResults.html”

已知motif结果:
WT_consensus
Setd2-KO_consensus

结果说明:
Rank(序号):根据显著性q-value排序;
Motif:展示motif的序列特征的logo图,可直观了解motif中各碱基的分布和保守性;
Name(Motif名称):HOMER数据库中motif的名称;
P-value(P值):未校正的显著性(基于超几何分布或泊松分布);
Log P-value(对数P值):P值的对数值,绝对值越大表示显著性越高;
q-value (Benjamini)(q值,Benjamini校正值):通过Benjamini-Hochberg方法进行的多重假设检验校正后的P值;
# Target Sequences with Motif(含有该motif的目标序列数量):包含该motif的基因组序列数量;
% of Targets Sequences with Motif(目标序列中含有该motif的比例):包含该motif的基因组序列占输入序列的百分比;
of Background Sequences with Motif (背景序列中含有该motif序列数量):背景序列(通常是全基因组序列)中包含该motif的序列数量;
% of Background Sequences with Motif(背景序列中含有该motif的比例):背景序列中含有该motif的序列所占的百分比。
Motif File:motif碱基分步矩阵结果;
SVG:motif的svg可视化文件;



8.2 从头预测Motif分析

基于de novo 从头预测的motifs富集的分析结果,请打开下方链接查看,其文件对应在各个文件夹下的“homerResults.html”。

从头预测motif结果:
WT_consensus
Setd2-KO_consensus

结果说明:
Rank(序号):根据显著性q-value排序;
Motif:展示motif的序列特征的logo图,可直观了解motif中各碱基的分布和保守性;
P-value(P值):未校正的显著性(基于超几何分布或泊松分布);
Log P-value(对数P值):P值的对数值,绝对值越大表示显著性越高;
% of Targets(目标序列中含有该motif的比例):靶标序列占总序列百分比;
% of Background(背景序列中含有该motif的比例):背景序列占总序列百分比;
STD(Bg STD):靶标和背景的序列集出现偏离序列中心200bp的标准偏差;
Best Match/Details:最佳匹配的结果,点击 More information 后会出现更多信息——该motif的一些基本信息,如链接到motfi文件的超链接,下方match查看denovo motif和已知的motif的相似性比对结果打分, score越高代表越相似。;
Motif File:motif碱基分步矩阵结果。





参考文献


Andrews S. FastQC: a quality control tool for high throughput sequence data.https://www.bioinformatics.babraham.ac.uk/projects/fastqc/, 2010.
Chen S, Zhou Y, Chen Y, Gu J. fastp: an ultra-fast all-in-one FASTQ preprocessor. Bioinformatics. 2018 Sep 1;34(17):i884-i890.
Kim D, Langmead B, Salzberg SL. HISAT: a fast spliced aligner with low memory requirements. Nat Methods. 2015 Apr;12(4):357-60.
Heinz S, Benner C, Spann N, Bertolino E, Lin YC, Laslo P, Cheng JX, Murre C, Singh H, Glass CK. Simple combinations of lineage-determining transcription factors prime cis-regulatory elements required for macrophage and B cell identities. Mol Cell. 2010 May 28;38(4):576-89.
Li Y, Zhao DY, Greenblatt JF, Zhang Z. RIPSeeker: a statistical package for identifying protein-associated transcripts from RIP-seq experiments. Nucleic Acids Res. 2013 Apr;41(8):e94.
Ramírez F, Ryan DP, Grüning B, Bhardwaj V, Kilpert F, Richter AS, Heyne S, Dündar F, Manke T. deepTools2: a next generation web server for deep-sequencing data analysis. Nucleic Acids Res. 2016 Jul 8;44(W1):W160-5.
Stark, Rory and Gord Brown. “DiffBind: Differential binding analysis of CUT&TAG peak data.” (2012).
Tarasov A, Vilella AJ, Cuppen E, Nijman IJ, Prins P. Sambamba: fast processing of NGS alignment formats. Bioinformatics. 2015 Jun 15;31(12):2032-4.
Tenenbaum SA, Carson CC, Lager PJ, Keene JD. Identifying mRNA subsets in messenger ribonucleoprotein complexes by using cDNA arrays. Proc Natl Acad Sci U S A. 2000 Dec 19;97(26):14085-90.
Wang, Q., Li, M., Wu, T., Zhan, L., Li, L., Chen, M., Xie, W., Xie, Z., Hu, E., Xu, S., & Yu, G. (2022). Exploring epigenomic datasets by ChIPseeker. Current Protocols, 2, e585.
Wu T, Hu E, Xu S, Chen M, Guo P, Dai Z, Feng T, Zhou L, Tang W, Zhan L, Fu X, Liu S, Bo X, Yu G. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data. Innovation (Camb). 2021 Jul 1;2(3):100141.
Zhang Z, Xing Y. CLIP-seq analysis of multi-mapped reads discovers novel functional RNA regulatory sites in the human transcriptome. Nucleic Acids Res. 2017 Sep 19;45(16):9260-9271.

联系我们

官网:武汉鸿源韬生物科技有限公司 咨询热线:18086690478

邮箱:sales@hyt-bio.com 地址:湖北省武汉市江夏区郑店街光谷南(郑店)大健康产业园东湖高新国际健康城B地块1号楼7层02号房

报告文件结构

报告文件结构