dna甲酰基胞嘧啶修饰(5fc)是dna去甲基化过程中的中间产物,也被称为第七碱基,在生物体中稳定存在,在表观遗传中发挥着重要作用。研究报道,5fc在增强子中高度富集,这暗示5fc调控基因的转录和表达。5fc可以特异的结合特定的蛋白,参与到表观遗传调控。同时5fc可以影响dna的双螺旋结构,有研究显示,5fc在前列腺癌的发生发展过程中起着不可替代的作用。以上研究表明,5fc不仅仅作为dna去甲基化的中间产物,还在多种生物学过程中发挥重要作用,可作为新的疾病标志物。
figure 1:dna去甲基化过程及各中间产物的功能
数谱生物(原康成生物)为您提供一站式dna甲酰基胞嘧啶(5fc)修饰测序技术服务,您只需要提供保存完好的组织或细胞标本,我司就可以为您完成从dna提取、5fc dna富集、文库构建、高通量测序到数据分析的一整套服务,并提供完整的实验报告。
图释:dna甲酰基胞嘧啶(5fc)修饰测序流程示意图
用普通的葡萄糖在bgt催化作用下将内源的5hmc葡糖基化,然后在nabh4作用下将5fc还原成5hmc。使用5hmc选择性的化学标记方法(hme-seal)特异性富集从5fc还原产生的5hmc,进行测序。
高度特异性: 本方法可以从dna修饰中特异性识别5fc。
图释:分别对加入了含有2种不同修饰的spike in(分别为5 hmc和5fc)的dna样品(20 g)进行富集试验,富集完成后进行pcr检测,结果显示该方法具有良好的5fc富集特异性。
无密度偏好性: 本方法富集5fc区域不依赖于dna修饰的表达水平。
稳定性高:实验操作稳定性高,减少实验操作带来的误差。
灵活度高:能够直接对有基因组信息的任意物种的dna 5fc进行测序。
精确度高:能够在实际结合位点50个碱基范围内精确定位。
提供文章发表级别的数据可视化图谱
1. peak识别及注释
我司使用macs2进行peak识别,并根据ensembl数据库和ehancer数据库(enhanceratlas)的注释信息,对peak进行详细注释。
(1)peak分类
根据peak顶点与转录本的相对位置关系对peak进行分类,具体分类方法如下。
figure1. peak分类
table1. 各样本peaks区域
(2)peak统计
根据以上分类,对不同区域进行统计绘制饼状图。
figure2. peak统计图(tfbs: 转录因子结合位点)
对peaks和fragments在tss(转录起始位点)及转录本周围的分布情况进行统计并绘图。
(a)peaks密度在tss周围的分布 (b) peaks密度在转录本周围的分布
(c)标准化后的reads在tss周围的分布 (d) 标准化后的reads在转录本周围的分布
figure3. peak分布情况
修饰密度(peaks/c)用来展示修饰区域在整个染色体上的分布情况;将修饰水平分为低(0%~30%,绿色),中(30%~70%,蓝色),高(70%~100%,红色)三类,在circos图中进行展示(bin=1mbp)。
figure4. 修饰密度在不同染色体上的分布
figure5. 不同修饰水平peaks在染色体上的分布
2. 差异peak分析
康成生物丨数谱生物使用diffbind进行组间或样本间比较的差异peak分析,并根据ensembl数据库和enhancer数据库(enhanceratlas)进行差异peak注释。
table2. 差异peak区域
根据差异peak注释到的不同区域,对区域数量进行统计绘制条形图,并以10kb为单位对peak在染色体上的分布进行统计并绘图。
figure6. 差异peak统计展示 (左):差异peak分布统计图; (右):差异peak染色体分布图
通过各样本在差异peak富集程度的系统聚类分析,可以了解各组样本间的关系。火山图通过-log10p_value和log2fold_change两个条件,对比较数据进行筛选,可以直观地展示两组数据之间富集差异的倍数变化及显著性的关系。
figure 7. 差异peak聚类图和火山图 (左):聚类图; (右): 火山图
3.差异peak的go & kegg富集分析
(1)差异peak的go富集分析
geneontology (go)是一种基因功能分类条目,有三个子条目,分别描述每个基因的分子功能(mf: molecular function)、细胞组成(cc: cellular component)、参与的生物学过程(bp: biological process)。通常的go富集分析就是利用统计学算法来找出一组差异表达基因和哪些具体功能条目联系最大,每个go条目都对应一个统计值p-value来表示显著性,p-value越小表示该go条目和输入的差异表达基因联系越大,即该组差异表达基因大部分具有该go条目对应的描述功能。
table3. go富集分析结果
figure 8. go富集结果图 (左):各go条目中出现的基因数;(右)mf、cc、bp前十富集条目柱状图
(2)差异peak的pathway富集分析
根据kegg database (kyoto encyclopedia of genes and genomes)中的生物学通路分类条目,来找出一组差异表达基因和哪些具体的功能条目联系最大。每个pathway条目都对应一个统计值p-value来表示显著性,p-value越小表示该go条目和输入的差异表达基因联系越大,即该组差异表达基因p-value越小表示该pathway条目和输入的差异表达基因联系越大。
table 4. kegg富集分析结果
figure 9. kegg富集结果图
4. motif分析
在遗传学中,motif是指一段短的且普遍存在的核苷酸或氨基酸序列。被认为有特定的生物学意义,比如dna上的蛋白结合位点。当motif出现在基因外显子区域时,其对蛋白结构具有重要作用。我司使用meme-chip(v4.9.1)中的dreme方法(适合于查找短的motif)来检测motif。将得到的motif与转录因子结合位点motif数据库(jasparcore2018)内的motif进行比较,从而得到相关motif的更多信息。
table 5. motif比较结果
figure 10. motif结果图 (左):motif结果图;(右)左图中序列反向互补图
5. 比对结果可视化
我司将测序数据储存为bedgraph文件,可以在igv或ucsc基因组浏览器中查看。
figure 11. 比对结果可视化