DNA甲基化测序数据处理(一):数据比对

2024-05-19 03:30

1. DNA甲基化测序数据处理(一):数据比对

 因为组里面出了一批甲基化测序数据,使用的技术为BS-seq,处理的时候顺带记录了学习过程,演示使用数据为官方提供的example.fastq。
                                           DNA甲基化作为基因组上的表观修饰(区别于组蛋白修饰),存在于各种生物中。
   虽然CpG序列出现的频率并不高,但是在某些基因区域内,CpG的密度很高,俗称CpG岛。这些CpG岛大多出现在基因的启动子区域(人类占到70%),长度达300-3000bp。目前的研究表明,大多数的管家基因都含有CpG岛,位于基因的5'端(其中的大多数CpG岛都是未甲基化的)。
   另外需要注意的是,目前的研究表明, 肿瘤样本 与正常样本的CpG岛甲基化差异大多不是发生CpG岛的内部而是位于 CpG岛岸(CpG island shore) 。
   由于CpG位点的易甲基化导致胞嘧啶脱氨变成胸腺嘧啶,所以在漫长的进化过程中,CpG位点逐渐消失,但是又存在着对于基因表达的调控要求,所以CpG岛的出现也被理解为抵抗甲基化经常很,维持调控功能。
   此处略过,请自行了解(示例文件为WGBS单端测序文件)。
    Bismark官网 
   需要用户已经装好bowtie1/bowtie2
   此处使用测试数据 test.fastq    (from SRR020138, Lister et al., 2009; trimmed to 50 bp; base call qualities are Sanger encoded Phred values (Phred33)).
    --cytosine_report 参数会根据当前目录下的信息文件生成一个HTML格式的报告文件,即 test_data_bismark_bt2_SE_report.html 文件,它包括了比对信息,甲基化信息,M-bias等,可以对数据有一个大概的认知(下图只展示了一部分):   
                                           
                                           同时因为使用了 --comprehensive ,所以结果合并正反链的数据后会输出CpG/CHG/CHH三种类型的甲基化文件,包含了胞嘧啶所有的组合形式,但实际上我们自然最关注的是CpG位点的甲基化。其中
    CpG_context_test_data_bismark_bt2.deduplicated.txt 即CpG甲基化位点的文件。
    test_data_bismark_bt2.deduplicated.bismark.cov 文件则给了每个位点的甲基化比例,为下一步确定CpG岛提供了基础,其数据形式如下:
    test_data_bismark_bt2.deduplicated.CpG_report.txt.CpG_report.txt 文件则是背景信息:
   此处根据测序数据得到了甲基化位点的信息,但是后续DML以及DMR的确定还需要R包的使用,以及后续的可视化还以探索以下包:

DNA甲基化测序数据处理(一):数据比对

2. DNA甲基化数据分析全流程

  2021-01-01 更新 
   和RNA-seq前期流程类似 -- 质控、去接头、比对参考基因组、排序
   后期就是要提取甲基化位点,包括CpG、CHG、CHH三种context,H代表非G位点(A、C、T)。得到bedgraph文件后将个样本汇总为一个GR ( GenomicRanges )文件,便于后续分析
   更多信息需要你自己查看帮助文档和  FastQC 官方手册.pdf 
   另外, 官方网页版  的有对每一模块进行详尽地解释,并对给出警告或错误的可能原因,针不戳!
   trim_galore  --clip_R1 5 --three_prime_clip_R1 2 --rrbs  -o trimmed --basename SRX1635022 .fastq.gz
    RNA-seq 数据分析完整流程 
   额,去接头好像还没写,改天一定。
   质控 -- fastqc; 去接头 -- trim-galore
   二、比对基因组
   另一个软件是一个 BSMAP,目前用的是后者,两者关系也有很多人介绍,我也不知道。
   这样就得到了BAM文件了
   三、排序、去重
   首先按照比对的基因组坐标进行排序
   去除多重比对、重复、未比对上的reads
   最后就得到了排序且去重的BAM文件了
   四、提取甲基化信息
   至此,所有CpG位点就全部被提取出来了。
   五、将CpG位点保存为 GR 文件
   由于测序是区分正负链的,而在分析的时候不区分,所以需要合并正负链的信息。   还需要将与基因组CpG位点不匹配的位点去除,因此需要load一个全基因组CpG位点文件。
   细节我就不写了,只写主要操作,即将每个样本循环保存为GR文件放入一个list里面,最后再unlist一下,就变成了一个包含所有样本的所有CpG位点信息的GR对象了

3. 如何进行DNA甲基化分析

基因甲基化的检测方法主要有以下几种:
甲基化特异性的PCR(Methylation-specific PCR,MSP)

用亚硫酸氢盐处理基因组DNA,所有未发生甲基化的胞嘧啶被转化为尿嘧啶,而甲基化的胞嘧啶不变;随后设计针对甲基化和非甲基化序列的引物进行PCR。通过电泳检测MSP扩增产物,如果用针对处理后甲基化DNA链的引物能得到扩增片段,则说明该位点存在甲基化;反之,说明被检测的位点不存在甲基化。

2、亚硫酸氢盐测序法(Bisulfite sequencing PCR,BSP)

用亚硫酸氢盐处理基因组DNA,则未发生甲基化的胞嘧啶被转化为尿嘧啶,而甲基化的胞嘧啶不变。随后设计BSP引物进行PCR,在扩增过程中尿嘧啶全部转化为胸腺嘧啶,最后对PCR产物进行测序就可以判断CpG位点是否发生甲基化称为BSP-直接测序方法。将PCR产物克隆至载体后进行测序,可以提高测序成功率,这种方法称为BSP-克隆测序法。
3、甲基化敏感扩增多态性
(Methylation-Sensitive Amplified Polymorphism,MSAP)
MSAP是利用对DNA甲基化敏感的两种同裂酶Hpa II和Msp I来对基因组DNA进行酶切和连接。由于两种酶能够识别相同的限制性酶切位点,即CCGG位点。当DNA序列中的CCGG位点出现不同程度的甲基化状态时,会分别被这两种酶识别,以有无产物的方式体现出来。

4、焦磷酸测序(Pyrosequencing)
通过准确定量单个连续的CpG 位点上的甲基化频率,焦磷酸测序能检测并定量甲基化水平上的细微改变。在序列延伸过程中,根据C和T的掺入量来定量确定单个位点的C-T比例。因此,不同位点的甲基化变异就能被准确检测。由于焦磷酸测序提供了真实的序列数据,甲基化状态也就以序列形式呈现。

如何进行DNA甲基化分析

4. 如何进行DNA甲基化分析

DNA甲基化是最早发现的基因表观修饰方式之一,真核生物中的甲基化仅发生于胞嘧啶,即在DNA甲基化转移酶(DNMTs)的作用下使CpG二核苷酸5’-端的胞嘧啶转变为5’-甲基胞嘧啶。DNA甲基化通常抑制基因表达,去甲基化则诱导了基因的重新活化和表达。这种DNA修饰方式在不改变基因序列前提下实现对基因表达的调控。脊椎动物DNA的甲基化状态与生长发育调控密切相关,比如在肿瘤发生时,抑癌基因CpG岛以外的CpG序列非甲基化程度增加,CpG岛中的CpG则呈高度甲基化状态,导致抑癌基因表达的下降。
1、甲基化特异性的PCR(Methylation-specific PCR,MSP)
用亚硫酸氢盐处理基因组DNA,所有未发生甲基化的胞嘧啶被转化为尿嘧啶,而甲基化的胞嘧啶不变;随后设计针对甲基化和非甲基化序列的引物进行PCR。通过电泳检测MSP扩增产物,如果用针对处理后甲基化DNA链的引物能得到扩增片段,则说明该位点存在甲基化;反之,说明被检测的位点不存在甲基化。
2、亚硫酸氢盐测序法(Bisulfite sequencing PCR,BSP)
用亚硫酸氢盐处理基因组DNA,则未发生甲基化的胞嘧啶被转化为尿嘧啶,而甲基化的胞嘧啶不变。随后设计BSP引物进行PCR,在扩增过程中尿嘧啶全部转化为胸腺嘧啶,最后对PCR产物进行测序就可以判断CpG位点是否发生甲基化称为BSP-直接测序方法。将PCR产物克隆至载体后进行测序,可以提高测序成功率,这种方法称为BSP-克隆测序法。
3、高分辨率熔解曲线法(High Resolution Melting,HRM)
在非CpG岛位置设计一对针对亚硫酸氢盐修饰后的DNA双链的引物,这对引物中间的片段包含感兴趣的CpG岛。若这些CpG岛发生了甲基化,用亚硫酸氢盐处理后,未甲基化的胞嘧啶经PCR扩增后转变成胸腺嘧啶,而甲基化的胞嘧啶不变,样品中的GC含量发生改变,从而导致熔解温度的变化(图1)。
其中,样品要求:细胞(≥106 个)、组织(≥300mg)、血液(≥1ml)、血清(≥1.5ml)等样品材料,基因组DNA(体积≥20μl,浓度≥50 ng/μl)。

5. DNA甲基化检测技术及应用解析-欧易生物


DNA甲基化检测技术及应用解析-欧易生物

6. 有哪些RNA甲基化测序的技术呢?

MeRIP-seq是针对于RNA甲基化的测序技术,是一项结合了DNA甲基化测序,染色质免疫共沉淀和RNA测序而产生的技术,现在针对于MeRIP-seq分析的软件有MeRIP-PF之类的。甲基化包括DNA甲基化或蛋白质甲基化(1)DNA甲基化。脊椎动物的DNA甲基化一般发生在CpG位点(胞嘧啶-磷酸-鸟嘌呤位点,即DNA序列中胞嘧啶后紧连鸟嘌呤的位点)。经DNA甲基转移酶催化胞嘧啶转化为5-甲基胞嘧啶。人类基因中约80%-90%的CpG位点已被甲基化,但是在某些特定区域,如富含胞嘧啶和鸟嘌呤的CpG岛则未被甲基化。这与包含所有广泛表达基因在内的56%的哺乳动物基因中的启动子有关。1%-2%的人类基因组是CpG群,并且CpG甲基化与转录活性成反比。(2)蛋白质甲基化。蛋白质甲基化一般指精氨酸或赖氨酸在蛋白质序列中的甲基化。精氨酸可以被甲基化一次(称为一甲基精氨酸)或两次(精氨酸甲基转移酶(PRMTs)将两个甲基同时转移到精氨酸多肽末端的同一个氮原子上成为非对称性甲基精氨酸,或者在每个氮端各加一个甲基成为对称性二甲基精氨酸)赖氨酸经赖氨酸转移酶的催化可以甲基化一次、两次或三次。在组蛋白中,蛋白质甲基化是被研究最多的一类。在组蛋白转移酶的催化下,S-腺苷甲硫氨酸的甲基转移到组蛋白。某些组蛋白残基通过甲基化可以抑制或激活基因表达,从而形成为表观遗传。蛋白质甲基化是翻译后修饰的一种形式。

7. 已测序基因组的杂合度,重复序列水平怎么查询

已测序基因组的杂合度,重复序列水平怎么查询
基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,个体的行为特征及行为合理,如癌症或白血病,运动天赋,酒量等。基因测序相关产品和技术已由实验室研究演变到临床使用,可以说基因测序技术,是下一个改变世界的技术。
基因组大小(size of genome)是指单倍体细胞核中的所含的DNA的总量.在可以进行基因组测序之前,生物学家是用质量来衡量不同生物之间基因组的大小.通常使用的单位为pg(10e-12),这个值简称为C-value.通过简单的换算就可以知道大概的碱基的数量.不过,对于已经测序的基因组,直接数数就可以了,如 vihole所述.不过对于目前测序的基因组还是很少,估计在1千左右,而现存物种按照最保守的估计也有200万种(Ref 1),因此C-value在估计基因含量和生物复杂度方面还是有非常大的应用潜力.

已测序基因组的杂合度,重复序列水平怎么查询

8. 单细胞DNA甲基化研究基础篇:从实验策略到数据分析方法简介

DNA甲基化是细胞分裂过程中遗传的一种表观遗传标记,影响细胞的生物学功能。而单细胞水平上的全基因组甲基化分析将有助于深入了解转录调控和细胞异质性。
  
  单细胞DNA甲基化研究怎么做? 
  
 来自韩国的科研人员在《 Biomolecules 》发表综述文章, 介绍了单细胞DNA甲基化分析方法,包括实验策略和数据分析;此外,还介绍了相关科研应用并讨论了未来的发展。 
                                          
  注:此篇综述没有介绍5mC分析方法,虽然介绍了许多多组学方法,但每种方法的单独分析过程未作深入讨论。 
  
  
   
                                          
 
  
  
  亚硫酸氢盐转化法被认为是DNA甲基化分析的金标准。 由于它的高转化率(>99%)、可重复性和通过商业试剂盒的简单易用性而受到研究人员的青睐。然而,亚硫酸氢盐转化法采用了导致DNA降解的苛刻反应条件,PBAT的开发即是为了解决降解造成的损失问题。
                                          
 
  
  
  RRBS和WGBS是流行的全基因组甲基化分析方法。 这两种方法都包括亚硫酸氢盐转化和NGS制备。主要区别在于,RRBS使用适当的限制性内切酶和大小选择来筛选富含GC的区域。WGBS(特别是MethylC-seq)的优势在于能够覆盖基因组中的大部分CpGs。与RRBS相比,WGBS的纯化和筛选过程相对简单。在WGBS中防止亚硫酸氢盐转化过程中的降解损失被认为是相对重要的,因此许多基于WGBS的单细胞方法往往是基于PBAT的。
                                          
  多组学方法是根据甲基化分析方法与其他分析方法(RNA、染色质可及性)相结合来区分的。 例如scM&T-seq是基因组和转录组测序(G&T-seq)与scBS-seq的结合,G&T-seq是一种基于Smart-seq2识别DNA和RNA的方法。此外,应用于单细胞甲基化分析方法的技术,如PBAT,也可以类似地应用于NOME-seq,NOMe-seq可以根据核糖体的存在与否,利用GpC甲基转移酶的染色质可及性差异,确认双硫酸盐转化的DNA中开放染色质和CpG甲基化。scCOOL-seq、iscCOOL-seq和scNome-seq可以一起监测染色质可及性和CpG甲基化。
  
 
  
  
 通过转化以外的方法观察甲基化主要分为两类:利用甲基胞嘧啶的亲和结合和利用限制性内切酶对甲基胞嘧啶的敏感性。MBD-seq和MeDIP-seq是具有代表性的基于亲和性的方法。 基于亲和力的方法不适合在单细胞规模上应用 ,因为这些方法基于DNA片段产生平均DNA甲基化谱,这不允许区分单个细胞中DNA甲基化模式的差异。然而,与基于亲和力的方法不同, 基于MSRE的方法可以被改进, 使用MSRE的单细胞方法的细化可以在Methyl-seq中看到,scCGI-seq测量甲基化的方式与Methyl-seq类似。
  
 
  
                                                                                  
 
  
  
 在测序实验之后,包括RRBS或WGBS,需要对数据进行预处理。预处理步骤可分为 数据质控(QC)、序列修剪和比对 ,例如使用 FastQC 测量总体的基本测序数据质量,使用 Trim Galore!、fastp和Trimmomatic 等软件修剪,下表列出了常用的比对工具。
                                          
 
  
  
 甲基化分析的主要目的是探索构成样本、器官和疾病状态(包括癌症)之间差异的表观遗传学证据。为了发现这些差异,需要一个暗示此概念的数值,一个广泛使用的术语是β值。在甲基化调用后,进行后续分析,如可视化分析的t-SNE,聚类分析,以及识别差异甲基化胞嘧啶(DMCs)或差异甲基化区域(DMRs)
                                          
 上述方法主要依赖于单个CpG位点的甲基化水平。最近的甲基化分析利用了每个reads的甲基化模式来诊断疾病,尤其是癌症。这种新的分析概念是基于甲基化的生物学特性,即除非出现从头甲基化,否则相邻CpG位点之间有保持甲基化的趋势。 该读取模式方法能够检测具有疾病信号的DNA分子,并且具有增加疾病信号检测机会的可能性。 例如,一项大型液体活组织检测研究设计了一个集成分类器,根据读取模式分析对肿瘤类型进行分类,并在早期癌症的检测中显示出显著的结果。此外,通过甲基化模式对肿瘤衍生的DNA分子进行量化是观察肿瘤负担的另一种方法。
                                          
 
  
                                          
 生殖细胞或胚胎细胞的成熟受到特定基因表达的影响,这与DNA中的甲基化水平相关。例如基于植入前的胚胎细胞的甲基化特征,利用单细胞甲基化测序,通过对早期胚胎系追踪的研究,研究植入前细胞甲基化的机制及其现象。研究团队观察到非CpG甲基化在卵母细胞成熟过程中不断积累,说明非CpG甲基化与CpG甲基化在卵母细胞成熟过程中的作用不同。
  
 
  
  
 在疾病患者中,DNA甲基化的模式与健康人不同。在各种疾病中,癌症尤其具有正常细胞所不具有的DNA甲基化模式,从而导致基因表达水平的差异。在对具有这种异质性的癌症研究中,需要使用多组学方法,将基因组变异和RNA表达结合起来进行分析。例如一个研究小组最近开发了一种称为scTrio-seq2的方法,它整合了单细胞转录组和单细胞甲基化测序数据。多项研究表明使用单细胞甲基化测序(sc-methyl-seq)的多组学方法可以克服先前方法的局限性,并且具有更好的鉴别能力。因此,sc-methyl-seq可用于各个领域,以解决与生物过程和疾病相关的基本问题。
  
 单细胞DNA甲基化研究仍存在一些问题。其中第一个问题是亚硫酸氢盐转化的降解问题,这是目前的金标准。然而,在数量有限的单细胞尺度上,由于降解而造成的损失比在体积尺度上更严重。为了解决这个问题,采用了PBAT等技术,但其性能无法与使用大量DNA的方法相比。近年来,利用TET酶活性的方法,如TAPS和EM-seq,已经被开发出来,并作为一种解决慢性降解问题的方法而受到关注。另一个问题是一个明确的标准分析过程还没有建立。由于这些挑战,目前最好的方法是引入多组学方法进行交叉验证。
  
 随着数据采集的成本正在逐渐降低和数据联盟的建立(例如国际人类表观基因组联盟(IHEC)等),全面数据的积累可以提供一个了解甲基化的机会。关于甲基化证据的积累将使大家有可能找到因不同组织类型、不同实验或环境条件以及异质性疾病(如癌症)而波动的甲基化热点区域。此外,通过积累的数据发现细胞类型的特异性标记,将有利于通过单细胞DNA甲基化数据的可视化来进行细胞异质性分析,包括在t-SNE图中分配细胞集群。相信对甲基化及其在疾病中的生物学作用之间关系的理解将随着未来进一步的数据而得到揭示。
  
 
  
  
 首发公号:国家基因库大数据平台  
  
 参考文献
  
 Ahn J, Heo S, Lee J, et al. Introduction to Single-Cell DNA Methylation Profiling Methods[J]. Biomolecules, 2021, 11(7): 1013.
最新文章
热门文章
推荐阅读