首页 热文榜正文

H3K27ac: 表观遗传修饰与基因表达调控 (h3k27ac)

涛哥挣米
类型:免费靠谱赚钱平台
特点:无需下载,点开查看更多赚钱软件

引言

表观遗传学是指研究遗传物质(如DNA)的结构或表达变化,但不涉及底层DNA序列的改变。表观遗传修饰,如组蛋白修饰和DNA甲基化,在基因表达调控中起着至关重要的作用。H3K27ac 是组蛋白 H3 特定赖氨酸(第 27 位)上的乙酰化修饰,与基因激活密切相关。

H3K27ac 的机制

H3K27ac 由组蛋白乙酰化酶(HAT)催化形成,例如 CREBBP 和 p300。这些酶通过去除赖氨酸上的乙酰基团发挥作用。乙酰化修饰会松散染色质结构,使其更容易被转录因子和 RNA 聚合酶等转录机器访问。

H3K27ac 与基因激活

H3K27ac 被认为是一种活性基因标志物。它存在于基因启动子和增强子上,表明这些区域正在转录或为转录做好准备。H3K27ac 修饰通过以下机制促进基因激活:染色质重塑:H3K27ac 松散染色质结构,使转录因子和其他转录机器更容易与基因组相互作用。转录因子募集:H3K27ac 修饰可以募集转录因子和辅激活因子,这些因子对基因转录至关重要。RNA 聚合酶 II 稳定:H3K27ac 促进 RNA 聚合酶 II 在转录起始位点的稳定,从而增加转录效率。

H3K27ac 调控的途径

H3K27ac 修饰的调控由多种机制控制,包括:HAT 和 HDAC:组蛋白乙酰化酶 (HAT) 和

表观遗传学修饰对基因的表达有什么影响?简述之。

所谓表观遗传学,就是不改变基因的序列,通过对基因的修饰来调控基因的表达.所以,基因表达的表观遗传学调控,就是通过各种表观遗传的修饰方式来对基因进行调控.目前,已知的表观遗传现象有:DNA甲基化(DNA methylation),基因组印记(genomic impriting),母体效应(maternal effects),基因沉默(gene silencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等.

如何通过CHIP-seq分析鉴别基因启动子和增强子

一、表观遗传学的组蛋白修饰 染色体一个核小体由两个H2A,两个H2B,两个H3,两个H4组成的组蛋白八聚体和147bp缠绕在外面的DNA组成。 组蛋白有很多修饰形式,包括组蛋白末端的乙酰化、甲基化、磷酸化、泛素化、ADP核糖基化等等,这些修饰都会影响基因的转录活性。 而组蛋白H3是修饰最多的组蛋白。 组蛋白甲基化和乙酰化主要发生在它们的N-末端尾部并且可以影响基因的转录。 大量研究表明,组蛋白乙酰化主要与基因激活有关,而甲基化取决于其位置和状态,与抑制或激活有关。 组蛋白乙酰化主要发生在H3、H4的N端比较保守的赖氨酸位置上,是由组蛋白乙酰转移酶和组蛋白去乙酰化酶协调进行。 特定基因部位的组蛋白乙酰化和去乙酰化是以一种非随机的、位置特异的方式进行。 乙酰化可能通过对组蛋白电荷以及相互作用蛋白的影响,来调节基因转录。 组蛋白甲基化的位点是赖氨酸和精氨酸。 赖氨酸可以分别被一、二、三甲基化,精氨酸只能被一、二甲基化。 研究表明,组蛋白精氨酸甲基化是一种相对动态的标记,精氨酸甲基化与基因激活相关。 相反,赖氨酸甲基化似乎是基因表达调控中一种较为稳定的标记。 例如,H3第4位(H3K4)的赖氨酸残基甲基化与基因激活相关,而第9位和第27位赖氨酸(H3K9,H3K27)单甲基化与基因激活有关,三甲基化与基因沉默相关。 基因组包含大量的非编码DNA调控元件,包括沉默子、绝缘子、启动子和增强子,在基因表达中起重要作用。 启动子 是RNA聚合酶识别、结合和开始转录的一段DNA序列,它含有RNA聚合酶特异性结合和转录起始所需的保守序列,一般位于转录起始位点的上游。 增强子 是指能够使基因转录频率明显增加的DNA序列,是关键的调控元件,可以影响基因转录,而与其方向或距离无关,增强子通常可以远离其调节目标数千个碱基对。 增强子有别于启动子处有两点:[1]增强子对于启动子的位置不固定,而能有很大的变动;[2]它能在两个方向产生相互作用。 一个增强子并不限于促进某一特殊启动子的转录,它能刺激在它附近的任一启动子。 组蛋白修饰能预测染色质的类型(异染色质或常染色质)、区分基因组功能元件(启动子、增强子、基因主体)以及检测决定这些元件处于活性状态或是抑制状态。 例如H3K4me2和H3K4me3修饰大多数富集在转录起始位点附近的启动子上激活基因表达,而H3K27me2和H3K27me3与基因抑制相关。 因此可通过CHIP-seq分析组蛋白修饰的分布寻找基因的启动子区和增强子区域及其是激活或抑制基因表达。 H3K4me1可作为增强子的标志,H3K4me3作为启动子标志。 研究表明,H3K4me1和H3K4me3与基因激活相关,H3K4me3主要富集在转录起始位点附近的启动子区域,而大多数H3K4me1修饰富集在增强子区域;H3K27ac与基因激活相关,主要富集在增强子和启动子区域,当增强子区只有H3K4me1修饰富集时,该增强子处于平衡状态,而当增强子区域同时富集H3K4me1和H3K27ac修饰时,该增强子就处于激活状态促进基因表达;H3K27的甲基化是可逆的过程,H3K27me1显示出对转录具有正向影响,启动子区域的H3K27me3甲基化修饰时抑制基因的转录,而H3K27me2广泛分布并且在沉默非细胞类型特异性增强子中起作用。 下表为常见的组蛋白修饰的主要分布及功能: 异染色质是染色质的浓缩,转录无活性状态,H3K9甲基化是异染色质的标志。 H3K27me1和H3K9me3存在于着丝粒异染色质区域,而H3K27me3和H3K9me2共同存在于抑制的常染色质区域中。 H3K9ac也与H3K14ac和H3K4me3高度共存共同作为活性基因启动子的标志。 Histone H3K27ac separatesactive from poised enhancers and predicts developmental state . Creyghton, M.P. et al. Proc. Natl. Acad. Sci. USA 107,– (2010)图注:A、使用ChIP-Seq鉴定的远端H3K4me1组蛋白标记鉴定了鼠ES细胞中的细胞类型特异性增强子:基于H3K4me1富集和非H3K4me3富集的的热图选出25,036个推定增强子。 B、缺乏H3K27ac富集的增强子近端基因与平均增强子近端基因相比表现出较低的表达水平,表明H3K27ac是区分活性和平衡增强子状态的良好标志。 C、选择富含H3K27ac的增强子使用先前发表的小RNA-Seq数据集检测这些短RNA表达与富含H3K27ac的增强子的关系,发现这些短RNA确实从H3K27ac阳性增强子转录。 这再次支持H3K27ac是活性增强子元素的确定性因子。 图注:使富含H3K4me1的远端区域的邻近基因活性增强是H3K27ac的功能。 A、显示显示组织特异性分布的四种指定细胞/组织类型中增强子峰周围的四千碱基对H3K27ac富集的染色质状态(下图);B、A中所示的H3K27富集区域的相关性分析,近端基因的活性与所有成体组织中的远端H3K27ac富集正相关;C、成年肝脏的微阵列数据的基因表达,显示所有基因(全部)和发现与肝脏增强子特异性相关的基因的增强子富集(+)或未富集( - )的H3K4me1或H3K27ac的基因表达。 图注:神经糖蛋白是在ES细胞中具有平衡的增强子,其在神经祖细胞中变得活跃的基因。 基因跟踪H3K4me1(绿色,顶部),H3K27ac(红色,中部)和H3K4me3(黑色,底部)在Neuroglycan C基因的20,792 bp大区域的富集。 这些数据表明当细胞切换发育状态并且H3K27ac可用于区分两种增强子状态时,增强子通过激活平衡增强子在细胞分化中发挥确定性作用。

浅析GENIE3基因调控网络推断

GENIE3 ( GE ne N etwork I nference with E nsemble of tree s), 使用基于树的集成学习算法,来通过基因表达数据来推断基因调控网络。

GENIE3内置了两种基于树的集成学习算法,Random Forests 和Extra-Trees.集成学习,组合多个相对较弱的学习算法以期获得更好的性能。随机森林则是有多个决策树来构成的。水平有限,本文将简单讲解Random Forests,随机森林如何应用于基因调控网络的推断。

首先先介绍一下决策树, 它是基于if-then-else 规则的学习算法。举一个例子,假设我们想知道基因表达量是否受组蛋白修饰的影响,于是我们可以获取这些数据:

Chip-seq测序分析而来的组蛋白修饰数据,比如H3K4me1, H3K36me3,H3K27ac。和RNA-Seq分析得到基因基因表达量数据。然后我们通过分析整理得出一张组蛋白修饰富集区域和相应区域所在基因的表达量变化的一张表格。

表格中0代表没有显著富集,1代表在gene所在位置有显著富集, up,down分别表示对应基因表达量是上调还是下调。当然上面这个数据,是我故意编的,与实际数据应该差得很远,不作真,仅为方便展示。然后我们就可以根据组蛋白修饰富集情况来得出一个简单的决策树:

类似上面这种,根据一些条件,来判断类别的应用称为分类。比如一个课题组坑不坑;一个西瓜是好还是坏;明天是下雨,下雪,还是下东海,等。

不过,当前我们要讨论的是基因间的调控关系, 在生物体内,基因调控机制是复杂的,一个基因受多个转录因子调控,一个转录因子调控多个基因。我们不能简单的判断一个基因是否调控另一个基因。我们还需要考虑转录因子和靶基因的调控关系。

这种调控关系,我们采用回归的方式来获取。回归用于预测连续的、具体的数值。比如根据房子大小,位置,楼层,朝向,来预测房子的售价;根据靶基因的多个转录因子基因表达量来预测靶基因的表达量。

上图中,gene1,2,3是转录因子, gene4是受gene1,2,3调控的靶基因。从上图决策树可以看出,gene4的表达受gene1,2,3的调控作用。它是一个很简单的回归树。gene1,2,3对gene4的调控作用不一,从而可以得到不同重要性分数。

私以为,上图回归树思想为GENIE3用于构建调控网络关系的重要原因之一。当然作者没直接用回归决策树,而是使用基于决策树的集成学习算法,当然是因为决策树有缺点了。不过基本调控关系的构建思想还是回归树了。

还有必须提及的是,上面的例子是我自定义的,决策树是手动构建的,比如分类的例子中,第一次选择H3K36me3是否富集作为分类标准,第二次选择H3K4me1是否富集作为分类标准等。在回归的例子中,第一次分类选择Gene3是否<1000来作为分类标准,第二次又选择什么作为分类标准。

这在实际使用决策树时,并不是人为选择的,实际应用中,通常输入属性或特征有几百上千上万的都有。在基因调控关系构建过程中,也是选择几百个转录因子作为输入的,预测靶基因的。这并不是人为选择,而是通过算法计算挑选而来的。 决策树中同一数据 ,使用了不同的分类标准,谁先谁后,画出的树不一样,最后的效果都是不一样的。不过这也不是本文重点,就不在提及,感兴趣的童鞋可以区搜索“决策树 CART”。

三个臭皮匠,顶个诸葛亮。由于单使用一个决策树,来进行预测。其结果容易受异常值的影响,且容易发生过拟合(虽然GENIE3,不通过训练模型,来预测新的调控关系,但是如果过拟合发生,则可能会得出错误的调控关系)。所以随机森林(RF)整合多个决策树,综合考虑不同决策树的输出结果,来得到最终结果。

随机森林的随机体现在两个方面:

这样的随机避免了异常样本,或特征对结果的影响。最终结果将参考所有决策树的输出结果,在分类任务,可通过投票来决定最终的结果属于哪一类。在回归任务中,可以将决策树的输出结果进行平均。

如果明白前面回归树来预测靶基因表达量,下面的图片就好理解了。

上图中 Expression data 是行为样本,列为基因。这与GENIE3的R包的输入(行为基因,里为样本)是不一致的,但这没什么关系,因为R包里会将输入转置再进行运算的。

图中有G个基因,将会以每个基因作为输出(靶基因表达量),其余基因作为输入(调控基因表达量)来构建G个随机森林模型。进而计算每一个模型中,每个调控基因对靶基因的重要性,从而得出它们之间的调控关系。然后根据所有模型的调控关系进行排序。

有一点需要注意的是,在上图中,是将除挑选为靶基因以外的所有基因都作为输入基因(regulatory genes)。然而作者建议指定regulatory genes, 这时,当挑选的靶基因不在regulatory genes时,输入基因都是regulatory genes,当挑选的靶基因在regulatory genes时,输入基因是除台挑选靶基因意外的其余regulatory genes.

GENIE3的使用简单,参考文档

GENIE3有Python版本和R版本,熟悉这两种语言的童鞋,可以去看一下源码。

有些东西没写,有些也没写清楚。以后再改一下吧~

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:https://www.jinmeirenjia.com/top/20.html