Biomolecular Networks Methods and Applications in Systems Biology

1 介绍 1.1
1.2 1.3 1.4
1 分子生物学基础知识/ 1
1.1.1 基因组,基因和DNA复制过程/ 5
1.1.2 RNA合成的转录过程/ 6
1.1.3 蛋白质合成的翻译过程/ 7
细胞中的生物分子网络/ 8 网络系统生物学/ 13 关于本书/ 18
I 基因网络 23 2 转录法规:网络和模型 25
2.1 转录调控和基因表达/ 25
2.1.1 转录和基因调控/ 25
2.1.2 微阵列实验和数据库/ 28
2.1.3 芯片技术和转录因子数据库/ 30
2.2 转录监管网络/ 32
2.3 基于生化反应的非线性模型/ 36
2.4 监管网络的集成模型/ 43
2.5 摘要/ 44
vii

ii 内容
3 基因调控网络的重建 47
3.1 基因调控网络的数学模型/ 47
3.1.1 布尔网络/ 48
3.1.2 贝叶斯网络/ 49
3.1.3 马尔可夫网络/ 52
3.1.4 微分方程/ 53
3.2 重建基因调控网络/ 55
3.2.1 奇异值分解/ 56
3.2.2 基于模型的优化/ 58
3.3 从多个数据集推断基因网络/ 61
3.3.1 多种数据集网络结构的一般解决方案和特殊解决方 案/ 63
3.3.2 分解算法/ 65
3.3.3 数值验证/ 67
3.4 基于基因网络的药物靶标识别/ 72
3.4.1 网络识别方法/ 73
3.4.2 线性编程框架/ 77
3.5 摘要/ 87
4 转录调控网络的推论 89
4.1 预测TF结合位点和启动子/ 89
4.2 转录相互作用的推论/ 92
4.2.1 微分方程方法/ 93
4.2.2 贝叶斯方法/ 96
4.2.3 数据挖掘和其他方法/ 98
4.3 确定TF的组合规定/ 99
4.4 推断合作监管网络/ 105
4.4.1 数学模型/ 105
4.4.2 估计TF活动/ 106
4.4.3 线性规划模型/ 108
4.4.4 数值验证/ 109
4.5 转录因子活性预测/ 114
4.5.1 矩阵分解/ 114
4.5.2 非线性模型/ 117
4.6 摘要/ 118

II 蛋白质相互作用网络
5 蛋白质与蛋白质相互作用的预测
5.1 实验性蛋白质–蛋白质相互作用/ 121
5.2 蛋白质与蛋白质相互作用的预测/ 126
5.2.1 关联方法/ 127
5.2.2 最大可能性估算/ 134
5.2.3 确定性优化方法/ 139
5.3 基于多域对/ 150的蛋白质相互作用预测
5.3.1 合作域,强合作域,超域/ 152
5.3.2 多域交互的推论/ 154
5.3.3 数值验证/ 157
5.3.4 通过多域交互重构复杂对象/ 160
内容 iii 119 121
5.4 域交互预测方法/ 163
5.4.1 统计方法/ 163
5.4.2 域对排除分析/
5.4.3 简约解释方法/
5.4.4 整合方法/ 165
163 164
5.5 摘要/
6 生物分子网络的拓扑结构
167
6.1 生物分子网络的统计特性/ 169
6.2 蛋白质相互作用网络的进化/ 173
6.3 生物分子网络中的集线器,基序和模块化/
174
6.3.1 网络中心和集线器/ 174
6.3.2 网络模块化和图案/ 177
6.4 集线器和网络主题的探索性作用/ 179
6.4.1 集线器和网络主题组织的动态模块化 / 180
6.4.2 网络主题充当路径之间的连接器/ 186
6.5 生物分子网络的模块性评估/ 194
6.5.1 模块化密度D / 195
6.5.2 通过D / 196提高模块分辨率极限
169

iv 内容
6.5.3 D和内核之间的等价k Means / 198
6.5.4 D扩展到一般标准:Dl 和Dw/
6.5.5 数值验证/ 200
6.6 摘要/ 204
7 生物分子网络的比对
7.1 多种生物分子网络/ 205
7.2 生物分子网络的成对比对/ 207
7.2.1 基于得分的算法/ 208
7.2.2 进化指导方法/ 211
7.2.3 图匹配算法/ 212
7.3 通过数学编程进行网络对齐/ 213
7.3.1 整数编程公式/ 214
199
7.3.2 整数二次编程方法/ 216的组成部分
7.3.3 数值验证/ 217
7.4 生物分子网络的多重比对/ 223
7.5 子网和路径查询/ 225
7.6 摘要/ 228
8 基于网络的蛋白质功能预测 231
8.1 蛋白质功能和注释/ 231
8.2 蛋白质功能模块检测/ 234
8.2.1 基于距离的聚类方法/ 235
8.2.2 图聚类方法/ 236
8.2.3 验证模块检测/ 238
8.3 蛋白质功能注释的功能链接/ 239
8.3.1 贝叶斯方法/ 239
8.3.2 Hopfield网络方法/ 241
8.3.3 p值法/ 242
8.3.4 统计框架/ 243
8.4 高通量数据对蛋白质功能的预测/ 249
8.4.1 邻里方法/ 250
8.4.2 优化方法/ 251
8.4.3 概率方法/ 254
8.4.4 机器学习技术/ 256
205

8.5 域的功能注释方法/ 265
8.5.1 域名来源/ 267
8.5.2 异构数据集成/ 268
8.5.3 域功能预测/ 270
8.5.4 数值验证/ 271
8.6 摘要/

III 代谢网络和信号传导网路 279

9 代谢网络:分析,重构,与应用 281

9.1细胞新陈代谢和代谢途径
细胞功能是通过其化学成分的相互作用来完成的。细胞代谢是细胞中发生的所有生化反应的总集合,例如涉及降解食物分子,合成大分子以及产生小前体分子的反应。它还包括所有涉及电子转移的反应。代谢过程通常分为两大类,即中间代谢阶段。一种是分解代谢,将各种底物分解成常见的代谢产物,包括从营养中去除电子,并在细胞呼吸中收集能量。换句话说,分解代谢包括降解和增能反应,其中复杂的物质和大分子分解为低分子量化合物。通常,分解代谢中的反应是氧化的,并产生还原电位。另一个是合成代谢,它合成氨基酸,脂肪酸和核酸等复杂分子,利用能量使分子富集电子,并需要细胞消耗从营养分解代谢中获得的能量。换句话说,合成代谢包括生物合成和需要能量的反应,其中复杂物质和大分子是由低分子量前体合成的。通常,合成代谢的反应是还原性的,并且消耗还原潜力。在分解代谢和合成代谢过程中,通过一组载体分子(例如ATP,GTP,NADH和NADPH)进行复杂的化学基团交换和还原-氧化(氧化还原)电势。这些载体分子及其转移的物质组成了细胞中的全部新陈代谢。图9.1说明了细胞代谢的主要部分,其中中间代谢将原材料转化为能量以及细胞的组成部分,例如蛋白质和膜。
细胞中的所有生化反应均由一种称为酶的特殊蛋白质催化,该蛋白质通常需要饮食中的矿物质,维生素和其他辅助因子才能正常运行。这些生化反应使生物能够生长,繁殖,维持其结构并对环境作出反应。在充满不同类型化学反应的生物系统中,能量(定义为工作能力)必不可少。生物系统中能量的两种基本类型是势能和动能。势能是物质由于其结构或位置而具有的状态或位置的能量。它是等待工作的存储能量。例如,化学键由于其结构而具有势能。动能是运动的能量。这是可以起作用的能量类型。动能和势能都可以以多种形式找到,例如电,光,化学,热和机械形式。在某些条件下,可以遵循热力学定律将能量从一种形式转换或转换为另一种形式。可用能量称为自由能(G)。不可利用的能量是熵,它衡量了系统的无序性。用能化学反应释放出自由能,并且自由能发生负向变化(DG,0)。内能化学反应消耗自由能,并且自由能发生正向变化(DG。0)。三磷酸腺苷(ATP)在生物系统中是一种能源。一种重要的能动反应是
ATP键的断裂,其中ATP在水解后释放出相对大量的自​​由能。 ATP循环耦合了能动和性能反应。它捕获在能级化学反应中释放的自由能,并将捕获的能量转移到负电子反应的反应物中。
酶是生物系统的催化剂,可通过降低能垒,提供引发反应所需的活化能来影响生化反应的速率[Sad07]。几乎所有已知的酶都是蛋白质。酶最显着的特征是它们的催化能力和特异性。酶不仅决定化学转化的方式,而且还介导一种能量形式向另一种能量形式的转化。在没有酶的情况下,生物系统中的大多数反应不会以可察觉的速率发生。通常,酶根据其催化的反应类型进行分类。国际生物化学联合会建立了一个酶委员会(EC)来开发酶的命名法,其中反应分为六个主要组,编号为1-6(表9.1)。这些组被细分并进一步细分,因此以四位数字开头的字母EC(用于酶委员会)可以精确识别所有酶。
代谢途径是细胞内发生的一系列化学反应,其中一种化学物质通过一系列酶的催化化学反应转化为另一种化学反应。代谢途径可以是几个反应的简单线性序列,也可以是广泛分支的反应,这些反应汇聚或偏离中心主要途径。生物系统中有许多代谢途径。其中一些是许多活生物体所共有的。例如,糖酵解代谢参与葡萄糖氧化以获得ATP,它是许多生物体中的能量转换途径。柠檬酸循环涉及乙酰基-CoA氧化,以获得GTP和有价值的中间体。它通常受底物可用性,产物抑制作用和某些循环中间体的调控。氧化磷酸化途径处理由糖酵解和柠檬酸循环释放的电子。戊糖磷酸途径参与戊糖的合成和合成代谢反应所需的还原能力的释放。其他主要的代谢途径包括脂肪酸代谢,糖原代谢和氨基酸代谢。许多化学物质可能参与细胞内存在的多种途径。这些途径的集合非常复杂,并形成了复杂的代谢网络,是代谢和身体的完整集合。确定细胞生理和生化特性的过程(见图9.2)。 这些网络包括代谢的化学反应以及指导这些反应的调节相互作用,并成为阐明细胞机制和建模代谢的强大工具。 随着基因组技术的发展,许多生物中的代谢网络可以通过生化反应来重建[Ree03]。
表9.2列出了一些主要的代谢网络数据库。 京都基因与基因组百科全书(KEGG)途径是一个数据库,其中包含有关确定细胞生理和生化特性的过程(见图9.2)。这些网络包括代谢的化学反应以及指导这些反应的调节相互作用,并成为阐明细胞机制和建模代谢的强大工具。随着基因组技术的发展,许多生物中的代谢网络可以通过生化反应来重建[Ree03]。
表9.2列出了一些主要的代谢网络数据库。京都基因与基因组百科全书(KEGG)途径是一个数据库,其中包含有关基因与蛋白质的分子相互作用和反应网络的信息。它包括来自各种生物体的所有已知代谢途径的图形途径图。 BioCyc是371个途径数据库的集合,其中包含特定于某些生物的完整数据库。 BioCyc集合中的每个途径数据库都描述了单个生物的基因组和代谢途径。例如,属于BioCyc的EcoCyc是关于大肠杆菌整个基因组的高度详细的生物信息学数据库。 EcoCyc包含有关转录调控,蛋白质复合物,酶,转运蛋白和代谢途径的文献资料。此外,MetaCyc是代谢途径的百科全书,是一种代谢途径和酶数据库,其中包含从1500种生物中阐明的1100条代谢途径。 MetaCyc中的大多数代谢途径均来自科学实验文献。 MetaCyc包含参与一级和二级代谢的途径,以及相关的化合物,酶和基因。 BRENDA是一个酶数据库,其中包含有关酶和酶反应的全面信息。它是欧洲生物信息研究所(EBI)的SRS5序列检索系统的代谢途径数据库集中嵌套的几个数据库之一。
代谢网络具有与其他生物网络共享的一些共同特性,并且还具有独特的特征。为了阐明生物代谢的组织原理和生物学原理,最近的研究采用图论方法分析大型代谢网络。与其他蜂窝网络的隔离功能模块组织不同,Ravasz等人。对许多生物的代谢网络进行了研究,发现它们被组织成许多高度连接的拓扑模块,这些模块以分层的方式结合了较大的,内聚力较小的单元[Rav02]。这种单元的数量和程度通常遵循幂律分布。 Jeong等。系统地比较了43种生物的代谢网络的数学分析[Jeo00],发现这些
代谢网络具有相同的拓扑缩放特性,并且与复杂的非生物系统的固有组织具有惊人的相似性。相反,有田指出,代谢网络具有通量分布,其平均路径长度比网络结构中观察到的平均路径长度长,并且它们的功能状态可能不具有无标度特性[Ari04]。 Mahadevan和Palsson研究了代谢网络的结构和功能之间的关系[Mah05]。他们发现,与其他影响类型的生物网络(如蛋白质-蛋白质相互作用网络或调控网络)不同,在流动型代谢网络中,节点反应的实质与节点中心性无关。这些结果表明,由于网络表示和功能限制,不同生物网络之间存在根本差异。他们的研究表明,即使是代谢网络中连接最少的节点,对于那些连接程度高的节点,对于整个网络功能而言也很关键。

9.1 细胞代谢和代谢途径/ 281
9.2 代谢网络分析与建模/ 286
9.2代谢网络分析与建模
代谢网络的动态仿真和分析使我们能够阐明代谢过程的潜在机制。信号网络和代谢网络均由许多生化反应组成。因此,自然代谢网络也可以通过常微分方程(ODE)或Petri网建模。但是,尽管与信令网络相似,但是它们具有一些不同的属性,在数学建模中应该考虑这些属性。在信号传导途径中,我们不仅关注物质流,还关注信号流,信号流是通过磷酸化和去磷酸化的蛋白质形式来实现的[Sac06]。相反,在代谢网络中,化学计量的反应方程式控制着新陈代谢的动力学,新陈代谢的动力学强调物质的流动。尤其是酶的活性动力学具有特殊的动力学。这些因素导致新陈代谢网络模拟的特殊功能,这些功能不同于其他生物分子网络。

9.2.1 助焊剂平衡分析/ 286

9.2.1通量平衡分析
磁通量平衡分析(FBA)是根据化学定律对代谢进行的数学分析,已被证明是分析细胞系统代谢能力的非常有用的技术。例如,使用FBA,只要已知某些营养素,我们就可以知道哪些代谢通量使生物体的生长速率最大化。亚马逊物流的基础知识已在文献[LeM06,Kau03]中进行了评论。在这里,我们仅作简要介绍。
图9.3说明了一个反应网络和FBA。化学计量是化学反应中反应物和产物的定量关系的计算。代谢网络可以由化学计量矩阵S表示,其行对应于代谢物,列对应于反应。 S中的元素是相关反应的化学计量系数。代谢通量,通常用v表示,是分子通过反应或酶的周转率。流量调节对于所有代谢途径的调节至关重要

9.2.2 基本模式和极端路径分析/ 288
9.2.3 代谢网络建模/ 292

9.2.3代谢网络建模
生化反应网络的建模在代谢途径领域获得了很大的成功。除了FBA和极端途径分析以外,还开发了许多其他技术来研究代谢系统。与信号通路建模一样,代谢网络建模也包含一系列生化反应,包括结合,解离,复合物形成,分子基团的转移,磷酸化和去磷酸化。尽管有这些相似之处,但信号传导和代谢之间仍存在重大差异,这导致了代谢网络建模中的某些特殊功能。例如,在代谢中,酶和底物的量通常相差几个数量级,这使得Michaelis – Menten动力学适合于对代谢网络进行建模[Kli06]。相反,在信号通路建模中,由于催化剂和底物分子的数量处于同一数量级,因此通常采用质量作用动力学。
尽管FBA和极端途径分析已广泛用于研究代谢网络,但它们实际上是基于代谢网络的拓扑分析。有几个可用的公共领域生化反应数据库,例如BRENDA,可提供酶促反应动力学,但与大量反应数据相比却不够。由于动力学参数数量不足,动力学建模仍然具有挑战性。已经提出了一种无需事先了解潜在速率方程式和参数就可以定量解释代谢系统可能动力学的方法[Ste06]。该方法通过使用局部线性模型建立在代谢通量和代谢中间体浓度上。每个稳定的代谢状态都与动态特性的唯一光谱相关,动态光谱由与相应状态一致的所有可能动力学模型的集合定义。该策略代表了从通量平衡分析到代谢系统明确动力学模型的中间步骤[Ste06]。

9.3 代谢网络的重建/ 294
9.3.1 基于反应和化合物的寻路/ 294
9.3.2 基于通量曲线的化学计量方法/ 297
9.3.3 从时间过程数据/ 298推断生化网络
9.4 代谢网络中的药物靶标检测/ 300
9.4.1 药物目标检测问题/ 301
9.4.2 整数线性规划模型/ 302
9.4.3 数值验证/ 305
9.5 摘要/ 311

10 信令网络:建模和推理 313

10.1 蜂窝系统中的信号转导/ 313
10.2 信号传导途径的建模/ 316
10.2.1 微分方程模型/ 317
10.2.2 Petri网模型/ 319
10.3 从高通量数据/ 321推断信令网 络
277
10.3.1 网页搜索方法/ 322
10.3.2 订购信号组件/ 323
10.3.3 颜色编码方法/ 324
10.4 通过线性编程/ 326推断信令网络
10.4.1 整数线性规划模型/ 327
10.4.2 重要措施/ 329
10.4.3 数值验证/ 329
10.4.4 通过网络流模型/ 338推断信令网络
10.5 从实验证据/ 341推断信号网络
10.6 摘要/ 343

11 其他主题和新趋势 345
11.1 基于网络的蛋白质结构分析/ 345
11.2 生物分子网络整合/ 347
11.3 非编码RNA的转录后调控/ 349
11.4 生物分子相互作用与人类疾病/ 350
11.5 摘要/ 352
参考资料 353 指数 381