图论算法在生物网络数据上的应用

文章分为两个部分:

  1. 在必需蛋白预测研究中,考虑了蛋白所在的生物网络环境,以蛋白之间的连接关系重要程度来间接预测必需蛋白。除了主流的边聚类系数等图论特征,还利用了几何模型整合多种连接关系度量,有效减小了单一特征依赖问题。
  2. 在活跃信号通路识别问题中,引入 KEGG 知识库参与 背景网络构建过程,之后应用图论中的路径模型识别生物体在受到刺激后产生的 应激反应信号通路,该方法保留了分子所属通路信息,使结果更具解释性,方便 生物医学研究人员提出机理性假设。

IEW算法:http://digbio.missouri.edu/IEW/index.html

信号通路识别(多分子析协同作用机理方面)

http://digbio.missouri.edu/impres
活跃信号通路识别算法

算法利用动态规划的思想,针对代谢通路。

  1. 首先,利用 KEGG 数据库中对代谢通路的知识来构建背景网络。设计“类-实例”关系来扩展KEGG数据库中分子代谢通路,以获得基因参与的具体通路信息,
  2. 其次,基于组学数据为生物网络中的分子、分子连接和代谢 通路分配罚分,来逐步探索最优信号通路。
  3. 最后,从一个或多个起始基因开始,应用图论中的最短路径模型 识别下游信号通路,使其能最好地解释组学数据中分子的表达值。

活跃通路识别的目标

在生物体受到外界刺激或自身基因组位点突变后,找到生物网络中哪些部位活跃起来并做出了相应反应。

  • 合理地解释分子之间的级联反应顺序,即识别活跃信号通路

思考

  • 第一张提到哪些算法?在活跃信号通路识别领域
  • 图论中路径模型,都有那些算法,思想要了解,实现最简单的一个算法。文中提到最短路径,基于“节约生物系统”假设:生物会选择高效的路径完胜生物功能。
  • 网络节点的最小参与代价,这个是如何计算的?