奖项:三等奖
作者:白安琪
如今的生物学家可不再是那种躲在密林中偷窥鸟类或置身于难以计数的植物标本中的形象了。两个身穿实验服的科学家被记录实验数据的纸堆围困的景象出现在描述人类基因组计划的一幅漫画中,这是当今生命科学研究需要处理海量数据这一事实的小小缩影。仅凭豌豆植株的高矮和花的位置,或9:3:3:1这一比例的暗示就得出遗传学原理的孟德尔的时代也一去不复返。
造成这种局面的东西之一,维持着全人类的各种生命活动,也包括生物学家的“困惑”这种活动,它们通常被叫做生物大分子。我们大都听说过它们中的几个,比如蛋白质、DNA、RNA。蛋白质组成我们身体的某些部分、调节着我们的生命活动。DNA、RNA则携带着我们的遗传信息。随着现代生物学特别是分子生物学的发展,我们积累了许多关于这些大分子的数据,比如科学家通过某些手段测出的组成某些蛋白质的氨基酸序列或组成DNA的脱氧核糖核苷酸序列、特定蛋白质的物理化学性质、序列抗原性等等,状况有点像我们新发现了一种不懂的语言,知道这种语言所用的字母(20种氨基酸和A、G、C、T等)和某些词汇,却不知道语法。不用说,仅仅进行储存是不够的,于是,不单单是为了回应信息时代的振臂高呼,我们拥有了生物信息学,来处理如洪水爆发一样猛涨(在测定序列的方法不断改进后,简直是指数级增长了)的生物学数据。
生物信息学最初是为不同国家、不同研究组织间的数据信息交流服务的[1],就好像当书籍越来越多时,人类的学问中多了图书馆学这一门。但逐渐地,问题不再仅仅是存放信息或从已入库的信息中找到需要的,新的要求比如寻找数据的内在联系、基于已知的事实推测新的事实、构建模型帮助研究等等不止涌现,还很迫切。生物信息学不再仅是数据处理,而是向用计算机科学解决生物学问题发展。
我们大约听说过这种说法:人类和黑猩猩的基因有97%以上是相同的(这个就是寻找人类和黑猩猩基因组的内在联系的一个体现)。这显然是比较了二者的基因后得出的结果。那么比较是怎么进行的呢?
比较序列1234和1235,它们有75%是相似的,相似的部分是“123”,而且相似部分可以很好地定位。这谁都可以做到。然后,比较序列1234223413234422123和344214223222,分析它们的相似与不同(比如找出相同的部分),这个问题看上去已经不是人脑可以轻易完成的了。而人类基因组的碱基对约为30亿个,基因约四万个,就是说一个基因的序列约对应着75000个碱基对,黑猩猩基因组与人类的不会相差太多,比对这样的序列的难度不言而喻。如此超乎想象的计算量,我们只能向计算机求助。
将几个词组合就可以对生物信息学有个初步的感性认识了:大量数据、数据库、算法、搜素工具,还有“是否相似”和“规律”。生物信息学其实是一门计算科学,算法非常重要。算法是为了解决一个适当的公式化问题而必须执行的一系列指令[2](《生物信息学算法导论》p6),就是我们提供给计算机的固定行为模式。科学家开发算法、编写程序,以便我们利用生物学信息。比如,我们得到了一个蛋白质的氨基酸序列,想知道具有相似序列的蛋白质的相关信息,于是我们开始利用互联网资源。Entrez是一个很受欢迎的搜索引擎,网址是http://www.ncbi.nlm.nih.gov/Entrez。登录后利用其中的PDB(Protein Data Bank,一个关于蛋白质的数据库)就可以进行搜素。数据库是由相关数据库组织进行维护的,比如PDB组织位于纽约长岛的Brookhaven国家实验室。当然,已有的生物学信息不仅仅限于蛋白质和核酸,关于某些代谢途径、生物学图像的信息,在互联网上都可以找到。[3]
似乎总是摆脱不了“比对”这个词,因为序列比对实在是生物信息学的一个基本问题。分析基因序列异同时需要比对,为推测某种蛋白质性质或功能而寻找氨基酸序列与之相似的蛋白质时需要比对,从已有的数据库中查找信息的最初步骤应该也含有比对。比对不仅是目的也是方法。基本依靠比对基因序列进行研究的一个例子是分子系统发生学(单从名字上看确实挺吓人的,其实不难理解)。有下面三段序列A:111111、B:111211、C:113211,很容易判断A与B更相近,B与C更相近。如果把数列换成物种特定生物大分子(比如血红蛋白或光合酶)的数据信息,再根据得出的生物大分子的相似程度判断物种亲缘关系的远近,这大概就是分子系统发生学了。
除序列比对之外,与信息相关的生物学问题还有很多,比如利用已知的蛋白质结构和序列信息预测蛋白质的结构,或者建立模拟的生物系统,这些更像真正的生物学而非信息学工作。一个应用实例是,蛋白质的结构与功能密切相关,我们可以研发蛋白质类药品,精确考虑每一个氨基酸的位置信息,计算机提出可能的结构并给出可能性最大的结构,以及相关结构的性质。
生物信息学家不具有三头六臂,虽然有的科学家(比如编写生物信息学著名教材《生物信息学算法导论》的N. C. Jones)不认同,但传统观点认为想做好生物信息学需要分子生物学和计算机科学的背景,有些书还指出需要某些数学和物理知识。
生物信息学这门英文名叫Bioinformatics的科学不长的历史上一位重要的科学家是美国的Russell. F. Doolittle,他的不同之处在于寻找分析蛋白质的辅助工具时想到了计算机。1983年,他报道了一个新发现的血小板生长因子(PDGF)的基因序列,而这个序列与一个先前报道的致癌基因序列相同,二者乍看上去并不相关。事实上,PDGF是一种可以刺激细胞生长的蛋白质,而提到的致癌基因会导致细胞无限增殖,在猕猴中最终导致癌症;两个基因的表达产物在不同的细胞内执行相同的作用。[4]
Doolittle所做的,就是将他所能得到的每一条新序列输入他自建的数据库(粗略来讲数据库就是按一定规律储存已知数据信息的“仓库”)并与已收集的其它序列进行比对。这应该是说明生物数据的内在联系具有意义的一个早期例子。仅这一点就可以说明生物信息学的重要性了。如果我们要寻找本质规律,就必须能整合信息、化繁为简,还有什么比发现看似不相关事物的内在联系更好呢?
我们从生物的外观、系统、组织、细胞、分子一路看来,虽然还没完全弄明白自己已经见到的,但却想走的更远,想提炼出控制生命活动的基本规律。想想开普勒(他分析老师第谷近二十年的天文观测数据得出了开普勒三大定律),还有不那么出名的印度的钱德拉塞卡(那个说明恒星归宿的钱德拉塞卡极限是他在一次越洋航行中算出来的,那可是在1930年),他们进行了大量的演算,直到宇宙的某种规律被约化为一组方程式时才罢手。无疑,我们想在生物学上取得类似的成就。
生物学有着还未真正为人读懂的海量信息,也到了需要虚拟和模拟的阶段。细胞是一个系统,我们正在试图弄明白系统中每个个体(比如分子)行为的前因后果、来龙去脉。我们想创造能投入使用的生物大分子,我们想预测生命现象。这些杂乱的语句只是为了说明,我们要走的路还很长。
参考文献:
文章是阅读上述两书及《生物信息学概论》(Dan E. Krane & Michael L. Raymer 著,孙啸等译,清华大学出版社 第一版)后写出的