- 209.00 KB
- 51页
- 1、本文档共5页,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 文档侵权举报电话:19940600175。
11.模式生物的功能基因组学:从新的视角看老问题DorotheaK.ThompsonandJizhongZhou申剑、金颖译;金颖初校;魏华校11.1引言要全面综合地描述活细胞的内部作用关系是一项十分艰巨的任务。不足为奇的是,描述基因功能和相互作用方面最大的进步最初来源于基因组序列数据的使用,这些数据来源于简单的原核和真核模式生物。原核生物如大肠杆菌(Escherichiacoli)和枯草芽孢杆菌(Bacillussubtilis),单细胞真核生物如啤酒酵母菌(Saccharomycescerevisiae)都被作为传统的模式生物,这是因为它们结构简单、功能复杂、在实验系统中具有内在的优势。E.coli的非致病实验菌株(K-12)被列为最早的全基因组测序对象,它在原核遗传学、分子生物学、生物技术、尤其是DNA重组技术领域是首选的模式生物(Blattneretal.,1997)。B.subtilis是第一个进行全基因组测序的革兰氏阳性菌(Kunstetal.,1997),并且被作为研究生物化学、生理学、系统发育的遗传学范例。因为S.cerevisiae具有真核细胞的所有基本功能,并且人类疾病30%的阳性克隆与酵母同源(Bassettetal.,1997),对S.cerevisiae基因产物的生物学作用做准确的测定是极其重要的一步,这有助于我们提高对遗传学上更复杂的、不易研究的多细胞动物的认识(Lashkarietal.,1997;Winzeleretal.,1999)。尽管有40多年的大量研究,但基因组序列信息表明,超过30%的开放阅读框(ORFs),包括E.coli的染色体(Blattneretal.,1997)和B.subtilis的染色体(Kunstetal.,1997)没有实际的功能。这个问题在已测序的S.cerevisiae基因组中反复提到,在S.cerevisiae中大约6000个预测基因中的三分之一仍被归为未知细胞功能的阅读框(Goffeauetal.,1996;Uetzetal.,2000)。因此,很明显,除了基因组结构分析以外,其它的系统研究得到的信息对大量的序列数据归类于生物学上有意义的位置是十分必要的。功能遗传学和相关的高通量综合技术学和方法学(例如,DNA微阵列、全基因组突变、双向凝胶电泳、双杂交系统、蛋白微阵列)试图在转录组学、蛋白组学、代谢组学、内部作用组学的细胞区域中确定新的基因(图11.1)。一些最好的功能遗传学作用的例子来自于对E.coli、B.subtilis、
S.cerevisiae的研究。因此,这些生物将成为这一章的焦点。我们将对其它模式生物进行简短的讨论以总结这一章。11.2Escherichiacoli(大肠杆菌):模式真细菌E.coli作为原核生物学中的模式实验生物,它的地位是无可比拟的。毫无疑问,E.coli是最具特征的可自由生长的单细胞生物,并且它已用于研究细胞过程的生物学模式,如DNA的复制和修复、转录、代谢途径、应激反应、信号传导和遗传学规律。E.coliK-12基因组的获得是一项巨大的挑战。因为许多不典型的基因与数据库中已知的序列不具有显著的同源性。尽管遗传学研究已有几十年,但E.coliK-12基因组中编码4,288个蛋白的38%的基因仍然不清楚生物学功能。那些基因中的1853个之前已经被描述过(Blattneretal.,1997)。这表明我们的认知还存在严重的不足,甚至是对于那些已被很好地研究过的模式生物。在生物学环境中,从功能上理解未分类的基因要求要超过序列的注释水平,并且要综合转录组学、蛋白组学、代谢组学、相互作用组学等方面的全基因组功能分析。我们将在后几部分讨论那些能为功能预测提供信息线索的功能基因组学方法所起的作用。11.2.1Escherichiacoli(大肠杆菌)基因组我们从E.coliK-12基因组的结构分析中得到了什么样的新信息?E.coli序列数据除了使全基因组功能分析的方法成为可能,同时也揭示了一些新的基因。六个以前没发现的tRNA编码基因在揭示E.coli基因组的过程中被鉴定出来(Blattneretal.,1997)。这些新的tRNA基因中的四个,名为valZ、lusY、lysZ、lysQ组成了lysT操纵子,而其它两个基因(asnW、ileY)形成了单基因转录单位。基因组序列的生物信息学分析也已经预测了一些结构和调控元件,这些是各种生物化学途径或细胞机制方面知识所不能预见的。在搜索序列相似性的基础上,芳香族化合物,如苯酚丙酸盐的降解途径的未知步骤被其他四个假定的mhp基因所揭示。在基因组序列确定之前,mhp基因是已经存在的,但没有被鉴定。保守序列单元的出现确定了其中的一个mhp基因可能是由操纵子编码的代谢途径的转录调节子。序列研究揭示了第二个以前没有认识到的操纵子,该
操纵子含有一些类似于假单胞菌(Pseudomonas)基因,能够降解芳香族化合物,如甲苯、苯、联苯(Blattneretal.,1997;Tanetal.,1993)。假设的操纵子由三个基因组成,包括能够打开芳香环和氧化C1,C2的1,2-双加氧酶,一个类似于二氢-1,2-双加氧酶的开放阅读框和基因编码的铁氧化还原蛋白还原酶。这是最后的双加氧酶的元件。在假设的操纵子前面的各种转录的开放阅读框已经被假定在调控基因方面起作用。而且作为结构分析的结果,已经发现了剩下的12个鞭毛合成基因,且表明它们与沙门氏菌的基因几乎一致。这一信息在生物学、序列数据的构成假设和实验的新方向等方面均有价值。11.2.2E.coli转录组学正如第6章中详细讨论的那样,全基因组核酸序列使研究者们能够应用cDNA方法或者基于寡核苷酸的微阵列分析方法,根据特异性刺激物、遗传变异或者生理紊乱来评价基因组转录图。在对全基因组测序和生物信息学分析后,进一步理解生物生理潜质的方法是研究基因表达图谱。根据序列信息,能够设计出一组完整的引物,用于扩增基因组中所有的已知的开放阅读框。每个基因转录(mRNA)水平的变化可以用PCR产物来监测。用于解释全基因组序列功能的强有力的方法是根据各种环境刺激物和生理紊乱或特定调节基因的变异来检测mRNA水平的改变。这一部分使用了一些例子来说明功能基因组学是如何增加E.coli细胞过程的新内容的。这些过程已经在过去用传统的方法很好地研究过了。热激应答热激应答,有时一般也称作应激应答,是一种内环境稳定的机制。这种机制是由活细胞在对温度升高不适应的情况下显示出来的。这种进化学上保守的分子对热反应的应答是一种限制性蛋白-热激蛋白-诱导合成的。除了热激外,其他不利的生理条件,如暴露在乙醇中或转入重金属,都能引起热激蛋白产量的提高(Morimotoetal.,1992)。在过热条件下,热激蛋白除了防止细胞蛋白变性和聚集外,也表现出一些对普通的生理生长所必要的功能,如辅助纠正多聚结构的组装,使新翻译的多肽折叠到它们自然的三级结构(HendrickandHartl,1993;GeorgopoulosandWelch,1993;
Lund,2001)。因此,热激蛋白通常更多地被称为分子陪伴。细胞对热的反应(如热激反应)已被很好地研究了,在进化上许多不同的生物间是保守的(Angetal.,1991)。在细菌中,细胞对热激的反应首先在E.coli中被发现并得到细致地研究。由于热激反应的保守性,它已被作为一种模式系统来研究其他原核生物(如古菌)的调节基因的表达(Kuoetal.,1997)。在E.coli和其他细菌中,热激蛋白的优先级别和短暂的过量生产已经在转录水平通过调节δ因子rpoH(δ32)(Grossmanetal.,1984)或rpoE(δE)(EricksonandGross,1989;WangandKaguni,1989)的量和活性而得到控制。在E.coli中,决定热诱导基因表达的启动子被携带δ32而不是δ70的亚基的RNA聚合酶全酶所识别(reviewedinMageranddeKruijff,1995)。当与RNA聚合酶的核心复合在一起时,E.coliδ32转录因子允许转录机制启动特异的转录,热激调节启动子特异性转录(Grossmanetal.,1984;Cowingetal.,1985)用于稳态和热激水平的热激基因的表达(Cowingetal.,1985;Zhouetal.,1988)。然而,值得注意的是,尽管很多关于原核生物热激反应的研究已经用E.coli作为实验模型得以进行,其他新的热激调节子机制,如负顺式作用反相重复元件,已经在一些革兰氏阳性菌中起作用(Heckeretal.,1996)。微阵列包含PCR扩增的全长编码序列,这些序列代表了E.coliK-12基因组所有蛋白编码能力的97%,它们被用来再现这种细菌的热激因子(Richmondetal.,1999)。用Cy3标记的对照cDNA和Cy5标记的热激样品的图谱比较了在适宜生长温度(37℃)下与在热激温度(50℃)下的全基因表达图,大部分E.coli基因的表达没有受到热激的影响,然而一小部分特异的基因在50℃热激处理后转录水平发生了改变。最重要的发现是观察到基于同源研究的35个未知功能的开放阅读框在转录水平上受到了热激的影响,第一次提供了它们的表达和潜在的生物学作用的分子证据(Richmondetal.,1999)。除了以前鉴定的作为E.coli热激元的基因外,对应于热激上调的开放阅读框还包括一些在本微阵列研究之前,基于序列相似注释的假定功能,而不被描述成热激诱导的那些基因。其中的一些基因曾被报道过它们能在转录水平上被其他应激条件所诱导,如低pH或高赖氨酸浓度和营养应激。(cadAB操纵子分别编码赖氨酸脱羧酶和赖氨酸/尸胺转运装置,Watsonetal.,1992)(cspD编码冷激蛋白,YamanakaandInouye,1997)。E.coli
热激因子新鉴定的成员也包括rseA,是δE的负调节子(Missiakasetal.,1997;DeLasPenasetal.,1997);prlC,是一种类胰蛋白酶(Conlinetal.,1992;Jiangetal.,1998),clpA是ClpAP蛋白酶的ATP酶的元件(Katayamaetal.,1988;Gottesmanetal.,1990)。Richmond及其同事(1999)的研究证实了用DNA微阵列技术准确检测在细胞转录量上的变化,说明了功能基因组学是如何允许已经被很好地定性的细胞过程从一个新的角度来进行完整的检测。然而,研究也指出了以基因组范围测定转录丰度研究一个复杂细胞反应的限制。尽管微阵列提供了E.coli中对应于温度升高时的一系列潜在的参与者,但需要用与基因表达图谱相结合的其他方法给出一个完整的描述:细胞是如何整合和调控这些功能,对环境应激产生一致和快速的适应反应(Richmondetal.,1999)。细胞代谢生长的转录组学分析尽管我们已经知道一些与特定的生物合成或者代谢过程(如色氨酸生物合成)相关的必要的操纵子或基因,但不是出于这一目的的其它的基因在还没有发展更综合更全面的实验方法之前还没有被鉴定,这些基因影响着某些代谢行为或者受到某些代谢行为的影响。例如,DNA微阵列已经被用于分析在E.coli中影响色氨酸代谢的生理学和遗传学的变动(Khodurskyetal.,2000)。E.coli的色氨酸操纵子是分析的最透彻的细菌生物合成操纵子之一。色氨酸操纵子的五个基因(依次是trpE、trpD、trpC、trpB、trpA)编码分支酸转化为色氨酸途径的酶(Pittard综述,1996)。色氨酸操纵子的转录受抑制蛋白TrpR的抑制调控,也受一种称为转录弱化作用的完全不同的调节模式的抑制调控(Pittard,1996)。从广义基因组角度用cDNA微阵列观察色氨酸代谢,Khodursky和他的同事们(2000)能够得到主要受TrpR抑制剂控制的表达图谱,能够鉴定转录受色氨酸代谢影响的基因。之前Pittard(1996)的工作表明,所有的五个主要的与色氨酸的生物合成、转运和调节有关的操纵子(如,trp、aroH、mtr、trpR、aroL)在转录水平上受色氨酸活化的trp操纵子抑制剂的控制。Khodursky和他的同事用微阵列检测mRNA量的整体变化,发现trp(色氨酸生物合成)操纵子基因、mtr(色氨酸特异透性酶)操纵子基因、aroH
(三个已被鉴定的催化芳香族氨基酸生物合成一般途径最初反应的酶之一)操纵子基因组成核心,易受trp抑制调节子的影响。这个结论基于这样一个事实,只有这些基因符合被过量色氨酸下调、色氨酸饥饿时上调、trp抑制子失活时上调的标准。尽管在微阵列分析中没有鉴定得到新的转录目标特异性的TrpR抑制子,但许多基因的表达直接受色氨酸代谢的影响,最主要的例子是精氨酸生物合成基因对色氨酸饥饿极为敏感。功能基因组学,主要体现在微阵列介导的转录图,允许我们看到的不仅仅是微生物生理的某一焦点方面,如色氨酸代谢、特异性基因或调节子如何与基因表达的所有其他方面相互作用;而且还提供了一个观察基因组表达的视窗,如细胞在葡萄糖上生长的生理能力。功能基因组学的价值在一项分析基因组表达的研究中得到了证实,即E.coli在含0.2%葡萄糖的基本培养基上和在含0.2%的肉汤培养基上对数生长后期的基因组表达(Taoetal.,1999)。将PCR扩增的与E.coliK-12基因组的4290个注释的基因对应的开放阅读框特异性DNA片段排列在尼龙膜上,与从两种不同的培养基上得到的细胞的放射性标记的cDNA进行杂交探测。正如预料的那样,E.coli细胞在含葡萄糖的富营养培养基上的生长速度(世代时间[G]=25min)是含葡萄糖的基本培养基的两倍(G=57min)(Taoetal.,1999)。不同的生长速度在细胞大分子成分(如,rRNA,tRNA)中得到反应,这些反过来在基因表达水平得到实现。总的说来,DNA阵列表明,某些功能上的基因转录的差异性与两种生长条件下细胞生理性状一致,因此提供了依赖于基因表达和生物合成调节子全面调节的生长速率研究(Taoetal.,1999)。与119个(占所有标注基因的2.8%)在富营养培养基上生长的基因相比,225个(占所有标注基因的5.2%)在含葡萄糖的基本培养基上生长的基因有很高的表达水平(比例≥2.5倍)。影响生长速度的开放阅读框被分成以下几种功能类型:1、翻译装置;2、氮代谢;3、氨基酸生物合成;4、维生素、辅助因子、辅基、载体的生物合成;5、核苷酸生物合成;6、脂肪酸生物合成和降解;7、碳源和能源代谢;8、细胞过程和整体调节子。在以葡萄糖为碳源和能源的丰富培养基上E.coli
生长的标志性特征是快速的生长速度,生物合成途径的停止,大分子合成基因,最显著的是蛋白质合成基因表达的增多。所有这些生理方面的特征在基因组表达水平通过利用全基因组序列信息和使用DNA阵列技术得以揭示。很多年前,我们就知道快速生长的细胞相应的在蛋白质合成和核糖体丰度上有所增加(Grunberg-Manago,1996;KeenerandNomura,1996)。在128个基因编码的E.coli翻译元件中,在丰富培养基上生长的细胞有53个基因(41.4%)比在基本培养基上生长的细胞在更高水平上被转录。这些基因中的大部分(42/53)编码核糖体蛋白,而其他的基因编码遗传因子,这些因子出现在翻译和核糖体修饰过程中(如翻译延长因子基因tsf,tufB,tufA,dfp,fusA)。结果与翻译因子和核糖体元件的偶联合成相一致(Grunberg-Manago,1996;Taoetal.,1999)。与在丰富培养基上细胞生长的表达图谱相比,转录图表明,在基本培养基上生长的细胞氨基酸生物合成中的基因被普遍诱导,发现与从唯一碳源(这些例子中是葡萄糖)的培养基上生长的细胞产生氨基酸的需求相平行。这些生物合成基因,包括第一个ilvGMEDA操纵子基因(用于异亮氨酸和缬氨酸的合成),整个leuABCD操纵子(用于亮氨酸合成),五个trpEDCBA操纵子中的四个基因(用于色氨酸合成)。亮氨酸和缬氨酸生物合成基因的高表达率表明细胞中这些氨基酸相对高的含量,这与E.coli的生理机能相一致(NeidhardtandUmbarger,1996;Taoetal.,1999)。22个高表达的氨基酸生物合成酶基因中的8个基因与途径的最初步骤相对应,这是常用的调节策略,表明细胞在基本培养基上生长时控制前体代谢到生物合成途径的流向(Taoetal.,1999)。微阵列分子也揭示了在基本葡萄糖培养基上生长的细胞,其碳和能量代谢基因的表达量是丰富培养基上生长时的4倍。当然,最值得注意的是这样一些基因,它们与D-乳酸盐的利用(dld),醋酸盐的形成(poxB),poxB表达的调节(rpoS,它编码稳定期δ因子),醋酸盐的利用(aceA,aceB,gltA,icd,mdh),葡萄糖和醋酸盐的共代谢相偶联(uspA,一种编码通用应激蛋白的基因)。这些基因的诱变意味着醋酸盐的代谢作为一种E.coli在以葡萄糖为唯一碳源和能源的培养基上生长的重要特征(Taoetal.,1999)。最后,在两种培养基上生长都引起了不同的调节基因表达的增加,有些控制了生理状态下细胞的反应。例如,rpoS表达在基本培养基上大量提高(Taoet
al.,1999),并且已知被严紧反应信号分子ppGpp所调节。ppGpp在细胞受氨基酸限制时过量产生(Hengge-Aronis,1996)。RpoS依赖性基因的功能表明了这些细胞中RpoS调节可能的作用。如前所提到的那样,在葡萄糖基本培养基上生长的主要特征被称为醋酸盐代谢产物的过剩。微阵列结果表明,RpoS能控制防止细胞自身酸应激基因的表达(Taoetal.,1999)。hdeA和hdeB是两种表达依赖于RpoS的未知基因,提示它们的开放阅读框能够耐酸。在Tao和他的同事们(1999)处理的微阵列图形分析中,在基本培养基上表现出较高表达比例的225个基因中的43个基因和在丰富培养基上表现出高转录的119个基因中的26个基因作为未知生物功能的开放阅读框进行分类。类似的,在另一项应用微阵列技术来监测基因表达的研究中,25%的基因表现出对应于缺少功能分配的生长条件的不同表达水平(Weietal.,2001)。利用综合的转录图谱,我们能够开始对这些未分类的基因根据它们与相似的或相关的基因共调节来描述一项假定的功能。此外,从微阵列实验中得到的可测试的假设可能提供证据来证实未知基因的生物学功能。因此,基于微阵列的转录图谱为进一步研究特征性模式生物如E.coli提供了进一步的动力(Weietal.,2001)。NtrC调节子微阵列遗传学技术具有很多优势,它能够在特异性调节蛋白转录控制下检测所有的基因和操纵子。DNA微阵列技术促进了多基因网络的出现,如Ntr(氮调节)系统,它能根据E.coli细胞的生理状态信息执行一项细胞功能,通过吸收环境中可利用的氨得到氮,从而进行氨基酸生物合成。氮的吸收要求有两种中心介质的合成——谷氨酸盐、谷氨酰胺(Ikedaetal.,1996)。细胞内谷氨酰胺浓度的减少使细胞意识到外部的氨含量不足(Ikedaetal.,1996)。对外部有限的氮的分子反应是在氮调节蛋白C(NtrC)的控制下基因转录的活化。NtrC蛋白激活δ54-基因的转录,然而氮的吸收控制(Nac)蛋白通过激活氮限制条件下δ70-基因的转录,从而作为NtrC和δ70-操纵子的适配器(Pomposielloetal.,1998;Zimmeretal.,2000)。细胞以这种方式整合各组基因和操纵子的表达以获得全面的适应反应。这种多基因条件导致了基因产物的表达,这些产物能够允许细胞利用环境中任何残留的氨,然后转变为其他的氮源,从而在氮限制条件下能够最小化生长。为了完全揭示E.coli的NtrC/Nac调节子,Zimmer和他的同事们(2000)使用DNA微阵列将NtrC激活基因过表达的突变株的整体转录水平与具有ntrC无效等位基因菌株中的整体转录水平相比较。尽管氮的网络已经在E.coli
中得到很深入的研究,但综合的基因表达图谱鉴定了许多新的NtrC调节子。这些新的与ATP特异性结合的操纵子转运腐胺(potFGHI)、寡肽(oppABCDF)、二肽(dppABCDF)、核苷酸(nupC)和D-丙氨酸/D-丝氨酸/甘氨酸(cycA)的次级离子共转运(Zimmeret.,2000)。其他一些新鉴定的NtrC/Nac-控制基因,包括几个编码假定蛋白(ycdGHIJKLM,yeaGH,yedL)操纵子,再次证明了微阵列表达图谱对于在某些细胞功能中说明未知基因的能力。从全基因组的角度检测NtrC/Nac调节子表明,NtrC控制了大约2%的E.coli基因,其中大部分是底物转运的操纵子(Zimmeretal.,2000)。这些基因的假定功能强调了E.coli在清除环境中含氮化合物的能力,作为抵御氮饥饿的第一道防线。11.2.3E.coli蛋白组学除了基因组结构分析和转录组学特征分析使用阵列技术外,蛋白组学分析依然是功能研究的重要组成,因为蛋白组学分析能够观察到基因表达的最基本水平。与蛋白组学分析相关的中心问题是序列分析预测的开放阅读框的可靠性,蛋白质的物理特征是否与那些开放阅读框预测的一致。而且,已测序生物的蛋白组学的研究揭示了重要的特征,这些特征仅从基于基因组序列的理论蛋白组学是推断不出的。其它的信息包括生物体内蛋白的丰度,后翻译修饰,蛋白水解(Linketal.,1997b)。蛋白组学分析的方法通常包括双向凝胶电泳(2-DE),然后是用N-末端测序或质谱的点鉴定(例如,基质辅助性激光脱附电离时间flight(MALDI-TOFMS))。详见第9章质谱的详细讨论。已有的全基因组序列对从双向凝胶中提取的蛋白种类进行快速鉴定很重要。E.coliK-12的蛋白组用双向凝胶电泳得到了测定。接着用氨末端Edman序列分析对364个双向凝胶电泳斑点进行点杂交来鉴定和定量(Linketal.,1997b,Edman测序的综述,见Walker,1994)。从Edman序列产生的N-末端蛋白序列标签被用来研究完整的E.coli基因组序列。在生物活体条件下表达的蛋白的N-末端序列用来证实与基因组中预测的开放阅读框的对应性。氨末端能处理诸如蛋氨酸起始密码子和信号肽裂解之类的事情,氨基
末端也能通过将观察到的蛋白质序列和那些从概念上预言的基因组序列的翻译进行比较而得到。Link和他的同事们(1997b)的许多研究发现还不能单独从基因组序列得到预言,这些发现表明“旧”模式生物具有一些新的信息。例如,已经鉴定了大量的蛋白质:YjbJ、YjbP、YggX、HdeA、AhpC。尽管YjbJ是E.coli稳定期早期中观察到的最丰富的蛋白质之一,之前还没有描述过它的特征(Linketal.,1997b)。在这项研究中分析的最丰富的蛋白在一个窄的等电点(pI)范围4~7之间被检测到,分子量在10~100KDa之间,这指出了作为综合蛋白组学工具的2-DE分析的限制性(见第9章)。E.coli蛋白组的其他特征包括观察到223个独特的编码蛋白质的座位,其中的60%能进行蛋白水解,这是一种调控蛋白活性的分子策略,也观察到由Edman序列鉴定的18%的2-DE上的位点具有异构体。这些异构体组成了相同基因的蛋白质产物,它们具有不同的等电点和分子量,这表明具有遗传翻译后的过程(Linketal.,1997b)。仅是基因组序列不能对最终在细胞中产生的翻译产物在生化特性和功能上提供一个全面准确的描述。除了个别存在差异,大部分情况下,由实验得到的等电点值和分子量值与基因组序列预测得到的值相当一致。观察值和预期值之间的偏差可能由基因组序列的高度加工蛋白或错译造成(Linketal.,1997b)。用转录组学分析,蛋白表达和丰度的主要差异能在不同的细胞状态下测得。在Link和他的同事们的研究报道中(1997b),作者分别在最低限度的葡萄糖培养基中的指数生长期和丰富培养基中的稳定生长期检测了E.coli蛋白组的动态特性。2-DE分析不能全面的分析细胞的蛋白组学,几个在丰富培养基上稳定生长期早期鉴定的高丰度的蛋白质在葡萄糖最低限度培养基上生长的细胞中没有观察到。这些蛋白质是:⑴色氨酸酶(TnaA),用于色氨酸的降解和合成(MorinoandSnell,1967);⑵半乳糖结合蛋白(MglB),在半乳糖转运入细胞的过程中起作用;⑶饥饿诱导蛋白(Dps),它与DNA形成了稳定的复合物,因此保护DNA不被氧化毁坏(Almironetal.,1992)。这项研究表明了一个生物学原则:细胞改变它们的蛋白成分以适应变化的环境条件(Linketal.,1997b)。此外,还表明,更综合的分析方法,如最近发展的基因组学和蛋白组学的方法,正在改变我们观察活细胞的方法,甚至改变对已经被很好地描述过的模式生物的认识,如E.coli。蛋白组学能够被用来加强和支持由基因组序列分析提供的预测信息。E.coli
K-12基因组的获得提供了用双向凝胶电泳分析蛋白质排列,用质谱鉴定蛋白质的方法来确定E.coli外膜蛋白成分的机会(详细的蛋白组技术的讨论见第9章)。Molloy和他的同事们(2000)用一种新的方法来分离基于碳酸盐培养的细菌的外膜蛋白(OMPs),它们能够鉴定跨膜细胞表面蛋白是E.coli外膜中含量最丰富的蛋白种类(图11.2A)。可被预测的已知有转录活性的E.coli完整的OMPs中,总计有78%的OMPs用2-DE和质谱相结合而得到了证实(Molloyetal.,2000)。此外,一些蛋白质(如铁受体FhuF,FepA,CirA)以前没有出现在E.coli双向凝胶电泳图上,两个DMPs在蛋白组学研究前仅从它们的基因组序列了解它们。关于E.coli的某些新的深奥的发现也已经获得。在铁限制的条件下检测相对的DMP表达,观察到一个假设的指定蛋白YbiL表达的剧增,这表明YbiL在铁转运中具有假定功能(图11.2B;Molloyetal.,2000)。YbiL可能代表了一个之前在E.coli中没有鉴定的铁受体。在一项补充实验中,Molloy和他的同事们(2000)证实另一种OMP(Ag43)的表达在低的生长温度下受到抑制。11.2.4E.coli的模式代谢:计算机代谢组学近来的基因组科学的重要目标是将细胞的核苷酸序列信息与生理功能相联系(Edwardsetal.,2001)。由于从基因组序列和功能研究得到的大量数据还在不断的积累,迫切需要能够在硅片上建立系统的阐述和发展复杂而完整的细胞系统的代表或数学模型。随着基因组时代的开始,传统的生物学简化方法正在被整合的方法所取代,这种整合的方法能够在整体上处理多成分遗传回路(EdwardsandPalsson,2000a;McAdamsandShapiro,1995)。微生物精确模式的目标是模拟完成基因基本的物理化学性质的细胞代谢,这种模拟整合了传统获得的生物化学动力学数据(EdwardsandPalsson,2000a)。遇到的挑战是如何整合和综合全面的“分子归类”和这些部分的关系,目的是为了产生具有说明和预测能力的全细胞模型(EdwardsandPalsson,2000b)。在多基因代谢网络中,代谢通量分配物能被用来定义“代谢表型”;通量平衡分析能用于分析基于质量平衡和反应限制(如,物理化学限制)的重组代谢网络的能力(Edwardsetal.,2001;EdwardsandPalsson,2000a,b;VarmaandPalsson,1994)。解释和预测代谢通量分配物需要有数学建模和计算机模拟(Edwardset
al.,2001)。在细胞模式中,基于物理化学限制的方法意在回答细胞能够做什么和不能做什么,而不是预测细胞如何在特定条件下的准确的行为活动(图11.3;EdwardsandPalsson.,2000b)。E.coli已作为一种模式生物来研究在利用计算机演示代谢能力的可能性和潜在的应用价值(EdwardsandPalsson.,2000b)。EdwardsandPalsson.(2000b)用通过常规实验得到的生物化学数据,已注解的基因组序列信息和菌株特异性信息来重建E.coli的代谢图。在计算机模型中的E.coli代谢的限制条件被用来确定在细胞生长的中心代谢途径中基因缺失的生物学作用。当与实验的观察结果比较时,E.coli代谢能力的芯片分析能够在86%的已检测的基因缺失的例子中定量预测不同突变株的生长潜能(EdwardsandPalsson,2000b)。同样地,其他的研究证明芯片代谢模式能用来解释突变行为(EdwardsandPalsson,2000a);与实验生物学相结合,芯片代谢模式能够提供关于在细菌细胞代谢途径中,基因型与表型关系的重要信息(Edwardsetal.,2001)。这些研究表明:代谢行为的计算机分析能够简化生长实验的设计和报告基因敲除的鉴定(EdwardsandPalsson,2000b)。此外,芯片分析可能会有助于鉴定丢失的(例如,假定的)或者不正确的功能分配,这些功能分配从基因组序列注释中得到(EdwardsandPalsson,2000a,b)。然而,这一领域的最新研究还处于初期,这种计算机模式和计算机模拟需要反复的实验研究来改进芯片模式(EdwardsandPalsson,2000a)。11.3Bacillussubtilis:革兰氏阳性菌的典范Bacillussubtilis是革兰氏阳性菌中最具特色的典型。它是一种需氧的杆状菌,能够形成内生孢子,在土壤和水中普遍存在。Bacillussubtilis和它关系相近的菌具有商业意义,因为它们具有代谢多样性,尤其是它们产生胞外水解酶(如,淀粉酶和蛋白酶)的能力,这些水解酶能够降解多糖、核酸、脂质。降解产物将作为生物体的碳源。除了大分子水解酶的产生,Bacillussubtilis在营养饥饿的条件下开始次级代谢途径,如抗生素(如surfactin、fengycin、difficidin)的产生。营养性缺乏的条件使细菌可形成很独特的结构——化学物质、辐射和干旱抗性的芽孢,这种条件下细菌生长难以重建(LevinandGrossman,1998,综述Bacillussubtilis孢子形成)。这些生理特征和遗传操纵的特征导致Bacillussubtilis成为研究革兰氏阳性菌的模式实验生物。它的全基因组序列在1997年发表,是第一个得到全基因组序列的革兰氏阳性真细菌(Kunstet
al.,1997)。这一部分将讨论基因组如何测序,如何进行功能分析,以及蛋白组学对Bacillussubtilis生物学的提高。11.3.1B.subtilis基因组在已经完成测序的基因组中,即使是研究透彻的模式物种,在全部预测能编码蛋白的基因中也有30%~60%不能根据序列的同源性来划分其功能。B.subtilis也不例外,它有42%的基因功能是未知的(Kunstetal.,1997)。尽管几十年来进行着大量的研究,但B.subtilis中只有约1,200个基因(约30%)的功能有实验证明(Kunstetal.,1997),这说明我们要完全了解B.subtilis的生理特征,必须在发现和确认新基因功能方面付出更多的努力。土壤微生物,如B.subtilis,在进化中得到复杂的调控系统以快速应对周围多变的环境条件和胁迫。原核和真核生物中共有的许多调控蛋白属于转录因子的“螺旋-转角-螺旋”(HTH)家族。B.subtilis基因组的序列分析表明,许多假定是HTH转录调控基因的特殊功能需要确认,包括20个GntR家族调节基因中的18个,19个LysR家族调节基因中的15个,12个LacI家族调节基因中的5个,11个AraC家族调节基因中的10个(Kunstetal.,1997)。细胞对环境压力适应性的调节在很大程度上受双组分信号转导途径的影响,该途径在原核生物中广泛存在。双组分调控系统包括一个传感蛋白激酶和与它同源的应激因子。在B.subtilis中,利用与已知蛋白序列的相似性,37个传感蛋白激酶和34个编码应激因子的基因已经被确定(Kunstetal.,1997)。下文将举例说明全基因组序列信息如何为确认这些双组分调控系统的功能提供实验设计策略。微生物经常面临着许多环境压力的胁迫(如温度、湿度或可用营养物质的变化)。B.subtilis的基因组序列表明,有43个温度休克蛋白和总应激蛋白在细菌适应环境变化中起到重要作用(Kunstetal.,1997)。这些蛋白和它们在大肠杆菌中的同源蛋白有很高的相似性,说明革兰氏阴性菌和阳性菌的细胞应激反应在进化上是保守的。ABC转运蛋白是B.subtilis中确定的功能最多的一组蛋白(Kunstetal.,1997),反映了两大类细菌外荚膜的结构差异。另外一些ATP结合转运蛋白可能增强了B.subtilis抗毒害的能力。B.subtilis基因组中预测共有77种ABC转运蛋白,已经通过克隆基因对它们有深入的了解(Kunstetal.,1997)。
E.coli和B.subtilis全基因组的测定,可全面地研究它们相关的基因组多样性。这种比较基因组的分析提出了一个观点,即可能在10亿多年前,真细菌进化分为革兰氏阴性和阳性两大类。尽管在基因组大小上B.subtilis(4.2Mb)和E.coli(4.6Mb)类似,并且预测的B.subtilis基因约有1,000种(25%)和E.coli完全同源,但在基因的功能和操纵子结构上两个基因组之间存在一些明显的差异。例如,和E.coli不同的是,许多B.subtilis基因参与次生代谢物如抗生素的合成。B.subtilis将近有4%的基因编码大量的多功能酶,这些酶和链霉菌参与抗生素合成的蛋白质序列相似。基因组序列分析还清楚表明至少有10种原噬菌体或原噬菌体的痕迹,说明噬菌体侵染在遗传信息空间传递上起了重要作用(Kunstetal.,1997;Nicolasetal.,2002)。第四章中已讲到,基因的水平转移是细菌进化的动力(Ochmanetal.,2000)。最后,通过观察氨基酸和嘌呤合成基因来研究两个基因组在基因组织方面的差异,显示一些E.coli合成精氨酸和嘌呤的基因分散在染色体上,而在B.subtilis的同源基因则整合在操纵子上。E.coli和B.subtilis的基因组中大量未知基因功能的确定将使我们更深入的了解这些模式物种的进化、生理以及功能分化。11.3.2B.subtilis转录组学自1997年B.subtilis的全基因测序完成以来,人们建立了许多系统的功能分析来描绘不同生长条件、环境胁迫或抗逆、遗传突变情况下基因的功能和调控网络。这一章中,我们将讨论基于微阵列技术的B.subtilis热休克反应的功能分析,双组分调控系统和B.subtilis在不同环境下的生长。这些研究说明了功能基因组如何为B.subtilis的生理学提供充足的实验证据。B.subtilis中的热休克如同之前关于E.coli热休克刺激的讨论,细菌中许多基因的转录被热应激适应性反应激活。B.subtilis遇到不同的限制其生长的环境压力,如热休克、渗透压和机械压力时,激活大量应激调节子基因来反应,这些调节子受一种转录因子σB调节(Heckeretal.,1996;Price,2000),同时转录调节因子HrcA(SchultzandSchumann,1996)或CtsR(Derreetal.,1999;KrugerandHecker,1998)调控另外一些热诱导基因。转录因子σB
是革兰氏阳性菌的总应激σ因子。代谢、环境压力或饥饿情况下σB因子的活化是应激调节子诱导中重要的一步。许多总应激基因的转录在植物依赖σA启动子下发生,但是遇到压力或饥饿依赖σB因子途径就会急剧增强。发现新的受σB调节的基因并且确定其功能将有助于我们了解总抗逆调节子在B.subtilis抗逆适应中起到的生理作用(Petersohnetal.,1999)。像DNA阵列技术这样的综合方法,可将抗逆的转录水平反应做比较分析。DNA微阵列包含了约4,100个已知的B.subtilis开放阅读框中将近90%的PCR扩增片断,它用来检测热休克的整体转录水平(Helmannetal.,2001)。在这项研究中,培养的B.subtilis细胞从37℃(最佳生长温度)转到48℃(热休克温度)来引发热休克反应。从生长在两个不同温度的细胞中提取总RNA,用带有两种荧光的反转录酶标记,然后在B.subtilis的微阵列中做差异显示。在基因组水平分析,B.subtilis整个复杂的热休克反应在单个微阵列实验中就可阐明:超过10%的基因表达在热激下呈现明显的上调,同时超过5%的转录水平激活的基因表达量上升至少3倍(Helmannetal.,2001)。微阵列实验确定了70种已知或之前假定的依赖σB因子总抗逆调控元在转录水平上诱导,通过鉴定另外72种调控元包括24个编码设想的保守蛋白或无已知同源蛋白的基因,更综合地确定庞杂的σB调节系统。将这些功能未确定的基因划分为σB调控元是因为它们的蛋白行使帮助细胞抵抗不利的环境或代谢压力的功能。假定的依赖σB因子的启动子中相同的序列与新鉴定的热诱导基因相近,有力地支持了转录水平表达谱的数据(Helmannetal.,2001)。基于微阵列的转录表达技术的局限性在于这种方法只说明了基因在某一特定的细胞途径中存在,因此需要详细的功能分析来确定这些蛋白在抗逆适应性中的确切功能。从微阵列实验中得到的最令人惊奇的结果是精氨酸合成(argCJBDcarABargF和argGHytzD)和转运(yqiXYZ)中的三个操纵子的高水平转录诱导(≥50倍)。然而,介导它们热诱导表达的调控因子目前仍未知。B.subtilis阵列技术也用于研究对乙醇应激的整体转录水平反应(Priceetal.,2001),确定依赖σB因子的抗逆现象,最受关注的是胞质外σW因子的诱导以及抗盐反应中的整个调控元(Petersohnetal.,2001)。双组分调控系统
原核生物、低等真核生物和植物中的一类重要的适应性反应系统由两类信号传导蛋白组成:感受胞外刺激的传感组氨酸激酶和在转录水平上介导适应性反应的同源反应调节基因(Stocketal.,2000)。双组分调控系统作为基本的应激相伴机制使得物种检测到环境变化并对之作快速反应。该调控系统通过控制蛋白质磷酸化的变化来调节目的基因的表达。信号接受使膜结合的组氨酸激酶将ATP上的磷酸基团转移到高度保守的组氨酸残基上的能力发生变化,该残基一般在激酶的磷酰基转移-二聚体结构域。组氨酸上的磷酸基团随后转移到同源反应调节基因的天冬氨酸残基上,使得后者与目标启动子的亲和力增强。B.subtilis的基因组测序已经表明大量假定的双组分调控系统的存在:37个传感激酶和34个反应调节基因已被确定,其中30个激酶-应激调节基因组合在B.subtilis的染色体上相近排列(Kunstetal.,1997)。诱导这些双组分调控系统的环境信号还未知,因此通过适当地刺激细胞来确定它们的目标基因显得很困难(Oguraetal.,2001)。为解决这个问题,Ogura和他的伙伴(2001)在一个多拷贝质粒(pDG148)中,将应激调节基因置于受IPTG诱导的启动子控制下,然后在B.subtilis突变株中过量表达,破坏它们的同源传感激酶基因。应激调节基因的过量表达预期的结果是看到缺乏特定环境信号和同源传感激酶而无法磷酸化时目标基因表达情况的改变。利用DNA微阵列分析确定了应激调节基因的过量表达在基因组转录水平上的影响。为验证双组分调控系统中的调节子,实验中引用已知的DegU,ComA和PhoP作为模式应激调控子,因为它们的目标基因有部分是已知的(Oguraetal.,2001)。B.subtilisDegS/DegU双组分系统控制外源蛋白酶合成,遗传学发育和运动性等细胞行为(Msadeketal.,1995)。细胞密度信号激活ComP/ComA双组分系统(Lazazzeraetal.,1999),而磷酸缺乏条件下感应Pho调节子的是PhoP/PhoR系统(Hulett,1996)。基于微阵列的对双组分调节子的综合性分析检测到了大部分的已知目标基因。某些情况下,微阵列分析检测不到预期的目标基因,如指向ComP/ComA系统的rapC和rapE,和指向PhoP/PhoR系统的tagAB和tagDEF(Oguraetal.,2001)。然而通过这种比较分析B.subtilis双组分调节系统的方法,许多之前并没有观察到应激调节表达的基因被确定。例如,DNA微阵列分析显示116个目标基因的表达受DegU过量合成的影响,包括了已知的目标基因(如aprE,nprE,ispA)和一些新确定的DegU调节子的成员(如
bpr,yukL,ycdA,murD)。ComA和PhoR调节子的转录谱显示分别有33和23个目标基因,包括了新确定的基因rapF(ComA调节子)和yycP、yidB(PhoR调节子)。在同一研究中,Kobayashi和伙伴(2001)应用未磷酸化应激调节子的过量表达和DNA微阵列分析,来全面确定B.subtilis基因组中24个功能未知的双组分调节系统的目标基因。编码24个不同应激调节子的基因克隆到多拷贝质粒pDG148中,然后转到B.subtilis缺失同源感应激酶的突变体中供进一步研究。对于一些未知的双组分系统,根据被影响的基因来猜测可能的细胞内功能(Kobayashietal.,2001)。YdbF过量的情况下mcpA,mcpB,flgK和flgM基因表达水平发生变化,这说明YdbG/YdbF双组分系统可能与化学趋向性有关。此外,YufL/YufM系统可能在调节感受性中起作用,因为它的许多目标基因同时也是受ComK调控的调节子成员,而ComK是B.subtilis中调控遗传感受性发育的转录因子(Hamoenetal.,1998)。最后,YvrG/YvrH系统假定的调节作用被揭示,该系统与细胞膜和细胞壁的功能相关,因为它的目标基因编码膜蛋白、转运子和细胞壁相关蛋白。当然,需要更深入的分子功能分析来最终确定这些双组分系统的功能。Kobayashi和伙伴(2001)的研究发现一个有趣的现象,DNA微阵列分析显示一些双组分调节系统之间发生了相互作用。例如,YxjM/YxjL和YvqE/YvqC系统的目标基因有很大程度的重叠,19个YxjM/YxjL系统的目标基因有17个也受YvqE/YvqC系统的调节。另外两个存在目标基因重叠的是DesK/DesR和YvfT/Yvf。这些研究结合其它一些常规的遗传技术,证实了基于微阵列的转录表达谱,可用来检测大多数功能未知的双组分调节系统的目标基因。因此为这些系统在细胞信号转导网络中的所起的作用提供线索。尽管这样的实验方法还只在探索阶段,但从复杂转录谱中得到的结果可使得功能分析更加确定。生长和成孢过程中B.subbtilis的全局性基因表达厌氧呼吸细菌经常遇到外界含氧量水平的上下波动。与严格的需氧或者厌氧生物相比,兼性细菌在细胞代谢过程中如果遇到外界氧含量变化,它们就会通过感应氧压来进行适当的调节(GunsalusandPark,1994)。细菌通过改变潜在基因的表达或者调节蛋白活性来适应氧化还原环境的改变。一直以来都认为B.subtilis是严格需氧的生物,它以碳(以简单碳水化合物或者有机酸的形式)作为能源来生长和生物合成细胞元件。然而,最近的研究证明,B.subtilis
能够在缺氧条件下呼吸,它们以硝酸盐或亚硝酸盐为最终的电子受体,或者在缺少外界电子受体的情况下进行发酵(Nakanoetal.,1997;NakanoandZuber,1998)。从硝酸盐到氨的异化还原过程需要两种酶,膜结合的硝酸盐还原酶(由narGHJI操纵子编码)和依赖于NADH的亚硝酸盐还原酶(由nasDEF操纵子编码)(Hoffmannetal.,1995)。延胡索酸盐/硝酸盐还原调节子(FNR)是无氧条件下诱导的能够调节narGHJI操纵子表达的转录活化子(KileyandBeinert,1998)。双组分信号转换系统,ResD/ResE,它能在氧受限的情况下通过激活fnr转录子,从而在调节控制无氧呼吸的途径中起重要作用(NakanoandZuber,1998)。在没有硝酸盐和亚硝酸盐存在时,在无氧条件下B.subtilis不能很好地利用葡萄糖生长,但在培养基中加入丙酮酸盐后B.subtilis的生长得到很好地改善(Nakanoetal.,1997)。目前尚不知道无氧条件下基因表达的整体变化情况。为了在基因水平上揭示无氧基因表达的代谢和遗传控制机制,包含有4,020个开放阅读框的B.subtilis全基因组微阵列被用于检测在指数生长期有氧和无氧条件下基因表达不同的模式(Yeetal.,2000)。从有氧到无氧的转变,诱导或者抑制了几百个不同细胞功能的基因,包括碳代谢、电子转移、离子转运、抗生素产生以及压力适应应答。最突出的是包含了以下这些基因的表达:⑴ydjL,编码了一个能够像Pseudomonasputida那样产生2,3-丁二醇脱氢酶的基因(Huangetal.,1994);⑵ytkA,该基因在影响压力应答基因dps的上游;⑶未知区域yolIJK,它编码了一个能够产生类似于aspartyl蛋白酶(YolJ)和二硫键氧化还原酶的基因(YolK和YolI)。其他一些未知基因的mRNA的量在某些无氧条件下会优先得到显著提高(Yeetal.,2000)。当B.subtilis在硝酸盐或亚硝酸盐上生长时,YkzH和ykjA基因能够得到高水平的转录。然而,ywcJ和yumD基因的转录水平在没有丙酮酸盐存在的发酵条件下,能够提高30-50倍。还有一些未知基因簇,yjlCD和yxxG-yxiM,能够在硝酸盐和亚硝酸盐异化还原过程中和没有丙酮酸盐的发酵生长过程中被负调节。尽管微阵列表达谱分析用于探究基因功能只是探索性的,但Ye和他的同事们(2000)报道的结果至少能对以前没有注释功能类别的基因建议一些可能的功能。B.subbtilis中的硝酸盐和亚硝酸盐的信号基因表达谱是对narGHJI(硝酸盐还原酶)、narK(硝酸盐排出蛋白)、fnr(球状厌氧呼吸调节子)和hmp
(生理功能未知的被公认的黄血色素),以及nasDEF(硝酸盐还原酶)、cydABCD(细胞色素氧化酶和ABC膜转运蛋白)、sbo-alb(一种未知蛋白subtilosin)、ywiD(生理功能未知)、ywiC(生理功能未知)的一种极好的诱导。在葡萄糖培养基中低效率发酵生长的特点是pdhAB(丙酮酸脱氢酶)表达量的减少和lctPE(L-乳酸透性酶和L-乳酸脱氢酶)表达量的显著增加(Yeetal,2000)。整体转录谱(globaltranscriptionalprofiling)显示B.subtilis中控制厌氧呼吸的调控线路是动态的和复杂的,在这个调控线路中还包含了一些特定专门调节硝酸盐厌氧呼吸的基因和另一些在发酵生长中发挥根本性影响的基因(Yeetal。2000)。相似的,另一些研究使用微矩阵的方法系统的分析B.subtilis中葡萄糖抑制基因,这些基因一般于硝酸盐培养基上的细菌从糖酵解生长到糖异生生长的转化后表达(Yoshidaetal,2001)。这些开始确定细胞在不同生理状态下转录学的研究,为将来对重要细胞进程的进一步研究提供了很多有价值的信息。孢子形成历史上,科学家们之所以对B.subtilis如此的感兴趣以至于将它作为一种实验模式生物,很大程度上是因为这种细菌可以经历孢子形成的过程,而这种过程往往是对饥饿的高度特化的适应性反映(参看综述Kroosetal.,1999;StragierandLosick,1996)。在细菌中,孢子形成代表了一种相对简单的实验可追踪的发育过程,它能导致细胞结构的转变。B.subtilis在饥饿状态下菌丝分化出两种细胞,一种小的“原孢子”和一种大的母体细胞。简单来说,母体细胞把原孢子吞入并且在其继续分化的过程中提供营养并给予保护。最终,母体细胞释放出一个成熟的休眠的并可抵御外界不良环境的孢子。在更好的生长环境下,孢子可以重新发育成一个营养体细胞。由于孢子形成是一个复杂的分化过程,所以它需要一个错综复杂的转录调控系统去协调基因表达和复杂的形态变化。这一过程需要一系列受到多重调控的δ转录因子的活性(Kroosetal.,1999)。经过许多实验室的数十年的研究,和孢子形成有关的主要基因已经被分离和鉴定,其中包括控制B.subtilis进入孢子形成的转录活化蛋白和抑制蛋白Spo0A(StragierandLosick,1996)。外部输入的信息和细胞内的信号传导是由一个控制Spo0A的磷酸化系统控制的,而SpoA是一个通过磷酸化调节的应答调节蛋白家族的一员(Burbulysetal.,1991)。
B.subtilis全基因组测序的可行性可以让我们分析孢子形成过程中基因表达的整体变化。这样一个对B.subtilis孢子形成的全面的分子描述在功能基因组时代之前是不可能的。为了修正在这项研究中的不足,Fawcett和他的同事(2000)使用代表大约96%B.subtilis基因组中潜在蛋白编码序列的尼龙膜DNA微阵列去比较野生型和孢子形成转录因子Spo0A(一种在原孢子中专一性指导转录的调控蛋白)以及σF的突变株的基因表达谱(StragierandLosick,1996)。在孢子形成中,基因可以根据转录丰度的不同而分成明确的三类(图11.4):(1)依赖于Spa0A但是不依赖于σF表达的基因;(2)表达受到Spo0A阻遏的基因;(3)同时依赖于Spo0A和σF表达的基因(Fawcettetal.,2000)。超过586个基因(占总预测开放阅读框的10%)被确认受到孢子形成的控制,而最大的一类基因是依赖Spo0A来表达的(283)。这个类别包括了那些一开始就知道的直接被Spo0A调控的基因(如,spoF、spoⅡA和spoⅡG)和不直接依赖于Spo0A的基因(如,kinA和spoVG)。但是,受到Spo0A调控的大部分基因是最近才被鉴定的而且它们的功能是未知的。这些基因包括了yjcP、yneE和两个可能操纵子(一个基因簇包括了yxbB、yxbA和yxnB,另一个包括了ybcO、ybcP,ybcQ。YbcS、ybcT、ybdA和ybdB)。转录谱也揭示了哪些基因直接或间接的被Spo0A所阻遏。这些基因通常在Spo0A中过量表达。最引人注目的是,许多趋向性基因(mcpA、fliJ、cheB、cheA、chew和cheC)、运动性基因(flgC、flgE、flhO、fliD、fliF、fliG、fliK和fliY)和自溶素基因(lytD和lytE)也被Spo0A所阻遏。最后,在第三类基因(同时依赖于Spo0A和σF表达的基因)中,一些刚刚被鉴定的控制孢子形成的基因,以前并不被认为在孢子形成中表达,这些基因所编码的蛋白有的被推测在长链脂肪酸的代谢中起作用(yngJ、I、H、G、F、E);有的在肽聚糖的生物合成中起作用(murA);而有的是一系列功能未知的蛋白激酶(prkA)(Fawcettetal.,2000)。对之前在产孢调控中未知功能的基因的鉴定,通过转录谱探测到两个位置相近的基因yabP和yabQ,他们好像组成了一个操纵子,之后确定了它们在B.subtilis的孢子形成中是必需的(Fawcettetal.,2000)。通过基因置换技术得到的yabP和yabQ的无意突变,导致严重的产孢缺陷。此外,猜测的yabPQ操纵子位于染色体上,靠近并且位于已知的产孢基因
spoVT和spoIIE之间。总之,Fawcett和他的同事们(2000)所基于矩阵基础的研究是一个出色的工作,通过导致对许多功能性注释和一些从没作为产孢控制基因来看待表达的基因来解释转录是怎样增强某个已经研究得很彻底的细胞过程,比如产孢的分子描述。不同于传统的单个基因的表达,芯片技术确立并加强了复杂细胞过程的整体视觉,比如分化的多态性和适应性反应,涉及到基因表达的整体适应与改变。11.3.3B.subtilis蛋白组学一些研究小组通过建立二维的蛋白图谱精确定位物理位置,已经得到了B.subtilis基因表达的特殊模式(Antelmannetal.,2001,2002;Buttneretal.,2001;Coppeeetal.,2001;Eymannetal.,2002;Hiroseetal.,2000;Hoffmannetal.,2002;MovahediandWaites,2000;Ohlmeieretal.,2000;Yoshidaetal.,2001)。其中的一些研究揭示了在缺硫(Coppeeetal.,2001)、低盐或高盐(Hoffmannetal.,2002)、产孢发热(MovahediandWaites,2000)、葡萄糖抑制(Yoshidaetal.,2001)、营养缺乏(Eymannetal.,2002)等情况下B.subtilis的一些动态特性。其他的一些研究着眼于阐明胞外补给(Antelmannetal.,2001,2002;Hiroseetal.,2000),胞质体的补充作用(Buttneretal.,2001)以及B.subtilis蛋白组的碱性蛋白组分(Ohlmeieretal.,2000)。本章主要着眼于产孢B.subtilis细胞胞外蛋白和在外力下诱导蛋白的分析,并介绍蛋白质组是如何提高我们对整体细胞的认识。胞外蛋白组像土壤微生物那样,B.subtilis及其相关的种分泌大量的蛋白,主要是降解酶,它们保证细菌可以从广泛的底物中吸取营养物质从而可以在复杂的连续变化的环境中生存(SimonenandPalva,1993)。另外,真细菌的分泌蛋白还有其他重要的机能,比如,细胞之间的互相交流,解除环境毒素,或者降低竞争者的数量。B.subtilis胞质蛋白的二维图谱显示在对数生长期大多数的蛋白是由那些在糖酵解,三羧酸循环,氨基酸的生物合成,翻译和蛋白量的控制中保守的持家基因所分泌的(Buttneretal.,2001)。在B.subtilis中,蛋白分泌是细胞生长过程中后对数生长期(即稳定期)
首要的事件。正常细胞生长和蛋白转移定位中的两个必需的蛋白,是SecA和Ffh。迄今,与真核信号辨识小体的54kD的亚基同源的Ffh蛋白,是在B.subtilis蛋白分泌中唯一的一个分子伴侣(Hondaetal.,1993)。分子伴侣在蛋白分泌过程的早期是必须的,从而保持蛋白的前体处于非折叠的转位组分状态,进而使蛋白前体到达分泌位置。SecA,是转位的ATP酶,与蛋白前体和伴侣的复合体相互作用,之后引导前体到达由SecY,SecE,SecDF和SecG组成的通道进行输出(SimonenandPalva,1993)。在蛋白通过质膜时或者通过后,它的氨基端的信号肽被5个I型信号肽酶之一所切断(Tjalsmaetal.,1997;vanDijletal.,1992)。B.subtilis基因组的序列分析预示了180个分泌蛋白和114个脂蛋白信号肽(Tjalsmaetal.,1997,1998,1999)。脂蛋白信号肽和分泌蛋白之间最显著的结构上的不同是一个保守的“lipbox”脂蛋白前体的存在,这个前体包含一个不变的脂修饰的蛋氨酸,这个修饰是在肽酶切割之前通过脂蛋白甘油二脂转移酶来完成的(Antelmannetal.,2001)。在一个二维蛋白电泳实验中,在B.subtilis168的胞外蛋白中观察到了大约100到110个点迹(Hiroseetal.,2000)。母代的B.subtilis168的二维胞外蛋白点迹与来自secA温敏突变和ffh有条件的突变的二维胞外蛋白点迹相比,在SecA和Ffh不存在时,B.subtilis168胶中,分别有90%和80%以上的输出蛋白消失了。因此,大多数胞外蛋白的存在都是依赖于SecA和Ffh的存在,需要信号识别小体和Sec蛋白分泌通道的协同作用。相反地,通过N端的氨基酸序列鉴定的蛋白点迹,如鞭毛蛋白Hag,被证明是不依赖于SecA和Ffh的(Hiroseetal.,2000)。靠N端的序列鉴定出23个蛋白,其中17个被证明是在其蛋白前期含有信号肽的胞外蛋白,其中的两个是膜蛋白,在加工完毕之后会释放到周围环境中(Hiroseetal.,2000)。以基因组为基础的信号肽蛋白质组学方法的预测,Antelmann和同事们(2001)用二维电泳观测到大约200个胞外蛋白,通过MS鉴定出82个。在这82个蛋白中有50个是原来知晓功能的,其余的32个不知道功能。这个工作是建立在Hirose和同事们(2000)报道的蛋白质组学分析方法上的。除了提供了B.subtilis的蛋白输出信号的基因组范围的预测外,另外Antelmann和同事们(2001)
揭示了一些单靠基因组结构分析预料不到的结果。研究中鉴定的50个胞外蛋白具有典型的信号肽结构域,并带有一个I型信号肽酶酶切割位点。引人注目的是,蛋白组学分析揭示了之前预测的细胞间相互联系的41个蛋白的输出是因为缺乏信号肽(对于细胞质蛋白而言)或者特异的细胞持续信号(对于膜结合的脂蛋白而言),而不单单归属于输出信号(Antelmannetal.,2001)。应该注意的是,那些胞质蛋白(如醛缩酶,烯醇酶,延长因子G,GroEL,不同的脱氢酶)在其他细菌的胞外蛋白质组中也被发现(Jungblutetal.,1999;Leietal.,2000;Rosenkrandsetal.,2000)。一些预测的细胞间相互联系的脂蛋白,大多数的ABC转运子以外的一个B.subtilis突变体的蛋白质组中发现,这个突变不能进行脂蛋白前体的修饰和加工。整体的数据显示,B.subtilis的胞外蛋白质组包括糖类代谢有关的酶、蛋白酶或肽酶、氨基酸代谢中有关的酶、核酸降解有关的酶、脂酶、碱性磷酸酶、磷酸二脂酶、细胞壁生物合成中的蛋白、脂蛋白(包括不同转运系统中的底物结合元件)、解毒蛋白、鞭毛蛋白、推测中的转录因子、蛋白合成和折叠有关的蛋白(包括GroEL伴侣)、原噬菌体有关的蛋白、产孢特异性蛋白和13个未知功能的蛋白(Antelmannetal.,2001)。在生长的平台期,当周围营养缺乏时,胞外蛋白的量显著的增加。研究证明,蛋白质组分析的价值在于胞外蛋白组分的分析,信号肽独立的运输通道的意义和胞外蛋白的功能。孢子形成过程中的热激蛋白组那些试图阐明B.subtilis的热激蛋白的研究几乎无一例外的集中在对无性繁殖的细胞研究(Bernhardtetal.,1997)。在这些细胞中,大量的σB控制的应激蛋白可以由诸如热,盐,酒精和酸的物理应激,以及葡萄糖,氧和磷酸盐饥饿的因素非特异的诱导出来(HeckerandVolker,1990)。最近,Movahedi和Waites(2000)首次详细描述了对孢子萌发的细胞应激反应的两项电泳研究。在孢子萌发过程中与孢子耐热性相关的应激蛋白的诱导随后形成。在他们的研究中,Movahedi和Waites(2000)发现在孢子萌发的过程中,早期,对致死剂量热激敏感的Bs细胞产生了抗热性更高的孢子。高分辨率两维电泳揭示了60个应激蛋白由体内合成而且或者在获得抗热性的孢子的萌发过程过量表达。这些发现的蛋白中,11种蛋白为热激特异性的蛋白,因为他们是在专一性对热激而不是冷激或葡萄糖饥饿有所反应的孢子萌发细胞中合成或诱导出来的(MovahediandWaites,2000)。与这些热激蛋白相反的是,没有一种在这个蛋白分析中发现的对应激特异性蛋白表现出依赖的表达。时间过程诱导的研究表明应激
蛋白在孢子萌发的后期消失,表明这些蛋白的主要功能是通过影响孢子的结构而不是通过修复热损伤蛋白来增加耐热性。11.4酵母(Saccharomycescerevisiae):高等真核生物的模型酿酒酵母(Saccharomycescerevisiae)是一种简单的单细胞真核生物,可以作为高等真核生物的模型生物。对这个物种的研究可以使我们了解细胞生命最基本的机制,尤其是人类遗传病的分子基础。与人类相比,S.cerevisiae的基因在实验中更容易操作,可以比较容易的删除、突变、然后重新转入酵母细胞内、过表达、标记并全面地对基因进行研究。有意思的是,46%的已被识别的人类蛋白在酵母的蛋白质组中都找得到结构同源蛋白(InternationalHumanGenomeSequencingConsotium,2001;FouryandKucej,2001)。这些人类和酵母共有的同源蛋白都参与细胞生命中很基础的活动,如DNA复制、重组和修复,RNA转录、翻译,细胞内物质转运和基本代谢。比较有医学意义的是,酵母的基因与30-40%的人类疾病相关基因有很高的序列相似性(Bassetetal.,1996;Foury,1997)。虽然很难评估酵母和人共有的的结构同源基因在功能上是否保守,S.cerevisiae代表了一个很宝贵的实验系统,可以使我们探索还没有被了解的人类疾病的相关基因(Foury,1997)。酵母作为复杂真核生物实验模型的一个潜在价值是,与人类肾性脑白质营养不良(adrenoleukodystrophy)相关的ALD基因(Mosseretal.,1993),肾性脑白质营养不良是一种神经退化性疾病,这种病人的过氧化物酶体中饱和长链脂肪酸的β-氧化是有缺陷的(过氧化物酶体是微体的主要类型,或者是真核细胞质中的由膜包裹的,含有特别酶类的细胞器)。人类ALD基因部分编码一个ABC转运蛋白,这种蛋白位于过氧化物酶体的膜上,与酵母细胞的两个ORFs,Pal1p和Ykl188c(Bossieretal.,1994;Shanietal.,1995),有结构同源性。Hettema及其同事报道酵母的Pal1p和Ykl188c转运蛋白参与了把活化的长链脂肪酸转运进过氧化物酶体的过程,所以暗示人类的ALD可能有类似的功能(Foury,1997)。但是,因为基因序列和基因功能不是总能在不同的物种之间保持保守,所以在用模式生物,比如酵母的同源基因解释人类疾病时仍需要谨慎。这章将专门描述S.cerevisiae
的功能基因组学,从介绍对酵母基因组进行系统测序的贡献开始。我们将讨论功能基因组学的方法,如基因组范围的转录谱和蛋白组学的研究正在帮助确定由基因组测序发现的近1/3的未被研究的酵母基因的功能,并阐明他们的调节机制。最后,我们将描述一个新出现的研究酵母蛋白相互作用组(蛋白质-蛋白质相互作用途径)的途径,即约6000种基因产物是如何相互作用,如何在执行各种生物功能时起到至关重要的作用,从而创造了一个真核有机体。为了完全了解细胞功能的分子机制,我们必须具有有关酵母蛋白质组中各个成员之间的直接或间接的相互作用的知识。11.4.1酵母基因组出芽酵母S.cerevisiae的全基因组序列已经测定,这项工作由来自比利时、英国、加拿大、美国、法国、德国、日本和瑞士的科学家通过国际合作完成。它的全基因组序列在1996年公布,这标志着第一个真核生物的基因组被人类阐明(Goffeauetal.,1996)。通过对16个独立的染色体中1200万对碱基的序列分析,人们推测约有6,247个可能的开放阅读框负责编码酵母细胞中的蛋白质产物(Mewesetal.,1997)。目前,所有已知和预测的蛋白的数量已修订到6,145个(Costanzo,etal.,2001)。S.cerevisiae基因组序列测定完成后的几年中,根据序列和遗传信息,几乎所有的酵母基因都被注解。在线的酵母基因组数据库(MYGD),可通过慕尼黑蛋白序列信息中心(MIPS)被访问,此数据库提供了文献中记录的已被注解的功能特征、同源性,ORF、RNA基因和其他遗传元件的结构、以及经典遗传学、生物化学和细胞生物学知识(Mewesetal.,2000)。序列同源性的基因组数据库的组建是基于FASTA算法,便于序列数据库的搜索(Mewesetal.,1997)。另一个可被访问的在线数据库是酵母蛋白组学数据库(YPDTM),它可作为一个关于S.cerevisiae蛋白组织信息的综合数据资源(Costanzo,etal.,2000)。YPD包含了来自许多详尽的、深入的科学文献的蛋白信息。虽然关于酵母的系统的研究有悠久的历史,但截止到基因组序列完成,仍有32%的由基因组序列推测得到的蛋白质的功能还未被确定。这里,我们所讨论的是通过对S.cerevisiae的全基因组序列进行全面分析后得到的新信息。全基因组序列测定已被用于识别可能的新基因,这些基因在经典的遗传学研究中被遗漏;同时还可提供酵母16条染色体的高级组织信息,以及不同染色体上基因和其他序列元件(如,转座子、重复区域motif)的分布特点(Goffeauetal.,1996)。测序工作揭示了可观的遗传冗余,特别在酵母染色体的末端。如染色体Ⅲ的两个末端区域domain的核酸序列具有较高的同源性,同时也与染色体Ⅴ
和Ⅺ的末端domain同源。组成酵母核染色体Ⅰ的两个末端的序列的特征有:(1)基因密度很低,大多是不翻译的序列,(2)有几个明显的假基因和一个15kb的冗余序列,(3)没有营养生长所必需的关键基因(Busseyetal.,1995)。这些特点与染色体末端区域代表了酵母的异染色质的观点相吻合(Busseyetal.,1995),高度紧密的DNA一般不能编码序列或信息内容,所以可能在染色体结构和稳定方面起作用。Bussey和合作者(1995)提出,这些末端序列使染色体具有一定的长度,这个长度对它们的正常功能很关键。通过基因组的序列可以推导出理论上的酵母蛋白质组,以标准同源性为准则,用信息学的方法对其蛋白质组进行分析后,把50%的酵母蛋白进行了功能分类。自从酵母基因组序列的公布和功能基因组学技术的出现,人们在根据经验确定编码新蛋白基因的功能方面取得了巨大的进步。运用计算机手段得到的信息为实验的进行提供了有价值的指导,但我们仍需要DNA芯片、基因删除和生化分析等功能研究方法,来验证蛋白的功能,这些内容会在下面的部分讨论。保守的信息学研究发现,酵母11%的蛋白质组参与了代谢(包括发酵和氧化代谢),7%参与转录,6%参与翻译,3%参与能量的产生和储存,3%用于DNA复制,修复和重组(Goffeauetal.,1996)。基因组测序也揭示了一些基因产物的存在,而以前人们对这些物质是否存在并不确定(Goffeauetal.,1996)。先前对酵母染色体的研究一直认为S.cerevisiae没有组蛋白H1。组蛋白是基本蛋白,双螺旋DNA缠绕着组蛋白形成染色质纤维结构,即核小体。但基因组序列的研究表明,S.cerevisiae具有全部的组蛋白,包括H1,其编码基因位于染色体XVI(Ushinsky,etal.,1997)。另一个例子就是基因组测序发现并将γ微管蛋白基因定位在染色体XII上,而在此之前,虽然酵母遗传学家们付出了许多努力,但仍没有找到这个基因(Johnson,etal.,1997)。11.4.2酵母的转录自从1996年公布了酵母的全基因组序列,人们对S.cerevisiae基因功能的描述有了相当的进展,需要确定约1,900个ORFs的功能(Goffeau,
2000)。许多研究都应用高通量的基因芯片来分析酵母细胞在特定的刺激、环境变化和遗传改变的影响下的基因组表达情况。在阐明基因功能的研究中,对不同的生理和发育状态下特定基因mRNA的表达水平的分析确实是非常有力的方法。cDNA和寡聚核苷酸阵列技术不仅揭示了关于染色体复制(Raghuramanetal.,2001),染色质重组(Fazzioetal.,2001;Sudarsanametal.,2000),减数分裂(Primig,etal.,2000),孢子形成(Chuetal.,1998),和细胞周期调控(Iyeretal.,2001;Spellmanetal.,1998)等基本细胞活动的新的细节,还显示了无规律的外界干扰对酵母转录组动态组成的影响(如,Alexanderetal.,2001;DeSanctisetal.,2001;Gaschetal.,2001;Grossetal.,2000;Mercieretal.,2001)。在鉴别直接受到环境中金属如铁,铜和锌的含量变化调控的酵母基因时,功能基因组的研究工具十分有用(Eide,2001)。在这部分,我们将集中讨论对基因组水平表达的研究如何帮助我们理解金属动态平衡、生长控制和染色质重组复合物在真核生物体内基因调控中的作用的。金属动态平衡的遗传基础所有的生物需要金属离子,如铁,铜和锌,来进行各种各样的生化活动。铁和铜在电子传递和许多氧化还原金属酶中是重要的辅助因子,锌是很多酶的催化成分,在锌指结构等结构中起关键作用。但这些金属离子在体内的过量积累对细胞是有毒害作用的。为了控制细胞内的金属离子含量,生物如S.cerevisiae进化出一些动态平衡调节系统来控制金属离子的吸收、分布、储存和解毒(Eide,2001)。除酵母外,在用功能基因组的方法所进行的金属代谢等重要研究中,原核的模式生物E.coli(BrocklehurstandMorby,2000)和B.subtilis(Yeetal.,2000)也常用来做为研究对象。为了更好的理解S.cerevisiae金属代谢的调控,Lyons和同事(2000)运用DNA微阵列和启动子结构的计算机分析,研究了受到转录因子Zap1p调控的酵母基因。转录因子Zap1p感应到细胞中锌的含量并在锌匮乏时刺激其靶基因的表达(ZhaoandEide,1997)。以前认为Zap1p是通过与其靶基因,即锌传递基因ZRT1、ZRT2、ZRT3启动子中的保守的对锌有反应的元件(ZRE)结合来控制这些靶基因的表达(MacDiarmidetal.,2000;Zhaoetal.,1998)。起初,根据ZRT1、ZRT2、ZRT3启动子中元件的序列人们得到了ZRE保守序列:5’-ACCYYNAAGG-3’(Y=嘧啶,N=任意核苷酸)(Zhaoetal.,
1998)。人们使野生型和zap1突变的菌株在锌含量不同的环境(不足,充足和过量)中生长,并用基因芯片分析,确定了ZAP1和锌指蛋白对酵母转录组的影响。在微阵列杂交的图谱的基础上,图形分析程序multipleexpectation-maximizationformotifelicitation(MEME;BaileyandElkan,1994)被用于分析111个基因的启动子区域,这些基因的表达都呈现出Zap1p依赖性。MEME可以识别出潜在的,由一些受调节方式相似的基因的启动子共有的调解元件,在一些情况下,可以重新确定转录调节因子是其它的保守序列。由图11.5所示,这个研究强烈暗示了46个基因是Zap1p依赖性调节方式的可能靶基因,其中含有18个编码功能未知的蛋白(Lyonsetal.,2000)。并且,MEME分析说明ZRE保守序列最可能的模块是5’-ACCTTNAAGGT-3’(Lyonsetal.,2000)。这个研究的结论拓展了某一个特定的真核转录因子的调节子的定义,提高了我们在分子水平上对锌代谢的理解。酵母通过精确的动态平衡调节系统严格的调节铁和铜的吸收和利用。运用DNA阵列技术的研究已经鉴别出酵母转录因子Aft1p和Mac1p构成的调节子的新的可能的靶基因(Grossetal.,2000;Protchenkoetal.,2001;Yunetal.,2000)。在S.cerevisiae中,At1p是主要的铁依赖性的转录因子,它介导了铁调节子的转录调节(Yamaguchi-Iwaietal.,1995)。铁调节子由很多基因构成,这些基因参与了铁的吸收或获得(如FET3,FTR1和FRE1,2),含铁团吸收(如ARN1-4和FIT1-3),铁离子的液泡膜的跨膜运输和区域化(如FTH1),以及铁硫簇的形成(ISU1,2)。At1p在无铁的情况下,以一种可以对铁离子做出反应的方式与启动子的保守序列结合,从而控制靶基因的表达(Yamaguchi-Iwaietal.,1996)。为了寻找酵母基因组中参与铁代谢的新基因,人们把一种野生型菌株和aft1Δ突变型菌株(AFT1基因被删除)在不同的铁离子浓度下培养,然后用cDNA微阵列的分析方法比较了这两种菌株的表达水平(YUN,etal.,2000)。虽然很多At1p调节子的成员是已知的,此研究还是发现了4个高度同源的基因(命名为ARN1、2、3和4),它们的表达受到Aft1p的调控。这四个新发现的靶基因ARN1-4可能编码了转运器的主要促进因子这一超家族的子家族中高度同源的成员(Nelissenetal.,1997;Paoetal.,1998)。通过对每一个ARN基因的5’端的上游序列的分析发现了At1p结合的保守区域(YUN,etal.,2000)。如果删除高亲和性的亚铁离子转运系统中成员,ARN3和FET3基因,酵母细胞在铁氨作为铁源的生长环境中生长不良,吸收铁氨复杂铁离子的能力弱。铁氨B是羟氨型的含铁团(对铁具有高亲和性的低分子量化合物),它以
不含铁的形式,即去铁氨B被合成并分泌,Yun和同事们(2000)的发现表明,S.cerevisiae利用两个不同的途径负责去铁氨介导的铁离子的吸收,一个途径依赖于FET3,另一个途径需要ARN3。在另一个关于Aft1p调节子的研究中,Protchenko和同事们(2001)利用代表了整个S.cerevisiae基因组编码蛋白能力的cDNA微阵列,来识别在转录水平受到Aft1p调控的新基因。这些基因,被命名为FIT1、FIT2、FIT3(facilitatorofirontransport的缩写),行使帮助铁离子吸收的功能,但明显不是铁离子吸收机制中的关键成分,因为酵母细胞可以通过提高其他吸收铁的成分的表达来弥补这些基因的缺失(Protchenkoetal.,2001)。Rutherford和同事们(2001)研究了AFT2的功能,扩展了我们对铁平衡的理解,AFT2是铁代谢中编码铁离子依赖性的转录因子的AFT1基因的等位基因。对两倍体基因组中部分染色体的作图表明等位基因AFT1和AFT2分别存在于染色体Ⅶ和ⅩⅥ上(SeoigheandWolfe,1999)。推导出的AFT2的蛋白产物的氨基酸序列与Aft1p有39%的相似性,这些有同源性的序列位于Aft1p与DNA结合的区域和包含Cys-X-Cysmotif的区域,Cys-X-Cysmotif使细胞具有铁离子敏感性。为了确定AFT2是否在铁平衡中起作用,鉴定了不同基因型的菌株在铁离子缺乏的环境生长下的表型,这些菌株或者AFT1和AFT2的其中一个被删除,或者二者皆被删除。铁依赖性的表型没有在只Aft2Δ被删除的菌株中观察到,与只Aft1Δ被删除的菌株相比,Aft1Δ和Aft2Δ皆被删除的突变菌株对铁缺乏的环境和氧化压力变得非常敏感,这表明Aft2p是对铁离子有响应的具有功能的转录因子(Rutherfordetal.,2001)。DNA微阵列的实验发现了一些表达受到AFT2控制的基因,包括两个功能未知基因(YOL083w和YDL124w),4个编码转运器的基因(ZRT1、FTR1、FTH1和SMF3)。aft1Δaft2Δ菌株在铁缺乏的环境中不能生长的缺陷,以及Aft1p和Aft2p的同源性与不同的蛋白具有部分相同的功能的理论是吻合的(Rutherfordetal.,2001)。微阵列研究结果也支持这一观点,因为被AFT2调控的基因的一部分也受到Aft1p(FIT1、FIT3、FTR1、FTH1、FRE1和TIS11)的控制。Aft2p调节子中另两个基因也受到对锌有响应的转录因子Zap1p(ZRT1和YOL154w)的调控。全转录图谱的分析表明,酵母AFT2本身的表达在像平台期生长、氮缺乏和烷化剂处理这些情况下是增强的(Rutherfordetal.,2001)
。Rutherford和同事猜测Aft1p和Aft2p的调节行为在不同的情况下分别处于优势地位。这个研究暗示了S.cerevisiae中有第二个铁离子调控系统,这个系统是依赖于Aft2p的,同时也强调微阵列作为揭示细胞活动基础信息的有力工具的重要性。S.cerevisiae中,铜离子作为至少3种(可能更多)关键酶的功能辅助因子是必需的,这3种酶是:(1)一个活跃的细胞色素氧化酶复合体,是酵母细胞可以在不含可发酵碳源的培养基上生长;(2)铜金属酶超氧化物歧化酶,这种酶保护细胞不受活跃的超氧化阴离子的破坏;(3)铜-金属酶Fet3,是亚铁离子的吸收中很关键的亚铁离子氧化酶。酵母的铜离子平衡是通过由铜离子调节的基因表达来保持的,调节由两个功能不同的转录激活因子Mac1和Ace1介导。Mac1在铜离子缺乏的生长条件下激活一些基因的表达,如高亲和性的铜离子吸收基因(Jungmannnetal.,1993),而Ace1在铜离子压力和铜离子过量的情况下,介导基因的诱导表达(Buchmanetal.,1989;Thiele,1988)。在一个用全基因组微阵列分析铜离子调节的基因表达的研究中,常使用铜金属酶作为模式生物研究(Grossetal.,2000)。DNA微阵列杂交揭示了在铜离子缺乏或过量的生长条件下一套基因的不同表达。除了以前确定Mac1和Ace1的靶基因,一些新的靶基因也被确认在铜离子平衡中起到作用。比如,2个基因(FRE7和YJL217w)被确认为新的Mac1的靶基因,编码功能未知的蛋白,而另一个新发现的靶基因YFR055w可能编码负责用丙氨酸丁氨酸硫醚制作半胱氨酸的丙氨酸丁氨酸硫醚-γ-裂解酶同工酶中的一种(Grossetal.,2000)。据观察,YFR055w的诱导是依赖于Mac1的,这说明细胞对铜损耗的这部分反应使细胞内半胱氨酸池的扩大(Grossetal.,2000)。基因组研究的另一个出人意料的结果是由Ace1介导的FET3和FTR1的活化,而FET3和FTR1是在高亲和性的铁离子吸收过程中行使功能的基因,它们在铁离子不足的细胞中受到Aft1转录激活因子的调控(Askwithetal.,1996)。这个发现强调了铁和铜代谢的联系。但是,人们还不清楚可应用的酵母是否可以作为模式系统来研究动物细胞的铜代谢。代谢重调的功能基因组学S.cerevisiae作为模式真核细胞的重要性源于这种实验生物本身的一些优点。与许多具有复杂的形态和基因组的真核细胞不同,酵母可以在由实验
者控制的化学物理环境下,在特定的培养基上被培养。它的生活史和高度有效的同源重组也使S.cerevisiae很适合经典的遗传分析,包括基因缺失和替代。因为这种实验的可操作性,最近一个功能研究中就利用基因缺失和微阵列研究酵母的基因组(Winzeleretal.,1999)。利用酵母的基因组序列信息,S.cerevisiae基因组的2062个ORFs(多于1/3的ORFs)的精确缺失已经成功。运用PCR扩增的办法,目的基因的同源部分被连接到一个经过挑选的标志基因(一个抗生素抗性盒)的两端。当这个连接体进入酵母细胞里时,高效率的同源重组使目的基因被标志基因替代。对基因缺失的酵母菌株的表型研究表明,17%的缺失的ORFs对在丰富培养基上生长的酵母是必需的,基因缺失的菌株中40%在丰富或基本培养基上表现出可被测定的生长缺陷(Winzeleretal.,1999)。在丰富培养基上生长不良的突变株一般在基本培养基上生长得也不好,很少有例外。在种子表达图谱研究中,DeRisi和同事们(1997)使用S.cerevisiae的全基因组微阵列来全面检查酵母从发酵生长到呼吸生长的转换过程中基因表达图谱的时间和空间的变化。酵母通过发酵利用葡萄糖,产生乙醇。葡萄糖的缺乏可以导致暂时的生长停止。在二次生长的转换期间,细胞从发酵代谢转换为呼吸代谢。用DNA微阵列分析以葡萄糖为碳源,处于对数生长期的酵母批培养物,发现全基因组的基因表达的图谱在这个时期保持相对稳定。但当培养基中的葡萄糖逐渐被减少时,基因表达图谱发生了巨大的变化。同时,广泛的基因表达变化也与二次生长的酵母代谢的重新规划相关联。比如,观察到编码乙醛脱氢酶(ALD2)、乙酰辅酶A(CoA)合成酶(ASC1)的mRNA的数量大大增加(DeRisietal.,1997)。这些酶共同行使功能,将乙醇脱氢酶的产物转化为乙酰辅酶A,乙酰辅酶A是细胞TCA循环和乙醛酸循环的能源。由葡萄糖缺乏诱导的基因的种类包括细胞色素c相关基因和参与TCA/乙醛酸循环和碳水化合物贮存的基因。除了大约710个基因的诱导转录,DeRisi和同事们(1997)还检测到约1030个基因在mRNA水平上表达同时下调。编码核糖体蛋白,tRNA合成酶,翻译、延伸和起始因子的基因的表达显示出同时性。多于400个分化表达的S.cerevisiae的ORFs与编码已知功能蛋白的基因没有明显的同源性。所以这个早期的微阵列研究暗示酵母细胞中这部分基因的可能功能(DeRisietal.,1997)。在另一个研究中,研究者分析了在好氧和厌氧条件下恒化培养的S.
cerevisiae的基因组范围的转录图谱(terLindeetal.,1999)。与批式培养物不同,恒化培养的优点在于可以检查生长过程中单个生理参数的分子效应。terLinde和合作者(1999)观察到在好氧和厌氧条件下大多数酵母基因的表达图谱是相似的。为适应好氧条件,只有219个基因的转录加强了3倍以上;而为了适应厌氧条件,140个基因在转录水平上增强了3倍以上(terLindeetal.,1999)。这些结果与DeRisi和同事们(1997)报道的有抵触。这两个研究的一个重要的不同是,DeRisi用以葡萄糖为碳源的批式培养物来研究从发酵到呼吸代谢的生理转换中S.cerevisiae全基因组的表达图谱。而在Linde的实验中,细胞在葡萄糖有限的恒化培养器中生长,低含量的葡萄糖浓度解除了葡萄糖抑制作用,这种细胞在好氧和厌氧条件下基因组的表达被研究。其生长条件在通过TCA循环和呼吸时的代谢流量主要在翻译后水平被控制(terLindeetal.,1999)。像DeRisi及其合作者(1997)的研究结论一样,许多好氧和厌氧诱导基因的生理作用还不是很清楚,需要进一步的研究来确定功能。比较基于微阵列的野生型的S.cerevisiae在不同生长条件下的转录图谱,人们仍没有精确描述指示代谢重规划的转录调控的分子机制。需要运用影响关键转录调节因子活动的遗传突变,连同其他功能基因组的工具,来解析控制细胞生长的调控途径和网络。为了了解细胞活动中某个基因产物的生物作用,及将假定的细胞功能指派给新的还未注解的基因,功能损失的研究连同基于芯片的基因表达监测是有力的方法。在Haurie和合作者(2001)的研究中,高密度DNA筛(大阵列)被应用于识别一些基因,这些基因在S.cerevisiae二次生长转换中的表达受到cat8沉默突变的影响。Cat8p是含有锌簇的转录激活因子,对在不含可发酵的碳源上生长的S.cerevisiae很重要(Hedgesetal.,1995)。葡萄糖调控CAT8基因的本身的表达和Cat8p依赖性的转录调节活动。为更好的理解二次生长转换中Cat8p对碳代谢的重新规划的作用,含有6144个酵母基因组ORFs的DNA阵列被用于比较野生型和单个cat8基因缺失的S.cerevisiae
基因表达图谱。虽然6000多个ORFs在微阵列上,基因组中只有3000个转录水平上的表达量达到了足够被基因筛检测到的水平。转录组学分析发现34个基因在二次生长转换过程中的表达依赖于有功能的Cat8p。这些基因中有25个,包括8个功能未知的基因,是第一次发现他们的表达是Cat8p依赖性的。虽然受到Cat8p调控的表达只是占到酵母基因组的一小部分,Cat8p通过控制基因的表达在酵母二次生长的代谢重新规划中起到重要作用,而这些基因的产物是乙醇利用,乙醛酸循环和糖异生的起始步骤中必需的(Haurieetal.,2001)。基因调控中的核小体重组复合体基因表达的调控对生物系统的功能是基础的,细胞的很多调控活动发生在转录水平(HolstegeandYoung,1999)。越来越明显的是,紧缩的染色质结构的修饰是真核生物重要的调控机制,包括酵母。染色质中重复的结构单位是核小体,特征是200bp的DNA负超螺旋链缠绕到组蛋白核心上(正电荷的,富含精氨酸,组氨酸的小蛋白复合体)。在这部分链上的基因被有效的包在核小体上。体内和体外的研究已经说明核小体抑制转录起始是通过防止真核RNA聚合酶Ⅱ核心酶与转录因子与DNA的接触(综述,WorkmanandKingston,1998)。最近,越来越多的证据表明一些类型的多聚蛋白复合体,如保守的Swi/Snf和RSC复合体,通过以一种ATP依赖性的方式改变染色质的拓扑结构,来消除核小体介导的转录抑制(KingstonandNarlikar,1999)。染色质结构因子改变核小体的行为是通过改变核小体结构,从而使转录因子结合在它们特异识别的DNA序列上,帮助起始转录(图11.6;WorkmanandKingston,1998)。关于改变染色体结构的复合体Swi/Snf的功能的一些基本方面还未解决,但可以平行测量整个基因组在mRNA水平上表达的高密度方法技术的发展,并为我们提供了阐明Swi/Snf功能的机会。在最近的一项研究中,Sudarsanam和合作者(2000)结合运用功能基因组和传统方法(northernblot杂交和遗传分析)来研究S.cerevisiae中依赖ATP的染色质结构修饰复合体Swi/Snf复杂的体内功能。他们的研究揭示了酵母中Swi/Snf调节作用的一些重要特点。比如,运用全基因组DNA微阵列,确定了表达依赖于这复合体两个亚单位(保守的Snf2和不保守的Swi)的酵母基因。为了达到此目的,运用微阵列分化显示,swi/snf野生型和突变株每个基因的mRNA表达水平都被比较研究。发现Snf2或Swi1突变株在全基因组范围内的转录水平发生了相似的变化(被研究的6014个基因的约1%),人们推论大多Swi/Snf调控的基因需要这个复合体两个亚单位的同时参与。对Swi/Snf的依赖性也受到不同营养条件的影响。编码己糖转运蛋白HXT1,HXT3,HXT6和HXT7
的基因转录水平的下调只有在基本培养基上才能观察到,但酸性磷酸酶基因(PHO5,PHO11,PHO12)转录在丰富培养基上是Swi/Snf依赖性的,但在基本培养基上是不受影响的(Sudarsanametal.,2000)。Swi/Snf突变株的MATα(交配型α)特异性的基因家族中3个成员(STE3,MFα2,SAG1)的转录水平的变化在丰富和基本培养基上均可观察得到。微阵列研究的一个意外的结果是,观察到对生长不是必需的酵母Swi/Snf复合体直接控制着必需的基因MCM1的转录,MCM1是酵母中与人血清反应因子的同源基因。他们在染色体上的位置的研究发现由Swi/Snf依赖性的核小体结构改变调控的基因分布在整个基因组中。这说明由Swi/Snf介导的核小体结构变化是高度区域化的,转录控制是在单个特异的基因上而不是染色体很长的一段区域中起作用的(Sudarsanametal.,2000)。最后,swi/snf突变株的全基因组表达分析揭示了一些基因的mRNA量被提高了(Sudarsanametal.,2000)。这个惊奇的结果说明S.cerevisiae中Swi/Snf复合体在转录控制中也可以呈现负调控的能力,虽然这个转录效应是间接的(如Swi/Snf复合体控制了阻抑物的表达)。其它表达研究暗示参与染色质介导的基因调控的蛋白具有双重的调节作用,在不同的细胞活动中可以抑制也可以加强基因的功能(MoreiraandHolmberg,2000;Murphyetal.,1999;Troucheetal.,1997)。功能基因组学,特别是运用DNA微阵列技术研究基因组表达图谱,已经促进了人们认识到核小体结构修饰复合体可以作为染色质动态的,可逆的转录状态的促进因子。Swi/Snf复合体在酵母中是染色质结构修饰复合体的原型(Coteetal.,1994),但对酵母基因组的研究发现大约还有17个ORFs与Swi/Snf类螺旋酶的ATP酶亚单位具有高度同源性(Chervitzetal.,1998;MuchardtandYaniv,1999),并且用微阵列对酵母基因进行的研究帮助我们识别出其它染色质结构修饰的复合体,并且描绘了受到这些因子抑制或激活的所有基因(Jonssonetal.,2001)。酵母基因组含有2个高度保守的蛋白,Rvb1p和Rvb2p,这两个蛋白与AAA+类型的类分子伴侣的ATP酶的螺旋酶有关,这些ATP酶包含了代表ATP(或dNTP)结合或水解活性位点的序列区域(Jonssonetal.,2001;Qiuetal.,1998)。酵母RVB1和RVB2的保守同源基因也存在于人,蝇和蠕虫中。这么高的序列保守性说明Rvb1p和Rvb2p在体内行使
了重要的功能。为了阐明Rvb蛋白的细胞功能,Jonsson和合作者(2001)得到了RVB1或者RVB2等位基因的酵母突变株,并利用全基因组高密度寡核苷酸阵列分析Rvb1p或Rvb2p缺失后受到影响的S.cerevisiae基因(图11.7;Jonssonetal.,2001)。微阵列的研究发现两个Rvb蛋白在转录水平抑制或激活的基因的数量相似,说明可能在体内Rvb1p或Rvb2p是相互联系的。免疫沉淀试验后基于MS的蛋白质识别分析说明Rvb1p或Rvb2p在一个高分子量的复合体中相互联系,这个复合体在体外具有ATP依赖性的染色质结构修饰作用(Jonssonetal.,2001)。这个研究说明基于微阵列的基因组学的工具是怎样在实验道路上引导我们确定基因的功能。基因组范围的对含有Rvb1p或Rvb2p的复合体的调控作用的微阵列分析使我们可以比较此复合体与Swi/Snf复合体的异同。微阵列的研究表明,Swi/Snf复合体和Rvb1p/Rvb2p复合体大体上调控不同的基因的启动子,但对某些基因来说转录受到两种染色质结构修饰因子的调控(Jonssonetal.,2001;Sudarsanametal.,2000)。这些基因包括HO,编码接合转换的内切酶;GAL1,编码利用半乳糖必需的半乳糖激酶。微阵列数据的比较分析说明多个染色质结构修饰因子可以作用于同一个启动子来促进下游基因的转录(Jonssonetal.,2001)。11.4.3酵母蛋白质组学基因组测序发现的还未确定特征的基因可以通过评估生化活性、蛋白-蛋白相互作用和基因表达产物的亚细胞定位分析进行研究。系统的蛋白质组学对于阐明决定细胞功能的蛋白质网络及其相互作用是必需的,在一定意义上,使基因组信息转化为生命(Iyeretal.,2001;PawsonandNash,2000)。大体上,如果已知全基因组的序列信息,一个生物的蛋白质组可以用双向凝胶电泳及基于MS的蛋白质识别分析来确定。虽然MS的应用还为时过早,但快速和精确的MS方法可以监测出在不同生理状况下的蛋白质组中,其组成和数量上的变化,识别出蛋白的共价修饰。一个早期的酵母蛋白组学的分析确定了解吸附离子化MS在联系蛋白质和基因组信息方面的价值和作用(Shevchenkoetal.,1996b)。质谱(MS)识别双向凝胶上80%的蛋白质点(总共150种蛋白质),其中32个蛋白质是独特的,其序列符合以前没有定性的酵母基因组中的ORFs。另外,在这个研究中被识别的蛋白质分子量、等电点和数量的范围很广(Shevchenkoetal.,1996b)。
酵母蛋白的亚细胞定位双向凝胶电泳和MS等技术已经被应用于确定S.cerevisiae蛋白质组中蛋白的亚细胞分布。一个蛋白的亚细胞定位被认为可以暗示它在细胞中的基本的分子功能,提示它的功能机制(Kumaretal.,2002)。但是,酵母中蛋白的亚细胞分布是很基础的数据,直到现在实际上还仍未解决。2002年,MichealSnyder和合作者第一次在蛋白质水平上分析了一种真核生物的蛋白定位(Kumaretal.,2002)。通过高通量的对抗原决定簇所标记的基因产物来进行免疫定位后,2744个酵母蛋白(S.cerevisiae理论上的蛋白质组的60%)的亚细胞定位已被确定。标记酵母蛋白有两种方法:或者将PCR扩增的酵母ORFs定向克隆到酵母V5抗原决定簇/表达载体,或者由转座子导致突变产生的随机标记。克隆基因被插入到可被己糖诱导的GAL1启动子的下游,这样己糖诱导可以驱动目的基因以融合蛋白的形式进行表达,具有C-末端的V5抗原决定簇。转座子-标记蛋白具有HA抗原决定簇。运用专门针对V5或HA抗原决定簇的单克隆抗体和CY3-耦连的二抗,蛋白通过间接的免疫荧光法得以定位,高通量的免疫定位研究揭示了酵母中被标记的蛋白分布在多种细胞内结构和细胞器中,包括细胞质、细胞核、线粒体、内质网、细胞膜和液泡(Kumaretal.,2002)。大多数被检测的酵母蛋白(47%)分布在细胞质中,13%在线粒体,13%位于内质网和分泌泡,27%在细胞核内(图11.8)。相当数量的蛋白的分布是混合型的(主要分布在某一个细胞器中,但也出现在其他亚细胞结构中,且其中的量是可测定的)。例如,许多在细胞转录或细胞骨架组织中有功能的蛋白在细胞质和细胞核中均有分布。在生理正常状态下,参与细胞对磷酸盐缺乏的应激反应的转录激活因子Pho4p,主要分布在细胞质里,但在核中也可测量到。以前也有报道Pho4p只有在磷酸盐缺乏情况下集中在细胞核中,与这个现象是吻合的(O’Neilletal.,1996)。蛋白的定位与其分子功能是高度相关的(Kumaretal.,2002),这个是很重要的,转录活动很活跃的酵母基因组的很大一部分编码未知功能的假定蛋白。在Kumar和合作者(2002)的研究中,得到了955个功能未知的蛋白的定位数据。蛋白质组微阵列像蛋白质组微阵列或蛋白质芯片等新技术已经出现在后基因组时代,目前正在被试图应用于蛋白质组学研究中。最近,一项蛋白质微阵列的技术被测试,即将使119个酵母蛋白激酶(有已知的也有推定的激酶)过量表达,并共价连接到固体基质上,然后使用这个蛋白质微阵列大规模的应用到
测定激酶特异性的检测中(Zhuetal.,2000b)。如图11.9A所示,蛋白质微阵列的设计为,将可更换的硅树脂人造橡胶多聚物或者PDMS,其上有阵列式的微孔(直径1.4mm,深度300μm),放在一个标准显微镜载玻片上面。这种微阵列覆盖了约1/3的载玻片的面积,一张载玻片上基本可以容纳两个微阵列。蛋白质通过3-glycidoxypropyltrimethoxysilane(GPTS)交联分子被共价连接到微孔上,然后用放射标记的ATP(γ-33P-ATP)和17种底物[如,牛组蛋白H1、牛酪蛋白、髓磷脂碱性蛋白和酪氨酸基质多聚体(Tyr-Glu)]在17种不同的阵列上测试体外的激酶活性(图11.9B;Zhuetal.,2000b)。利用微阵列技术对酵母蛋白的初步分析发现了一些新的激酶的活性。此外,Zhu和合作者(2000b)发现特定的蛋白激酶有其偏好的特定的蛋白底物,酵母的很多蛋白激酶可以将酪氨酸磷酸化。最近制成的酵母蛋白质组微阵列,可以观测多样的生化活动,并最终清楚基因的功能(Zhuetal.,2001)。这个研究是在基因组水平上进行的:5800个开放阅读框(酵母所有预测蛋白的大约80%)以氨基端谷胱甘肽S-转移酶-多聚组氨酸(GST-HisX6)融合蛋白的形式被过量表达,并把纯化后的蛋白点到镍包被的载片的相应位置,融合蛋白通过HisX6与载片相联,如此制成了蛋白质组微阵列。在蛋白质组微阵列上的蛋白被用于测试它们与钙调蛋白的相互作用,钙调蛋白是保守的钙离子结合蛋白,与许多细胞钙离子调节活动(HookandMeans,2001)和磷脂有关。钙调蛋白和脂质体探针均用生物素标记,Cy3标记的streptavidin与生物素可以牢固结合,所以探针可以被检测出来。钙调蛋白结合蛋白的研究发现了除已知的结合蛋白外的新的33个结合蛋白(Zhuetal.,2001)。在多种磷酸肌醇检验中,总共发现了150个不同的靶蛋白,其中52个(35%)的脂结合蛋白对应功能未知的蛋白(Zhuetal.,2001)。余下的98个功能已知的脂结合蛋白包括许多膜结合蛋白(如,蛋白激酶,线粒体膜上的F1-ATP合成酶的Atp1p亚单位,前孢子膜结合蛋白Sps2p)和参与葡萄糖代谢的很多蛋白(磷酸甘油酸酯变位酶,烯醇酶,糖酵解的丙酮酸激酶,己糖激酶及2个蛋白激酶)。因为蛋白质微阵列的方法可以全面检测一组蛋白在体外的许多活动,包括酶活性和生化活性,蛋白质-脂类相互作用,蛋白质-蛋白质的相互作用,所以在蛋白质组学研究中,微阵列是有力的工具(Zhuetal.,2001)
。但是我们也应该注意到,蛋白质微阵列这种体外方法把蛋白质独立于生理环境之外,而生理环境可能是蛋白质功能的基础。下面的部分将集中讨论蛋白质-蛋白质相互作用网络(interactomes),这种有效的手段可以识别酵母中未知蛋白的可能功能。11.4.4酵母蛋白质相互作用组:蛋白质-蛋白质相互作用网络图谱细胞的生化途径包括许多密切的蛋白质-蛋白质、蛋白质-DNA相互作用。事实上,蛋白质很少是单独行使功能的,而是通过物理作用与其它生物分子结合在一起行使特定的重要的细胞功能,从而使细胞作为一个整体对它所处的环境做出有序的反应(PawsonandNash,2000)。为了全面的了解在分子水平上的细胞活动,蛋白质-蛋白质相互作用的研究是必不可少的。为了确定基因组测序发现的新蛋白的功能,一个重要的功能基因组学策略是,通过与功能已知的蛋白的相互作用来区分新蛋白(Itoetal.,2001;Schwikowskietal.,2000)。蛋白质与其他生物分子的相互作用也可以提供关于其功能的一些假说和启示。这是很重要的,因为如果大约40%的S.cerevisiae蛋白在真核细胞的进化中是保守的(Cheroitzetal.,1998),阐明酵母的蛋白质相互作用组(所有蛋白质相互作用图谱)可以为更复杂的真核生物的蛋白质组提供部分的框架(Hoetal.,2002)。传统的研究大规模的蛋白质-蛋白质相互作用图谱的方法是酵母双杂交系统(FieldsandSong,1989;详细解释见第10章)。现在高通量和超灵敏的质谱方法开始用来识别酵母中的多蛋白复合物(Gavinetal.,2002;Hoetal.,2002)。我们在这里将讨论这些方法和技术在S.cerevisiae蛋白质相互作用组研究中的应用。基因组双杂交筛选酵母双杂交系统利用了S.cerevisiae的GAL4蛋白,这个蛋白是转录激活因子,控制了与半乳糖利用有关的基因的表达(FieldsandSong,1989)。GAL4蛋白包括两个可分离的且功能不同的区域,这两个区域对于靶基因表达的激活都是至关重要的:N-端区域负责蛋白质与特定的蛋白结合,C-端区域含有酸性区域,对于转录激活是必需的。在这个系统中,为了探测两个杂交蛋白的相互作用,一个蛋白与GAL4的DNA结合区域融合表达,而另一个与它的激活区域融合表达。二者的相互作用通过报告基因的表达被检测到。
最近的一些研究利用双杂交系统来分析在蛋白质组学的水平上,酵母中蛋白质-蛋白质的相互作用(例,Itoetal.,2000,2001;Schwikowskietal.,2000;Uetzetal.,2000;综述见Legrainetal.,2001)。为了研究S.cerevisiae中蛋白质-蛋白质相互作用图谱,Ito和合作者(2000)建立了一个综合的双杂交的筛选系统,其中所有的酵母ORFs既以DNA结合区域融合蛋白的形式(饵),又以激活区域融合蛋白(猎物)的形式被分别克隆。通过系统地将饵和猎物的克隆文库相互杂交,筛选到了相互作用的蛋白。将杂交得到的转化子(具有一对饵和猎物的双倍体细胞)涂布在缺乏腺嘌呤、组氨酸和尿嘧啶的培养基上,以筛选出激活3个报告基因(ADE2、HIS3和URA3)的克隆,而这3个基因的转录是由只对Gal4蛋白反应的启动子驱动的。在他们的研究中,初步调查了酵母蛋白大约4x106不同的组合(约所有可能组合的10%),发现183个独立的双杂交作用。这些双杂交作用的大多数(163个)包含了以前未报道的作用。这些作用具有生物学意义,或者很可能包括了Srp14和Srp21的物理作用。这两个蛋白被证实是信号识别颗粒(SRP)的亚单位,虽然还没有直接的证据表明它们的相互作用(Itoetal.,2000)。检测到的其它双杂交反应发生在多蛋白复合体的成分之间,包括纺锤体极体,核糖体,液泡H+-ATP酶复合体,TRAPP(转运颗粒蛋白)复合体,剪切体和小核核糖体蛋白。其它未知类型的反应包括105个,但现在还没有足够的关于它们生物学意义的证据(Itoetal.,2000)。由于与Bet3相联系,TRAPP复合体的一种蛋白成份Ybr254c(Sacheretal.,1998)被Ito及其合作者(2000)推测出其可能的细胞功能。TRAPP多细胞复合体在内质网至高尔基体的转运小泡的靶向和融合中起作用(Sacheretal.,1998)。另一个研究小组发现Ybr254c与TRAPP复合体中一个20K的成分相同(Sacheretal.,1998)。对饵-猎物相互作用全面分析的初步实验说明,这是用来寻找基因组中蛋白质-蛋白质相互作用的一个有用的,可获得大信息量的方法。但是作者强调了双杂交分析的几个潜在的问题或者局限性,这些问题和局限性在相关的研究中应该给予重视。首先,双杂交分析容易出现假阳性或者假阴性(即,因为掩盖效应而没有被检测到的相互作用)。所以最好将双杂交的数据与遗传作用、亚细胞定位和微阵列表达图谱的数据整合起来,以消除没有生物学意义的观察结果(Itoetal.,2000)。第二,一些细胞只有在被激活的状态下才能与它们在细胞中的“搭档”
相互作用。一些蛋白在被激活或者与GTP结合的状态下才能与它们的效应蛋白发生强烈的作用,小GTP酶就是一个例子。第三,当进行双杂交筛选时,必须认识到双杂交作用不一定总是反映饵和猎物之间直接的作用结合,两个酵母蛋白可能通过另外一个蛋白的介导相互作用,这个蛋白将饵和猎物连接起来(Itoetal.,2000)。在Ito及其合作者的系统双杂交的研究中,他们描述了不同蛋白两两之间的相互作用,极大的扩展了我们对酵母相互作用组的认识。运用上面介绍的筛选策略,3278种蛋白质之间共4549个双杂交作用被人们鉴别出来(Itoetal.,2000,2001)。双杂交的数据揭示了许多有趣的在人们意料之外的酵母蛋白的相互作用,于是人们就提出了一些具有生物学意义的作用网络,预测了参与相互作用的新蛋白的基因功能。比如,在双杂交数据的基础上,人们提出与纺锤体极体功能有关的蛋白质网络包括纺锤体极体和影响其功能的蛋白质的成分(Itoetal.,2001)。纺锤体极体是微管组织中心,将核膜的成分整合起来,参与酵母细胞分裂并将姐妹染色体分开。3个假定的蛋白,分别命名为Ydr016c、Ykr083c和Ylr423c,与参与相同细胞活动的功能已知的蛋白有作用,这暗示了它们与纺锤体极体功能相关(见图11.10)。人们观察到Ydr016c定位在核内纺锤体丝和纺锤体极体上,这与其可能参与纺锤体极体的功能的假说是吻合的(Itoetal.,2001)。很重要但还是未知的YKR083C基因产物参与了纺锤体极体的作用网络,这说明如果这个基因突变了,可能会导致纺锤体极体的缺陷。人们通过对双杂交数据的仔细分析,构建了参与囊泡转运的蛋白的作用网络模型,其中可能包含了9个功能未知的假定蛋白(Itoetal.,2001)。这个特别庞大的网络由至少25个蛋白构成,大多在囊泡转运过程中膜融合步骤中行使功能。在研究的初期此网络的一部分就被发现了(Itoetal.,2000),但在双杂交研究要完成的阶段又被扩展了(Itoetal.,2001)。通过大规模的双杂交分析得出的网络和蛋白复合体可以作为后续的基于蛋白质组实验分析的最合适的目标。两个独立的但相似的关于酵母相互作用组的研究数据,比较揭示了双杂交方法的局限性。Ito及其合作者(2001)的实验核心数据大多数无法与Uetz及其合作者(2000)的数据相吻合。这两个研究独立得出的实验数据中相同的蛋白质的相互作用只有141个,分别占Ito(2001)和Uetz(2000)
及其合作者的数据的16.8%和20.4%。造成这么显著的数据差异的原因还不清楚,但是,两个研究中在策略和选择的严谨性上有很重要的不同。比如,Ito(2001)使用了3个报告基因和多拷贝的双杂交质粒,而Uetz使用了一个报告基因(HIS3)和低拷贝的载体。两组双杂交数据的低重复性强调了从多个独立的研究角度来分析一个生物的蛋白质相互作用组的必要性(Itoetal.,2001)。计算机显示蛋白-蛋白的相互作用网络最近一个利用计算机图像手段显示蛋白质相互联系的研究,强调了酵母中蛋白质-蛋白质相互作用网络的复杂性和联系性。Schwikowski和合作者(2000)利用AGD软件包将S.cerevisiae中2039个蛋白参与的2709个已经公布的相互作用用图像表现出来。这个计算机作图所用的数据来自公共的数据库(Costanzoetal.,2000;Mewesetal.,2000)和两个最近的基因组双杂交研究(Itoetal.,2000;Uetzetal.,2000)(即上面讨论的两个研究)。MYGD(Mewesetal.,2000,2002)和YPD(Costanzoetal.,2000)可作为组织和比较基因组和蛋白质信息的综合数据库资源。酵母的综合作用图谱是根据这些数据库的信息绘制的,可以帮助我们了解已知和未知的蛋白的功能关系。人们意外的发现一个庞大的酵母蛋白相互作用的网络包括了由2358个蛋白质相互作用联系起来的1548个蛋白(Schwikowskietal.,2000)。第二大的蛋白质相互作用网络只有19个蛋白。如同YPD中定义的那样,大的作用图谱中的蛋白(1548个)在膜融合、染色质结构、细胞结构、脂类代谢和细胞应激性中都发挥功能(Costanzoetal.,2000)。有趣的是,不同的功能团体和亚细胞空间之间有许多交叉联系和相互作用。在巨大的网络中,功能和细胞定位已知的蛋白多通过蛋白之间的相互作用联系起来,这种联系的63%发生在行使普通功能的蛋白之间,76%发生在位于同一个亚细胞空间的蛋白之间(Schwikowskietal.,2000)。有一些相互作用的例子是令人惊奇的。比如参与RNA加工的蛋白,除了与RNA剪切、RNA周转和RNA聚合酶Ⅱ转录有关,还与在有丝分裂、染色质和蛋白合成中行使功能的蛋白有相互的作用(Schwikowskietal.,2000)。一般亚细胞空间之间的相互作用发生在核与细胞质蛋白之间,但在蛋白质相互作用图谱中也能显示出核与线粒体之间的潜在的相互关系。总之蛋白质相互作用网络的模型化和可视化是用来预测我们还不了解的蛋白质的功能的非常有用的工具(Schwikowskietal.,2000)
。利用这种方法,根据1393个还不甚了解的蛋白与至少一个功能已知的蛋白的作用,这些蛋白的72%的功能的类型可以得到正确的预测,从而说明了这种方法的有效性。所以这种方法已经用于预测364个以前没有确定功能的蛋白的作用。但是跟其他纯计算机方法或者基因组范围的相互作用的策略一样,仍存在生物意义不确定的数据,需要更多的实验的支持。用质谱分析酵母的多蛋白复合体蛋白质阵列(简要讨论如上),对蛋白质复合体的超敏感、高通量的质谱分析技术的出现极大的拓展了我们对酵母蛋白质相互作用组的认识。酵母双杂交方法的局限性在于它探测到两个蛋白的相互作用,却不能研究更高水平上整个功能组织。真核生物的蛋白质组可以看作是许多蛋白多聚复合物的网络,这些复合物在组织的水平上行使功能,超越了两两之间的相互作用。目前质谱被应用于蛋白质组水平上蛋白复合体的直接识别上(Gavinetal.,2002;Hoetal.,2002)。这里讨论这种技术对解析酵母复杂的相互作用组方面的贡献。用725个“饵”蛋白,并结合高通量的蛋白质的质谱识别技术(HMS-PCI)已检测出了3617个相关蛋白,这些相关蛋白占酵母蛋白质组的25%(Hoetal.,2002)。利用Flag表面抗原标记的免疫亲和单步骤纯化方法可以用来获得一组酵母的“猎物”蛋白,包括100个蛋白激酶、36个磷酸酶和调节亚单位,以及86个细胞对DNA损伤反应中起作用的蛋白。多蛋白复合体可以被免疫沉淀,每个蛋白成分可以用SDS聚丙烯酰胺凝胶电泳分离,用染色方法显示出来并可以通过割胶回收得到。割胶得到的蛋白的酪蛋白酶消化产物首先用MS进行分析,然后通过数据库搜索算法对蛋白进行识别。许多亚细胞空间(如,细胞质、细胞骨架、核、核仁、细胞膜、线粒体和液泡)的蛋白复合物都是利用HMS-PCI识别。除此之外,通过对酵母基因组序列的信息学分析,人们预测了一些功能还未确定的蛋白的存在,而运用HMS-PCI,许多蛋白(531个)均被识别为这些蛋白的组成成分。细胞信号传导的分子机制在于蛋白激酶和磷酸酶蛋白之间复杂的相互作用和联系,以及许多调节因子的联合作用。比如,负责细胞分裂控制的主要的细胞周期蛋白依赖性的激酶Cdc28(见综述Morgan,1997)
位于一个广泛地蛋白质相互作用网络的中心,这个网络包括Cdc28的细胞周期蛋白伴侣(Cln1、Cln2、Clb2、Clb3和Clb5)和细胞周期蛋白依赖性的激酶结合亚基Cks1(图11.11;Hoetal.,2002)。为了协调处于不断变化的环境中的细胞周期各种事件,细胞周期蛋白依赖性的蛋白激酶通过转导和整合胞内和胞外信号来调节真核细胞的分裂周期(Morgan,1997)。中间蛋白通常联系Cdc28与其它蛋白的相互作用。类似的,HMS-PCI揭示了已知的蛋白质-蛋白质相互作用和一些新的作用,这些新的作用在DNA损伤反应的网络中具有重要的生物意义,包括DNA修复过程和管理细胞周期进程的检验点途径,转录、蛋白降解和DNA修复。除了检测到大多数位于复合体中的已知的核苷酸剪切修复因子,HMS-PCI还揭示了新蛋白的联系,如蛋白磷酸酶2C和还未确定其性质的基因产物Ydr071c。Ydr071c与Rad53(转录因子TFⅡH复合体的成分蛋白,对于RNA聚合酶Ⅱ依赖性的转录和核苷酸剪切修复所必需的)和PP2C类磷酸酶的相互作用暗示了这种功能未知的蛋白在DNA损伤反应特异的PP2C类的磷酸酶调解中起到作用(Hoetal.,2002)。此外,Dun1蛋白激酶被发现与两个生物功能未知的蛋白(Ymr226c和Ygr086c)可以相互作用,这两种蛋白在细胞对应激情况作出反应时诱导表达,所以说明Dun1可以在DNA损伤的细胞活动中起作用。在另一个基于MS对酵母多蛋白聚合物的研究中,Gavin和合作者(2002)使用先后亲和纯化(TAP)标记方法(Rigautetal.,1999)纯化来自不同细胞空间的蛋白复合物,包括膜结合蛋白。简要地说,人们利用同源重组在目标基因的3’端插入含有TAP标签的基因盒,从而得到被标记的目标蛋白。然后用亲和纯化的方法将含有标记基因的复合体从细胞裂解液中纯化出来。凝胶分离的蛋白质被酪蛋白酶消化,消化得到的多肽用matrix-assistedlaserdesoption/ionization-time-of-flight(MALDI-TOFMS)质谱分析。利用TAP/MS的功能基因组的方法分析了1739个基因,其中1143个是人类基因的同源基因(即从一个共同祖先垂直遗传到不同物种的基因,其编码的基因产物在不同物种中执行相似的细胞功能)。这种对酵母蛋白复合体的大规模分析也验证了酵母基因组中1440个ORFs的表达(约占所有编码蛋白的25%)(Gavinetal.,2002)。应用“guiltbyassociation”的概念,即认为具有相似功能的蛋白质会聚集在一起,提出了一些在YPD中没有说明功能的基因和功能已知的基因具有的新发现的细胞功能。纯化得到的蛋白质多聚体被组装成134个新的复合物。在YPD中列出
了每一个复合体的成分蛋白的功能分类(Costanzoetal.,2000),其相关文献也被用于确定多蛋白复合物的细胞功能研究中,这些功能有多个种类:细胞周期(6%),细胞极性和结构(3%),中间和能量代谢(19%),膜的生物合成和更新(9%),蛋白合成/更新(14%),蛋白质/RNA转运(5%),RNA代谢(12%),信号传导(9%)和转录/DNA维护/染色体结构(24%)(Gavinetal.,2002)。酵母蛋白质组在较高水平上的组织图谱有两个主要的主题:(1)复合物的成分可以处于动态变化中,(2)大多复合物不仅仅通过物理上的相互作用联系在一起,还具有共同的调节方式,分布特点,更新或结构(Gavinetal.,2002)。比如在蛋白磷酸酶2A(PP2A)附近合成的细胞信号传导复合物就很好地说明了复合物组成的动态变化。通过标记PP2A中不同的已知成分发现,PP2A可以与不同组合的蛋白结合,形成三聚体。另外,同源基因的产物似乎更易于与主要由其他同源物组成的复合体作用(Gavinetal.,2002)。重要基因的蛋白产物也显示了同样的趋势,所以可能同源物构成的复合体与重要基因产物组成了主要的原核细胞“核心蛋白质组”,负责基本的细胞功能(Gavinetal.,2002)。总之,质谱技术可能特别适用于多蛋白复合体的解析,而综合的双杂交方法则不适合。比较不同的数据,说明与大规模的双杂交研究相比,HMS-PCI方法在探测已知的多蛋白复合体时成功率平均要高3倍(Hoetal.,2002)。相似的,TAP/MS的数据覆盖了YPD中56%的蛋白复合体,而双杂交的研究只占到10%(Gavinetal.,2002)。MS的另一个优点是可以检测到含量低的蛋白,这些蛋白通常只能用表达蛋白质组学的方法被识别。总之,利用MS得到的相互作用高水平的图谱可能更好地反映酵母相互作用组的复杂性。11.5模式真核生物的比较基因组学自由生活的线虫Caenorhabditiselegans的全基因组序列的确定是第一个真核多细胞生物的基因组(TheC.elegansSequencingConsortium,1998)。Caenorhabditiselegans的九千七百万个碱基的基因组序列中含有19717个预测的编码蛋白质的基因,其中只有1877个基因已经进行了经典的遗传学和生化研究(Kim,2001;TheC.elegansSequencingConsortium,1998)。虽然线虫基因组比人类基因组(3000Mb和31000个预测基因)小30倍,但Caenorhabditiselegans
基因的数量只比人类的少1.6倍(Landeretal.,2001;Venteretal.,2001)。通过大量的关于Caenorhabditiselegans的研究,发现其生命活动的许多方面在非脊椎动物和脊椎动物中是保守的。鉴于C.elegans的进化保守性和实验的易处理性,它已成为理想的研究功能基因组学的模式生物(Kim,2001)。大约40%的C.elegans基因与其他生物的基因具有DNA序列同源性,所以关于它的研究对我们了解其他后生动物(多细胞动物)的生命活动具有潜在的意义。自从C.elegans的测序工作开始以来,我们已经得到了果蝇Drosophilamelanogaster(Adamsetal.,2000)、开花植物Arbidopsisthaliana(TheArabidopsisGenomeInitiative,2000)和人类的全基因组序列(Landeretal.,2001;Venteretal.,2001)。A.thaliana全基因组序列使我们可以在分子的水平上全面的理解植物和动物界中的真核生物在生理和结构方面的不同,同时也为我们识别植物特有的基因功能提供了手段,并为研究植物基因的功能打下基础。而且3种模式生物,D.melanogaster、C.elegans和S.cerevisiae全基因组的描述可以用来比较不同门的生物在细胞和发育活动方面的不同,以了解真核生物的进化。这部分集中讨论S.cerevisiae和更高等的真核生物的比较基因组学。C.elegans和S.cerevisiae的同源性及差异S.cerevisiae以及2年后C.elegans全基因组序列的公布使我们在历史上第一次有可能比较两个高度不同的真核物种的全部预测蛋白的序列,S.cerevisiae代表了单细胞微生物,C.elegans代表了多细胞动物。通过识别同源蛋白(即通过垂直遗传从同一个祖先进化来的蛋白,它们具有相同的细胞功能)和共有或独特的蛋白质结构域,Chervitz及其合作者们对线虫和酵母的全蛋白质组进行了计算机比较分析。人们惊奇的发现,酵母和线虫有很大一部分的基因具有明显的,一对一的同源关系:线虫具有2497个酵母ORFs(酵母全部ORFs的40%)的同源物,酵母具有3653个线虫ORFs(线虫全部ORFs的19%)的同源物。两个生物许多核心生命活动都有同源(密切相关)蛋白来执行。酵母和线虫中保守的核心生物功能包括,中间代谢、DNA和RNA代谢、蛋白质折叠和降解以及转运和分泌。其中一些同源基因对,如细胞周期蛋白依赖性的激酶家族中的酵母CDC28
和线虫ncc-1,已经通过实验证实在体内可以互换而不影响功能,所以是功能性保守的。另外,线虫和酵母基因集中在DNA依赖性的RNA聚合酶基因簇中和HSP70热休克蛋白的大基因簇中。两个模式基因组的比较分析也揭示了108个酵母线粒体蛋白在C.elegans中有高度保守的同源蛋白。这些同源蛋白对在线粒体多种活动中具有功能,如TCA循环、电子传递、脂类代谢、氨基酸生物合成,中间代谢、膜转运、蛋白修饰、RNA代谢和蛋白合成。由比较基因组学研究得出的一个重要的推论是,不同的生物如酵母和线虫可以具有相同的核心生物功能,而且在酵母和线虫中保守的蛋白可能在整个真核生物界都具有蛋白同源物。一个重要的引起人们兴趣的问题在于对决定多细胞生命的功能的理解。什么样的蛋白序列和结构域参与了特定的细胞活动,这些活动是多细胞生物特有的,并可能对多细胞生命的起源有作用。在对酵母和线虫的预测蛋白的计算机比较研究中,Chervitz及其合作者发现,许多参与信号转导和调节控制特定活动的已知或者预测的基因在酵母中没有同源物,但有时这些基因含有酵母和线虫中共有蛋白结构域的编码序列。多细胞生物特有的生命活动,如基因表达调控和信号转导,都是由特定的蛋白质进行的,这些蛋白与负责核心活动的蛋白有显著的差异。线虫和酵母蛋白质的比较分析揭示了一些范例,如创造新的结构域、可利用具有特殊信号传导功能的蛋白,对其进行结构域重排(domainshuffling)并对这些变化进行复制。此外,多细胞生命的复杂程度与相对少但很重要的一组调控和信号转导结构域有关,这些结构域只能在C.elegans中找到,在S.cerevisiae中则没有被发现。这些结构域中最重要的例子是胞外信号和粘附分子(如,表皮生长因子结构域)以及程序性细胞凋亡机制中的成分。相似的,一小组调节结构域只在酵母中被发现,包括锌结合簇C6指,一个DNA结合结构域。最后,还有一些在S.cerevisiae和C.elegans中都有保守的调节结构域,但在不同的细胞活动中具有功能。在酵母中,这些保守的结构域在DNA结合或细胞内蛋白-蛋白相互作用中起作用,但在线虫中它们作为细胞外粘附和信号分子,在信号转导途径中行使功能,而信号转导途径在酵母中没有被发现。果蝇、线虫和酵母的比较基因组学随着一些原核和真核模式生物的全基因组序列被测定,我们对区分单细胞生物和更加复杂的多细胞生物的分子基础的了解将
来源于对与细胞发育和活动有关的蛋白家族和结构域,以及细胞内蛋白网络的比较分析。类似的研究开始出现在文献报道中。有研究报道从细胞、发育和进化过程的角度比较了D.melanogaster、C.elegans和S.cerevisiae基因组中编码的蛋白。运用计算机信息学方法确定了果蝇、线虫和酵母的核心蛋白质组,核心蛋白质组是一个生物中众多的不同类型的蛋白质家族。值得注意的是,复杂的线虫D.melanogaster的核心蛋白质组(8065种蛋白)只是简单的单细胞真核生物酵母(4383种蛋白)的核心蛋白质组的2倍。另外,果蝇和线虫在发育和形态上的巨大差异并非因为它们核心蛋白质组的大小的不同(分别为8065和9453种蛋白)。事实上,这是在基因组比较研究中出现的一个主要的问题,不同的线虫的复杂程度并不是通过拥有成比例的更多的基因或者分子成分来达到的。与Chervitz和其合作者对蛋白同源物的研究相似,Rubin和同事发现果蝇、线虫和酵母共同拥有一组蛋白,这组蛋白很可能在所有的真核细胞中行使基础功能。将近20%的D.melanogaster蛋白,在C.elegans和S.cerevisiae中都有一个推定的同源物。另外,744个蛋白家族或结构域是3种生物共同拥有的。果蝇和线虫中的多结构域蛋白被认为比起酵母的相应蛋白复杂得多。典型的蛋白质的结构是镶嵌式的,含有2个或多个不同的可识别的结构域,而且不同的蛋白通常由多个结构域不同的组合构成。C.elegans和S.cerevisiae含有相似数目的可识别的多结构域蛋白(分别是2130和2261),而相比之下酵母拥有很少的多结构域蛋白(672)。这个差异很大一部分因为参与信号传导途径(即,细胞-细胞和细胞-基质的相互作用)的细胞外结构域的存在,而这是多细胞生物的特点。某个种类的蛋白质的增多或者减少可能反映了D.melanogaster、C.elegans和S.cerevisiae生长和发育上的不同。比如,基因组比较研究发现了一类类胰岛素(S1)肽酶在果蝇中很多(199个S1肽酶),而在线虫和酵母中分别只有7个和1个。在人类中,胰岛素相关的肽酶有多种功能,如多个信号转导途径和消化作用,在果蝇中它们的功能可能是相似的。人们推测,计算机比较基因组分析将在多个重要方向上改进我们对多细胞生命分子基础的理解。这些计算机研究也可以为我们设计生化和遗传实验奠定基础,来验证在基因组水平上观察到的差异所具有的生物意义。11.6总结
被测定的基因组,包括被广泛研究的模式生物的基因组的研究中重复出现的一个主题是,很大一部分(如30—50%)可能编码蛋白的基因是功能未知的。功能基因组学和相关的基因技术已经开始使我们可以更快的为还未确定性质的基因在其基因组中确定相应的生物学功能及意义。这章我们集中在结构和功能基因组学对已经被很好地研究的很好的模式生物,E.coli、B.subtilis和S.cerevisiae的转录组学,蛋白质组学和相互作用组(网络)上进行了探讨。功能和比较基因组学可能可以揭示关于E.coli、B.subtilis和S.cerevisiae的研究究竟有什么意义和用处,尤其是如何帮助我们理解更加复杂,但较难在实验上进行控制的生物的基因功能和基础细胞活动。尽管对E.coli和B.subtilis的研究已经有几十年的历史了,但直到它们全基因组测序的完成,这些模式生物仍有30%多的编码蛋白质的基因的生物功能还未搞清楚。测定在不同的环境刺激、生理干扰或者某一个调控基因的突变情况下mRNA数量的改变,可以用来研究已被全部测序的基因组的功能。利用全基因组微阵列技术,研究者已研究了E.coli对热激和氮缺乏反应中的转录组的动态变化。通过全面的基因表达图谱,一些新的热休克刺激因子和NtrC调节子的成员被识别,其中许多是编码功能未知的蛋白质的基因。类似的,转录组学的分析已经调查了B.subtilis对热激反应中、生长和孢子形成过程中全基因组的表达情况。此外,运用DNA微阵列人们研究了B.subtilis的双组分系统中反应调节因子对应的调节子。这些研究都说明了与传统的遗传技术结合的功能基因组技术是怎样帮助我们检测到功能未明的双成分调节系统中大部分的可能的目标基因,从而为这些磷酸根中继系统在细胞的信号转导网络中所起到的作用提供线索。蛋白质组学研究中主要的生物问题是,细菌细胞通过调整蛋白质组的成分来适应不断改变的环境条件,对蛋白质组学的研究可以用来加强并支持由基因组序列分析提供的预测性的信息。比如,对B.subtilis的胞外蛋白组学的研究已经有很多证据说明这种土壤模式生物分泌了大量的蛋白质,主要是降解酶,使细菌可以从许多种类的底物中得到营养并在不断变化的环境中得以生存。蛋白组学的分析,像基于微阵列的转录图谱一样,可以暗示在细胞活动中起作用的一些假说蛋白的存在。基因组和蛋白质组的信息都可以整合到一个框架中,这个框架被用于复杂代谢途径的计算机建模,这个领域被叫做计算代谢组学。很久以来S.cerevisiae
被认为是高等真核生物的模型,人们期望关于这种简单的单细胞真核生物的研究可以帮助我们理解更复杂的多细胞生物的基本的细胞活动以及人类遗传疾病的分子基础。如,酵母蛋白质组中有46%的已经被识别的人类蛋白质的结构同源蛋白。基因组测序和对调控网络的描述揭示了许多还没被研究过的新酵母基因,而基因组范围内的转录图谱和蛋白质组描述加速了对这些1/3的基因的生物功能的确定。除了转录组学和蛋白组学信息,对蛋白质-蛋白质相互作用的全面描述对我们在分子水平上理解细胞是必需的。传统上,酵母双杂交系统被用于绘制大范围的蛋白-蛋白相互作用图谱。最近高通量、高敏感的MS方法开始被用于绘制更高级别的蛋白质相互作用图谱,更能反映酵母相互作用组的精细的复杂性。图表说明:图11.1用功能基因组学方法和综合技术阐明模式生物的细胞区域。最近模式生物大量基因组序列数据的获得促使对总体mRNA水平进行系统的分析,以应对环境和生长条件的多样性,编码蛋白的含量,以及代表细胞功能和代谢网络的蛋白相互作用网络。图11.2E.coli外膜的蛋白分析(Molloyetal.,2000)。(a)在碳酸盐处理的膜上,通过双向凝胶电泳将E.coli蛋白分离,用质谱鉴定。被鉴定的整合外膜蛋白已在双向凝胶电泳图中用粗体标出。外膜脂蛋白用粗体加下划线标出。(b)在离子限制的条件下生长的E.coli细胞先用碳酸盐处理,然后用双向凝胶电泳分离。(来自Molloyetal.,Eur.J.Biochem.,vol.267.2000)图11.3
用已有基因组序列,生理生化数据重建微生物代谢网络。以基因组序列为框架,再结合生理生化实验数据,能够在芯片上构建细菌代谢途径的信息。第一步,利用现有的相关基因组数据,生理生化数据重新构建微生物的代谢图谱。第二步,给代谢功能限制条件。第三第四步中,在细胞水平限制条件,以缩小符合要求的表型范围。通过这些步骤来预测代谢表现。(例如,可以预测基因删除后对细胞和生物化学结果的影响)图11.4见彩色插入框。对微阵列得到的586个Bacillussubtilis基因的转录图谱进行分级分析,这些基因的表达水平依赖于Spo0A(Fawcettetal.,2000)。具有相似表达图谱的基因归为一类。如图所示,这些基因共分为三大类:(1)依赖于Spa0A但是不依赖于σF表达的基因;(2)表达受到Spo0A阻遏的基因;(3)受σF控制或者一些能够形成孢子的下游转录因子控制的基因。每一大类的代表基因均在图右侧表明。红色和绿色分别代表高低不同的mRNA表达水平。图11.5一种功能基因组学方法的示意图,这种方法被用于识别Saccharomycescerevisiae(酵母)中Zap1p锌反应调解子中的靶基因。这种策略发现了46(阴影部分)个可能的Zap1p靶基因。(自T.J.Lyons,A.P.Gasch,D.Batstein,P.O.Brown,和D.J.Edie.Genome-widecharacterizationoftheZap1pzinc-responsivereguloninyeast,PNAS97:7957-7962.2000)图11.6基因转录的核小体抑制可以发生在很多阶段,包括转录因子结合、起始前复合物的形成或转录延伸阶段(自Workman和Kingston,1998)。多蛋白复合体,如Swi/Snf,帮助激活蛋白与上游元件(USEs)的结合,并启动RNA聚合酶Ⅱ(polⅡ)穿越核小体的转录延伸。图11.7见颜色插入条。这是一个评估Rvb失活对全基因组影响的研究中(Jonsson等,2001),全基因组芯片数据的等级聚类分析结果(见第7章)。聚类图像的右边是Rvb1p和Rvb2p被除去后表达水平受到影响的酵母基因。绿色和红色分别表示mRNA丰度的下降和上升。(复印得到许可,Z.O.Jonsson等,Rvb1pandRvb2pareessentialcomponentsofachromatinremodelingcomplexthatregulatestranscriptionofover5%ofyeastgenes,ThejournalofBiologicalChemistry,26:16279-162882001)图11.8Saccharomycescerevisiae蛋白质组的亚细胞分区。图中显示了每个区域不同膜蛋白和可溶性蛋白在蛋白质组中的比例。(数据来自于Kumar等,2002)。图11.9酵母蛋白激酶蛋白芯片的制作和分析(Zhu等,2000b)。(A)蛋白芯片的制作:将PDMS倾倒在丙烯酸模具上,待凝固后将形成的小孔板放在载波片上。小孔的表面被修饰,然后与蛋白结合。(B)使用蛋白芯片检测激酶活性。图中显示了12种底物的磷酸化信号的图像。(来自H.Zhu等,Analysisofyeastproteinkinasesusingproteinchips,NaureGenetics,26:283-2892000)
图11.10Saccharomycescerevisiae中参与纺锤体极体形成的蛋白的亚生物网络模型。这个网络是酵母interactome(相互作用组)的一部分,图中描述的网络中的蛋白质-蛋白质的相互作用源于双向杂交分析的结果。蛋白质相互作用的方向性用箭头标出。黑框格中的蛋白是功能未知的假定蛋白(来自T.Ito,T.Chiba,R.Ozawa,M.Yoshida,M.Hattori,andY.Sakaki,Acomprehensivetwo-hybridanalysistoexploretheyeastproteininteractome,PNAS,98:4569-4574.2001)图11.11信号转导通路中Cdc28和Fkh1/2复合物之间的蛋白质-蛋白质作用示意图。箭头由诱饵蛋白指向其相互作用伙伴。实线黑色箭头表示已知的相互作用。灰色虚线箭头表示由高通量质谱蛋白复合物识别(HMS-PCI)系统确定的新型相互作用(修改自Y.Ho等,SystematicidentificationofproteincomplexesinSaccharomycescerevisiaebymassspectrometry,Nature,415:180-1832002)