• 64.50 KB
  • 13页

《生物信息学》学生复习资料

  • 13页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
《生物信息学》复习资料陈芳宋东光教材:《生物信息学简明教程》(钟扬编)1绪论分子生物学与计算机、信息科学的结合-生物信息学(Bioinformatics);Bioinformaticsisthescienceofstoring,extracting,organizing,analyzing,interpreting,andutilizinginformationfrombiologicalsequencesandmolecules.生物信息学及其分支学科分子生物信息学(molecularinformatics)-即狭义的生物信息学,指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据;生物信息学(bioinformatics)-广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;计算分子生物学(computationalmolecularbiology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题,侧重于发展理论模型和有效算法;分子计算(molecularcomputing)-将DNA作为一种信息储存器,应用PCR技术和生物芯片等来进行计算。生物信息学的主要目的不是分子发展最精致的算法,其目的是发现生物体以怎样的方式生存。生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型,到实现数据分析的新算法,以及开发数据库和访问数据库的Web工具。生物信息学的功能是表示、存储和分布数据。开发从数据中发现知识的分析工具处于第二位。生物信息学发展阶段与研究方向前基因组时代-数据库建立、检索工具的开发和蛋白质序列分析;基因组时代-基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代-大规模基因组分析、蛋白质组分析、各种数据的比较和整合。面临的主要挑战:1)互操作的生物信息系统及相关数据挖掘技术;2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法;3)开发数据转换工具,建立预测模型;4)开发微阵列和基因芯片等新技术的数据分析工具。我国生物信息学研究的发展方向建立国家生物医学数据库与服务系统人类基因组的信息结构分析功能基因组相关信息分析研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制生物信息学基本方法与前沿技术基本方法 1)建立生物数据库2)数据库检索3)序列分析4)统计模型5)算法前沿技术1)数据管理技术2)数据仓库、数据挖掘与数据库中的知识发现技术3)图像处理与可视化技术生物信息学的应用生物信息的经济价值与生物信息学市场基因组分析基因芯片药物开发其他应用领域生物信息学的主要研究领域及其应用前景生物信息学(bioinformatics)-广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;生物信息学发展阶段与研究方向前基因组时代-数据库建立、检索工具的开发和蛋白质序列分析;基因组时代-基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代-大规模基因组分析、蛋白质组分析、各种数据的比较和整合。面临的主要挑战:1)互操作的生物信息系统及相关数据挖掘技术;2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法;3)开发数据转换工具,建立预测模型;4)开发微阵列和基因芯片等新技术的数据分析工具。我国生物信息学研究的发展方向建立国家生物医学数据库与服务系统人类基因组的信息结构分析功能基因组相关信息分析研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制生物信息学的应用前景生物信息的经济价值与生物信息学市场基因组分析基因芯片药物开发 其他应用领域2生物信息学的计算机基础数据管理与数据库技术数据库是以一种能够保存持久并可以被操作的方式来保存的数据集合。包括文本文件、电子数据表格和图象。数据库系统由一个数据库和周围的环境,包括软件、操作系统、硬件和使用它的用户所组成。计算机网络与Internet计算机网络是为了资源共享和信息交流的目的而互相连接起来的计算机的集合。互联网络(Internetwork)是指通过中间设备连接的多个网络的集合,形成覆盖范围更广的计算机网络。网络分类根据距离分类:局域网(LAN,LocalAreaNetwork)-连接小范围内的计算机,一般系统覆盖半径为几百米到几公里,是随着PC机的发展而发展起来的;广域网(WAN,WideAreaNetwork)可以连接地理位置比较分散的计算机,Internet是最大的WAN,连接了不同大洲的数百万个网络.介于二者的是城域网(MAN,MetropolitanAreaNetwork).Internet提供的服务Telnet:主机远程登录;FTP:文件传输;Email:电子邮件;Usenet:新闻组;WWW:万维网.数据仓库和数据挖掘Datawarehouse:面向主题的、集成的、持久的、历史的数据集合。从各种数据资源中获得原始数据→按辅助决策的主题要求形成当前基本数据层→按综合决策要求形成综合数据层→由时间机制转为历史数据层;KDD:knowledgediscoveryindatabase,从数据中发现有用信息和模式的过程,包括数据选择-预处理-转换-数据挖掘-解释或评价-knowledge;Datamining:利用算法对KDD过程获得的信息和模式进行提取,对隐藏信息进行预测性的或描述性的模型匹配.数据挖掘的基本技术包括分类(classification),回归(regression),时序分析(timeseriesanalysis),预测(prediciton),聚类(clustering),概括(summarization),关联(association),顺序发现(sequencediscovery)等.3生物信息学资源与数据挖掘生物信息学资源基因组信息蛋白质信息整合生物学信息分子数据挖掘工具序列相似性查询软件-BLAST序列查询和模式识别数据挖掘工具 生物信息学资源查找科学文献几乎每种主要的期刊都有自己的Web站点,网上也有很多文献数据库,如NCBI的Medline数据库(PubMed)等。PubMed介绍PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE、Pre-MEDLINE数据库的网上检索系统(www.ncbi.nlm.nih.gov/entrez)。MEDLINE是美国国立医学图书馆(U.S.NationalLibraryofMedicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。收录了全世界70多个国家和地区的4000余种生物医学期刊,现有书目文摘条目1000万余条,时间起自1966年。虽然是世界范围的,但是大多数记录是从英语资料(87%)或有英文摘要(72%)的文献中获得的。PubMed使用以关键词为基础的搜索策略,允许逻辑运算符AND/OR/NOT,用户可以使用Mesh(MedicalSubjectHeading)查找。Mesh是一个标准词库,可用来帮助查找用不同名称代表同一概念的文献。可用Mesh浏览器查询相关的Mesh词。基因组信息DNA测序双脱氧测序(ddNTPs)(Sanger1977)自动测序(荧光标记引物)毛细管测序:提高100倍(2005)基因组测序1)YAC,BAC(>100Kb)文库->作图找到重叠片段,测序2)鸟枪法测序:对所有克隆进行测序然后通过计算机进行片段重叠连接。cDNA文库测序:ESTs(expressedsequencetags).提交序列到数据库BankIt:submittoGenBankbyWebSequin:localPCprogram->GenBankEmail:gbsub@ncbi.nlm.nih.govGenBankGenBank是美国国立卫生研究院(NIH)维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心(NCBI)建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放分类检索:用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。同源性(homology):定性。同源序列指从某一共同祖先经趋异进化而形成得不同序列。 相似性(similariy)::定量。通过序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。相似性检索:用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。用FTP下载整个的GenBank和更新数据。序列格式GenBankflatfile(GBFF)是GenBank数据库的基本信息单位.GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。蛋白质信息蛋白质序列和结构分为3个层次:氨基酸序列-一级数据库,基序(motif)-二级数据库,结构域(domain)-结构数据库。二级和三级数据库为DerivedDatabases。蛋白质数据库先于核苷酸数据库。在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”。这一蛋白质数据库后来成为PIR(ProteinInformationResource).一级数据库记录了实验结果,以及一些初步的解释。在DNA序列记录中的一种常见的注释是编码序列(CDS).大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。蛋白质一级数据库主要包括:PIR,MIPS,SWISS-PROT,TrEMBL,NRDB,OWL,MIPSX等。二级数据库(SecondaryDB或PatternDB):包括PROSITE,PRINTS,Pfam,BLOCKS,IDENITIFY等。三级数据库:包括SCOP,CATH,PDBsum等。分子数据挖掘工具大量的序列和文献数据必须经过人工或计算机的处理分析才能提取出有用的信息,因而近年来数据挖掘技术的应用在基因表达分析等领域得到了广泛的开展。数据挖掘不同于传统的数据库查询语言,数据库的数据须经过调整以利于进行知识挖掘,提取的结果不是数据库中的元数据,因此,数据挖掘采用多种算法去完成一定的任务,可以对隐藏信息进行预测性的或描述性的模型匹配。数据挖掘的基本技术包括分类(classification),回归(regression),时序分析(timeseriesanalysis),预测(prediciton),聚类(clustering),概括(summarization),关联(association),顺序发现(sequencediscovery)等。序列相似性查询软件Globalsimilaralgorithmswhichoptimizeoverallalignmentbetweentwosequences(dynamicprogramming)Localsimilaralgorithmswhichseeonlyrelativelyconservedpiecesofsequence(FASTA,BLAST)BLAST:BasicLocalAlignmentSearchToolBLASTN,BLASTP,BLASTX,tBLASTN,tBLASTPblastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。 tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。4DNA序列分析基因结构与DNA序列分析EST分析cDNA文库EST数据库EST聚类分析电子克隆全长cDNA序列比对分析全局和局部排列CLUSTAL软件基因结构与DNA序列分析电子克隆cDNA全长序列Virtualcloning:利用重叠EST序列通过计算机EST数据库搜索进行拼接获得全长cDNA.通常使用BLAST进行检索,然后进行重叠片段拼接。Sequencealignment序列比对是比较两个(pair-wisealignment)或多个序列(multiplesequencealignment)找出单一字符或字符模式在序列中处于相同的顺序。将两序列排成两行,相同字符按列对齐,错配字符亦可按列或以空格对齐。很容易对齐的序列认为是相似的(similiar).全局比对(globalalignment):用于比较十分相似且长度几乎相等的序列,比对大部分碱基.局部比对(localaligment):比较序列中的最高密度配对字符,获得一个或多个亚比对顺序(subalignment),用于比较有部分相似的序列,其他部分不相似、长度不同、或具有保守区段或结构域的序列。序列比对的重要性序列比对用于发现生物序列的功能、结构和进化的信息,获得最佳比对(optimalalignment)才能做到.很相似的序列往往可能具有相同的功能,如DNA分子的调控作用,蛋白质分子的相似生化功能或三维结构。来自不同生物相似的两个序列可能具有相同的祖先序列,或称为同源的。新的基因进化认为是通过基因复制(geneduplication)产生前后两个拷贝并发生突变,极少的机会其中的一个拷贝的新突变功能上可能更有利,然后沿不同途径进化,形成的两个基因家族仍是相关的且很相似因为具有共同的祖先,由于基因重排(generearrangement)会引起蛋白质结构域进行重新配对而导致形成更复杂的蛋白质其进化关系可能难以辨认。Orthologs(垂直进化-直系同源):具有共同祖先及功能的同源基因但找不到基因如何复制的证据(有复制证据而同源基因来自一个具有相同功能的拷贝时亦称Orthologs);Paralogs(平行进化-并系同源):复制产生的两个拷贝及其各自进化的后裔;Analogous(类似):不具有相同祖先但通过独立进化途径而聚合了相同的功能称为聚合进化(convergentevolution),如chymotrypsin和subtilisin的空间结构和折叠完全不同但其活性部位具有相似的结构特征;Xenologous(外源的-异同源):通过基因水平转移(共生、病毒转导)而产生的相 似序列。DotMatrix序列比对点阵比对方法应作为序列比对的首选,因为它可以很快反映序列的插入/缺失和正向/反向重复。但多数程序(DOTTER,DNAStrider,DOTPLOT,COMPARE)不能很好确切的表示比对。比对采用对角线来比对两个序列,用滑动窗口来过滤随机的配对,窗口大小可以改变。DynamicProgramming许多计算机科学的问题都可以简化为通过图表寻求最优路径,对每一种路径都有必要对其进行某种意义上的打分,通常是对沿这一途径的每一步的增量进行加和.假定相同残基加正分,有插入或缺失的残基就加负分(扣分)根据这一定义,最合适的比对方法会得到最高分,也就是我们寻找的最佳路径。动态规划的思想是这样的,如果一条路径终止于最佳路径上的一点,那么这条路径本身就是起点到这个中间点的最佳路径,即任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身.这样,最佳路径就可以通过把各个最佳的次级路径连接而成。Needleman-Wunsch算法:最佳比对必然对每个序列都由始至终,就是说从搜索空间的左上角直至右下角。换句话说,它搜索全程比对。Smith&Waterman算法:把寻找K种最好的但不相互交叉的比对方式为目标,寻求局部比对时可能会发现若干个重要的比对。PAM记分矩阵序列比较往往希望找到序列的共同祖先是如何经过突变和选择的。基本的突变过程认为是取代(substitutions)-序列中的残基改变,以及插入或缺失(insertionsanddeletions).自然选择过程筛选突变因而某些突变比其他较为常见。PAM120,PAM80,PAM60分别用来比对序列间有40%,50%及60%相似性。PAM250用来比较较远如只有14~27%相似性的蛋白质较合适。用PAM矩阵进行比对可以统计地区分偶然或具有生物学意义的比对。通常不需要先知道序列相似程度,而无空格比对在使用合适PAM矩阵时达到最佳。有时可以使用几种矩阵的组合,或使用一个矩阵而调整打分的参数可以比对相距较远序列(主要用于数据库搜索)。PAM矩阵比一些简单的矩阵可能更逊色如基于侧链化学基团的矩阵,而且PAM用于构建进化树关系方面不理想。BLOSUM矩阵用于比较较远蛋白质序列更为有用,因为其基于大量蛋白质的数据。BLOSUM取代矩阵BLOSUM62取代矩阵(Blocksaminoacidsubstitutionmatrices)基于大量约2000种保守氨基酸patterns(blocks,来自Prosite数据库)中出现的氨基酸取代而获得的记分矩阵(Henikoff1992)。60%相同的patterns获得的称为BLOSUM60,80%相同的称为BLOSUM80.BLOSUM62代表了信息含量与数据大小的平衡,即聚类比率升高,区分真实与偶然的比对的能力亦提高。PAM模型用于追溯蛋白质的进化途径,而BLOSUM模型用于发现保守结构域。同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。Clustal的渐进比对:在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对 ,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。世界上最权威的三大生物数据平台GenBank数据库:1979年欧洲分子生物学实验室(EMBL):1982年日本核酸序列数据库(DDBJ):1984年5分子系统发育分析分子进化的基本概念核酸或蛋白质谱系的系统发育分析是推测同一谱系是如何通过进化而来的。序列的进化关系可以描述为树的分枝,枝条反应进化关系远近,很相似的两个序列放在邻近并由共同祖先分枝连接。这个进化树描述了同一谱系的进化关系,包括了分子进化(基因树)、物种进化以及分子进化和物种进化的综合。同源性当两个序列具有进化关系时,两序列同源(homologous).类群(group)祖先类群(ancestralgroup)单系类群(monophyleticgroup)并系/复系类群(paraphyletic/polyphyleticgroup)内/外类群(ingroup/outgroup)姊妹群(sistergroup)基因组复杂性与系统发育分析进行系统发育分析时,需考虑大多数基因组的起源是很复杂的,基因组的部分可能是通过正常生殖循环垂直进化的,其他部分可能由遗传物质的水平转移如病毒、DNA转化、共生和其他转移机制而来的。进行发育树分析时,选择的基因应该在所有生物体中出现且在多数物种中可以通过序列保守性来辨认,同时有足够的序列变异将不同生物体划分为相同系统发育的类群,另外最好该基因不处在选择压力下即不易丢失变异.符合以上条件的序列只有小rRNA亚基和线粒体序列。其他基因家族的系统发育分析则复杂些因而提出了不同的模型。进化树:是一个反映生物体或不同生物体的某些基因的进化关系的二维图。进化树均是二分树(binary),分开的序列称为类群(taxa),是系统发育树的明确单位。树由向外伸展的枝条或叶片代表taxa,节点和枝干代表taxa间的关系。每个节点代表基因经过分开的进化途径进入两个不同生殖隔离的物种。枝干长度代表序列的差异数目.建树方法常用的有:maximumparsimony(简约法),distance(距离法),maximumlikelihood(最大似然法).Maximumparsimonymethod(MP,最大简约法)也称最小进化法(minimumevolutionmethod),通过减少产生序列观察差异的步骤来预测进化树。多序列比对是必要的,利用尽可能少比对序列上各个位置 的改变预测发育树,并找到最好的发育树。主要用于序列数较少且很相似的序列。Distancemethod(距离法)距离法根据一组序列中的每对序列差异的数目产生发育树。具有最小差异的序列对称为“邻居(neighbors)”,它们在树上的同一节点或具有相同祖先,分别以树枝表示。距离法找到组内最近的邻居的方法亦是multiplesequencealignment使用的第一步。距离法最早由Feng&Doolittle(1991)提出,可以同时产生蛋白质序列的比对和发育树。CLUSTALW程序利用neighbor-joiningdistancemethod,PAUP和PHYLIP亦有使用距离法获得发育树。Distancemethod将序列间距离相加以获得树枝长度,树枝上的改变数目对应于序列间的距离。Fitch&MargoliashMethodF&M(1987)使用距离表(distancetable),将序列以3个一组进行处理计算分枝长度预测发育树.树枝长度亦是加性的,对于短树枝树来说是最准确的。较长树枝则降低可靠性。Neighbor-joiningmethod(NJ,邻接法)NJ法与FM法相似但利用不同算法找出序列对,用于预测不同谱系进化速率不同时的发育树比较可靠。首先计算序列间的距离然后计算树枝长度总和,获得星状树,求得总和最小的树的两个序列即可以认为是邻居.UPGMA(算术平均不加权对群法)UPGMA(unweightedpairgroupmethodwitharithmeticmean)是聚类常用的方法。UPGMA认为树枝的改变速率是一个常数其距离近乎相等(ultrametric)。将序列配对或聚类的方法很多且各异,通常首先计算最相关的序列将其树枝长度(branchlength)平均,再与另一序列或cluster平均,直到所有序列都进行了计算并得到树根。当树枝的突变率不一致时得到的树容易出错。选择外类群(outgroup)如果已知某些序列相关程度较远,可以将其加在最后接近树根,这样可以提高预测的准确性。这些序列称为外类群。但是,外类群序列必须与其他序列密切相关,又与其他序列保持显著的差异(其他序列本身则较近)。将序列相似性转换成距离分值大多数序列比对只是确定序列间的相似程度而不是距离,最简单的打分体系即相似性(similarity)描述了序列比对中匹配的位置而距离为不匹配位置的数目,是可以通过转换为另一个序列的位置。说明这些改变是共同祖先序列分枝产生的。Maximumlikelihoodapproach(ML,最大似然法)ML利用概率计算找出差异序列的最佳发育树。ML分析多序列比对的每个列,考虑所有可能的树,因而只能对少数序列有效。对于每个树,引起序列变异的序列改变或突变是要考虑的,由于出现新突变的频率是很低的,因而需要更多的突变树才能与数据吻合的树是不太可能的。进化树构建的主要方法、各自的原理及优缺点距离建树方法:利用双重序列比对的差异程度进行建树;最大简约法:进化往往会走最短的路-----DNA序列发生的碱基替换数量最少最大似然法:进化会走可能性最大的路1)距离建树方法(非加权组平均法UPGMA,相邻归并法Neighbor-joining,NJ( 优点:快速),Fitch-Margoliash(FM)(优点:允许OTU(操作分类单位)间存在不同的进化速率))原理:根据双重序列比对的差异程度(距离)优点:使用序列进化模型、计算强度较小缺点:屏蔽了真实的特征符数据。2)最大简约法原理:最能反映进化历史的树具有最短的树长(treelength),即进化步数(性状在系统树中状态改变的次数)最少。即:DNA序列发生的碱基替换数最少。3)最大似然法原理:首先选定一个进化模型,计算该模型下,各种分支树产生现有数据的可能性。具有最大可能性的系统树为最优。即一个树的似然性(likelihood)等于每一个性状的似然性之和或每一个性状的似然性对数之和。优点:完全基于统计,在每组序列比对中考虑了每个核苷酸替换的概率,使用越来越普遍缺点:计算量非常大,缺乏普遍适用的替换模型(不同的替换模型给出不同的结果)基因进化树与物种进化树的区别基因树(genetree):基于一种或少数几种同源基因(蛋白)的比较分析而构建的系统发生树,其实质是基因的进化历史。物种树(speciestree):综合考察物种多方面的进化证据而构建的系统发生树。物种树一般最好是从多个基因数据的分析中得到。例如最近的一项的研究表明,高等植物进化研究需要采用100种不同的基因来构建物种树,才有较高的可信度。6基因组分析Introduction自90年代全基因组测序如微生物、酵母(Saccharomycescerevisiae)、秀丽线虫(Caenorhabditiselegans)、拟南芥菜(Arabidopsisthaliana)、果蝇(Drosophila)和人类(Homosapiens)开展以来,生物信息学的一个主要任务即是进行全基因组分析。其他的基因组计划亦已开展。经典遗传学和分子生物学只是研究某个单一基因的作用、对其测序并预测其功能或对其表达进行控制。而获得基因组全序列则可以鉴定控制代谢、细胞分化和发育、动植物病理过程等的重要基因及其相关基因。多年来对模式生物E.coli,S.cerevisiae,A.thaliana,D.melangogaster的遗传和生化研究已积累了大量的关于基因结构和功能的信息,老鼠Musmusculus则是研究人类基因的主要动物模型因其在进化上密切相关。Prokaryoticgenomes:原核基因组测序前提:1)已进行过很好的生物学分析,如E.coli;2)为重要的人类病原菌;3)具有发育树重要性(rRNA-Archaea,Bacteria,Eukarya)。Eukaryoticgenomes真核基因组特点:顺序重复(sequencerepeats):5-200bp,卫星DNA,端粒和着丝粒DNA,小卫星DNA(minisatellites,25bp),微卫星DNA(micro~,4bp或更少)。转座因子(transposableelements,TEs):从一个染色体移到另一染色体,其不断增加数目可占基因组的很大部分。Retroposons:SINEs(shortinterspersednuclearelements,80~300bp)& LINEs(longinterspersednuclearelements,6~8kbp)。人类一个典型的SINEs即Alu(1.2millioncopies),一个LINE1(593,000copies,14.6%)。脊椎动物染色体具有长的区段(>300bp)其富含GC,重复,基因密集称为isochores(等容线),亦即基因组由特异的确定(distinct)区段组成。如人和鼠有富含AT并有较多的Alu或B1/B2(SINEs),以及具有高基因密度的富含GC区段。真核生物基因结构内含子:蛋白质编码基因均有不同长度和数目的内含子插入且位置一般是固定的,酵母很少整个基因组仅含239个内含子,而人类基因可能含100个内含子占基因长度的95%。Comparativegenomics比较基因组学包括对原核和真核生物的基因数目、基因容量、基因位置进行比较分析,全基因组序列的获得可以将其编码的蛋白质,蛋白质组与其他物种比较。序列比较可以获得基因关系的信息-具有相同功能和进化历史,称为orthologs。如果一套基因归属一组并集中在染色体的特定位置,且另一物种的一套相似基因亦归于一组,则它们具有相同进化历史。HorizontalGeneTransfer(HT)垂直传递(verticaltransmission):大多数物种的基因组由父母的染色体传递给子代。基因水平转移(horizontaltransfer-HT,orlateraltransfer):从其他物种获得遗传物质-典型例子如线粒体和叶绿体的内共生。HT不经常发生,有时经历了上千万年。基因的功能分析(Functionalclassification)Geneannotation:精确基因注释是基因组分析重要的第一步,注释通常是通过数据库相似性搜索找到与已知功能序列的显著比对。不很显著的匹配只能作为一种假设的预测并作为一种功能的假说(MAGPIE,GENEQUIZ)。功能注释:同一物种内很相似基因称为paralogous序列通常具有相关的生物学功能。说明paralogs通过geneduplication其中一个拷贝保留原来的功能而另一拷贝在进化压力下经过选择获得了新的功能但不太远。E.coli的90%以上基因初步归于8个相关的组包括enzymes,transportelements,regulators,membranes,structuralelements,proteinfactors,leaderpeptidesandcarriers.GeneOntology(GO)分类:molecularfunctions,biologicalprocesses,andcellularcomponentsGlobalGeneRegulationMicroarrayanalysis:了解基因在细胞周期、发育时期、环境胁迫下诱导表达或抑制的情况,在相同条件下表达的升或降的基因系列其常常是相关的。Microchip将物种的所有基因制备成寡核苷酸探针铺于80x80载玻片上(也可以直接合成于载玻片上,密度达到1million/cm2),然后与标记的cDNA杂交,标记的量可反映基因表达情况。获得共表达基因序列芯片结果后,进一步分析这些基因的启动子区段找出保守模式并推测哪些转录因子参与基因表达的调节。基因芯片(genechip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。7蛋白质组分析 蛋白质组-一个基因组所编码的全部蛋白质成分。蛋白质组分析的主要内容有:1)蛋白质组作图、蛋白质组成分鉴定、蛋白质组数据库构建、新型蛋白质发掘、蛋白质差异显示、同工型(isoform)比较;2)功能基因组计划、基因产物识别、基因功能鉴定、基因调控机制分析;3)重要生命活动的分子机制;4)医学靶分子寻找与分析;5)疾病诊断。蛋白质组分析技术技术路线:主要包括样品制备、图象分析、蛋白质成分分析与鉴定。数据处理:氨基酸分析、肽质指纹图谱(PMF)、氨基酸分析与PMF联合、序列标签途径、N端EDMAN降解蛋白与微量测序、蛋白质内肽微量测序、MS(MALDI-TOF,ESI)微量测序、“LADDER”测序等。2-DE双向电泳技术2-DE-蛋白质组研究中分离复杂蛋白质混合物的核心技术,能够同时分离成千蛋白质。2-DE的分辨率取决于在两维上的长度,与有效的分离面积成正比。重复性是限制2-DE广泛应用的主要问题。自动化、凝胶图像分析等仍待提高。蛋白质鉴定的质谱方法蛋白质鉴定途径Edman测序法在80年代中期出现自动化蛋白质测序仪后成为蛋白质鉴定的主要方法-N端逐步降解,对每步释放的衍生化氨基酸进行反相HPLC分离、UV检测。电泳分离蛋白质电转印到PVDF膜再进行Edman测序分析,但N端封闭后则不能进行测序,可选择中间肽段测序。MS(massspectrometry)质谱分析通过质谱数据与序列数据库相关分析鉴定蛋白质:蛋白质的氨基酸组成、氨基酸序列、蛋白质和肽段的质量以及肽碎片的质量。分子的精确质量可以用MS快速、灵敏、高精度地测定。MS只限于检测能够形成离子并被送入真空系统的分子的质量-电喷雾电离(ESI,1989)和基质辅助激光解吸/电离(MALDI,1998)技术的发明使得质谱可用于分析生物大分子如蛋白质、核酸和糖类。domain,fold,motif31、蛋白质的各级结构的定义Domain:指具有特定且相对独立的三维立体结构、而且能够独立完成某种功能的蛋白质的一部分,但有时候也泛指蛋白质序列的一部分。Fold:蛋白质基本三维结构,包括:(1)二级结构元件(2)元件之间的顺序连接(3)元件之间的相对空间位置Motif:模体,在DNA或蛋白质序列上保守的短片段,或蛋白质结构上普遍存在的保守立体结构元件。一级结构:氨基酸序列;二级结构:局部多肽链借助氢键排成特有的规则结构;如α螺旋,β-折叠等等三级结构:由远程肽段折叠而产生,一般指多肽链的独立折叠单位经多重盘绕、折叠形成由各种次级键维持的球状结构。简单蛋白质的三维空间结构,或复杂蛋白质亚基的三维空间结构。四级结构:由若干亚基组装成复杂蛋白蛋白质家族、蛋白质超家族蛋白质家族(family):aregroupsofproteinsthatdemonstratesequence homologyorhavesimilarsequences.(一般成员之间的序列相似性超过40-50%以上,进化上可能共同起源于同一祖先蛋白)。主要是从量上面讲,即序列相似性很强的一系列蛋白质蛋白质超家族(superfamily):Consistofproteinsthathavesimilarfoldingmotifsbutdonotexhibitsequencesimilarity.成员之间的几乎不存在序列相似性,但在结构组成上有相似的折叠模体构成。主要是从性上面讲,即序列功能、结构很相似,但序列却不相似的一类蛋白质蛋白质折叠过程中的关键作用力1)氢键(hydrogenbond):N-H和O-H等具有很大的偶极矩,H核裸露而带正电荷,而与电负性强的原子之间的静电吸引。在稳定蛋白质的结构中起着极其重要的作用。2)范德华力(vanderWaalsforce):作用力较弱,包括:定向效应、诱导效应和分散效应3)疏水作用(hydrophobicinteraction)(熵效应):在水溶液中,蛋白质分子的疏水基团或侧链为避开水分子,而被迫埋藏与蛋白质分子的内部,并彼此相互接近,构成疏水内核。4)离子键:它是带正电荷与带负电荷基团之间的一种静电相互作用。5)二硫键:二硫键是由蛋白质的两个半胱氨酸之间配对形成的一种共价键。二硫键的形成是蛋白质折叠过程中的重要步骤,其形成动力学影响蛋白质折叠的速率和途径,它的错误配对是影响蛋白质多肽链正确折叠的重要原因。二硫键的存在对于维持蛋白质空间结构稳定性,保持其生理活性具有至关重要的意义。