• 2.25 MB
  • 100页

生物信息学数据库检索

  • 100页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
生物信息学数据库信息检索教研室薛晓芳2010年11月2日 生物信息学概念生物信息学是对生物学数据进行收集、处理、存储、检索和分析的一门交叉学科研究生物信息的采集、处理、存储、传布、分析和解释等各个方面,通过综合数学、计算机科学和生物学的工具与技术来揭示大量而复杂的生物数据所赋有的生物学奥秘研究目标是发展和利用先进计算技术解决生物学难题 生物信息学数据库大量生物学数据的存储和利用离不开数据库用于结构化存储生物数据,以便进一步对数据进行分析和利用 数据库的数据来源两大主要来源经典的生物医学研究:大量生物医学科研工作者根据自己的兴趣开展的个别研究大规模组学研究:代表性工作是大规模人类基因组学和蛋白质组学研究 经典生物医学研究针对某较小领域开展深入研究,采集的生物学数据对大量零碎的生物学数据,进一步收集、整理和利用,对推动生物医学的研究有重要意义最具代表性的是KEGG数据库,该数据库整理收录了大量代谢网络(PATHWAY)的研究成果,描绘了生物体内代谢网络涉及的各种分子及关系 大规模组学研究上世纪90年代初启动人类基因组计划,短时间内产生海量生物学数据随着基因组计划进行,多种相关高通量研究逐渐开展起来基于表达序列标签(EST)和DNA微阵列的高通量转录组研究基于生物质谱的蛋白质组表达谱和修饰谱研究基于酵母双杂交等技术的高通量蛋白质-蛋白质相互作用组研究代谢组等相关的组学研究 组学数据库分类一级数据库:通过收集组学数据构建的数据库二级和三级数据库:对一级数据库数据进一步分析、归纳和整理,目的性和实用性TRANSFAC:转录因子和结合位点数据库SMART、pFam数据库:收录了可能的蛋白质结构域信息,并提供了特定算法工具 生物信息学数据库的地位和作用经典生物医学实验大量零碎数据数据收集整理大规模组学实验海量组学数据数据存储、注释数据库生物医学应用理论分析检索查询生物学研究 生物信息学数据库类型核酸研究(NucleicAcidsResearch)杂志每年第一期为生物信息学数据库专刊,收录最主要的生物学相关数据库2010年的核酸研究杂志提供的数据库列表将国际上生物学数据库归纳为14类(http://www.oxfordjournals.org/nar/database/c/) 《核酸研究》的14类数据库NucleotideSequenceDatabases核酸序列数据库RNAsequencedatabasesRNA序列数据库Proteinsequencedatabases蛋白质序列数据库StructureDatabases结构数据库GenomicsDatabases(non-vertebrate)基因组数据库(非脊椎动物)MetabolicandSignalingPathways代谢和信号通路HumanandotherVertebrateGenomes人和其他脊椎基因组HumanGenesandDiseases人基因和疾病MicroarrayDataandotherGeneExpressionDatabasesProteomicsResources微阵列和其他基因表达数据库蛋白质组资源OtherMolecularBiologyDatabases其他分子生物学数据库Organelledatabases细胞器数据库Plantdatabases植物数据库Immunologicaldatabases免疫学数据库 常用分类类型序列数据库结构数据库功能数据库其它专业数据库 主要内容生物信息学数据库类型序列数据库结构数据库功能数据库其它专业数据库生物信息学数据库的检索检索方法概述检索实践和案例 一、序列数据库主要收录核酸和蛋白质序列数据包括由基因组计划产生的基因组及其表达序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列 一、序列数据库(基因组)GenomeDatabase(GDB)数据库Ensembl,由EMBL-EBI和Sanger研究所联合开发,对后生动物基因组的自动注释和维护http://www.ensemblgenomes.org/包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析,主要依据已测序获得的基因组序列,定位所有已知基因,并预测未知新基因,同时为这些基因提供功能、疾病相关特征等方面的注释信息;Ensembl基因组注释的核心是基因预测,考虑到现有预测方法的限制,该系统整合了多种预测方法,并提供了各种预测方法结果的下载UCSCGenomeBrowser,加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基因组数据http://genome.ucsc.edu/ 一、序列数据库(核酸)GenBank、EMBL、DDBJhttp://www.ncbi.nlm.nih.gov/Genbank,http://www.ebi.ac.uk/embl/,http://www.ddbj.nig.ac.jp/三个数据库每天互相交换数据GenBank可通过NCBI的检索系统Entrez获取,Entrez集成来自主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息各种专业核酸数据库非冗余参考序列数据库RefSeq密码子使用数据库CodonUsageDatabaseCUTG基因可变剪接数据库ASDB转录因子数据库TRANSFAC 一、序列数据库(蛋白质)国际主要蛋白质数据库的数据来源及其关系吴松锋等,遗传,2005,27(5):687-693 主要蛋白质序列数据库UniProthttp://www.uniprot.org由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息IPIhttp://www.ebi.ac.uk/IPI/国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而构建的参考数据库,月更新整合国际上主要的蛋白质数据库(SwissProt,Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-InvDB翻译的蛋白数据),整合过程中,直接接受手工注释结果NrNCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号,并将序列完全一致的非冗余蛋白质合并成簇 蛋白质功能模体和结构域数据库功能模体或活性位点数据库(proteindomains,familiesandfunctionalsites)PROSITEhttp://www.expasy.org/prosite,收集了上千个序列模体PRINTS(Proteinmotiffingerprintdatabase)http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/结构域数据库(families,domains,regions,sites)Pfamhttp://pfam.sanger.ac.uk/SMARThttp://smart.embl-heidelberg.deInterProhttp://www.ebi.ac.uk/interpro 二、结构数据库核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也有同源建模等计算方法获得 二、结构数据库(核酸)核酸结构数据库(NDB,http://ndbserver.rutgers.edu/)收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT(theAutoDepInputTool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片Rfam数据库,http://rfam.sanger.ac.uk/RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码RNA家族的变异模式 二、结构数据库(蛋白质)PDBhttp://www.rcsb.org/pdb/RCSB(ResearchCollaboratoryforStructuralBioinformatics)国际上专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构蛋白质结构分类数据库SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系MMDBNCBI的分子模型数据库http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure/包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配 三、功能数据库收录生物分子的功能数据,由ID号与序列和结构数据链接组织表达谱和亚细胞定位根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱:BodyMaphttp://bodymap.ims.u-tokyo.ac.jp/Unigenehttp://www.ncbi.nlm.nih.gov/sites/entrez?db=unigeneSAGEmaphttp://www.ncbi.nlm.nih.gov/projects/SAGE/GEOhttp://www.ncbi.nlm.nih.gov/projects/geo/StanfordMicroarrayDatabasehttp://genome-www.stanford.edu/microarray亚细胞定位数据库:PSORTdbhttp://db.psort.org/DBSubLochttp://www.bioinfo.tsinghua.edu.cn/dbsubloc.html膜蛋白质数据库TMPDBhttp://bioinfo.si.hirosaki-u.ac.jp/~TMPDB/线粒体蛋白质数据库MitoP2http://www.mitop.de:8080/mitop2/ 三、功能数据库蛋白翻译后修饰dbPTMhttp://dbptm.mbc.nctu.edu.tw/,磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息,确认的修饰信息、Swiss-Prot蛋白中可能存在的三类修饰信息、部分针对某种修饰的数据库部分某种修饰数据库O-GlycBase(http://www.cbs.dtu.dk/databases/OGLYCBASE/)只收录O糖基化数据;PhosphoBase(http://phospho.elm.eu.org/)只收录磷酸化位点的数据;RESID(http://www.ebi.ac.uk/RESID/)收录蛋白质修饰的注释和结构的数据蛋白质-蛋白质相互作用数据库DIPhttp://dip.doe-mbi.ucla.edu/,由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术IntActhttp://www.ebi.ac.uk/intact,提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结构域注释进行网络的扩充 三、功能数据库代谢网络和信号途径KEGG(KyotoEncyclopediaofGenesandGenomes)http://www.genome.ad.jp/kegg/系统分析基因功能、联系基因组信息和功能信息的知识库GENES收录完整和部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的细胞生化过程和同系保守的子通路等信息;LIGAND数据库收录关于化学物质、酶分子和酶反应等信息 四、其它专业数据库人类基因和疾病数据库OMIM(http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim)收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息dbSNP(http://www.ncbi.nlm.nih.gov/sites/entrez?db=SNP)收录已经识别的SNPs的数据库HapMapProject(http://snp.cshl.org)收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具有相对代表性CGED(http://lifesciencedb.jp/cged/)收录多种癌症的临床和基因表达数据,更新到2007年 四、其它专业数据库基于电泳和生物质谱的蛋白质组数据库SWISS-2DPAGE(http://www.expasy.org/ch2d/)收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息PRIDE(http://www.ebi.ac.uk/pride/)数据库收集国际蛋白质组计划所产出的鉴定结果数据PeptideAtlas(http://www.peptideatlas.org/)收录大规模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库dbLEP(http://dblep.hupo.org.cn)为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年 四、其它专业数据库免疫学数据库IMGT(http://imgt.cines.fr)数据库是关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成dbMHC(http://www.ncbi.nlm.nih.gov/mhc/)提供人类组织相容性抗原(HLA)的序列数据和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群的HLA位点、等位基因和单倍型频率的遗传检测工具 生物信息学数据库总结如此多的数据库如何掌握?不用掌握,只需要有印象(某些领域著名数据库),需要时再找相应的数据库:新的或较小的数据库以上所讲数据库皆为各类数据库,多数重要的是数据集本身,对于检索来讲,需要在常用生物信息学系统上进行(如Entrez、SRS和Expasy,大多数据库集成于此)数据库是不断更新和发展的,网址变化、新的数据库出现、旧数据库不再维护数据不存在等等,需要从互联网上不断寻找数据库之间的关系,以及数据库中内容等等需要同学自己在互联网中寻找自己所关心的内容,在数据库网站上看简介和使用方法,搜索引擎查询某些同类数据库的关系,发信询问服务器(如NCBI)等以上所讲数据库只是给一些概念和印象,希望同学以后在自己所研究领域或平时接触到的领域中碰到这些数据库有所了解,不陌生 生物信息学数据库的检索主要检索系统和工具Entrez(NationalCenterforBiotechnologyInformation,NCBI)SRS(EuropeanBioinformaticsInstitute,EBI)ExPasyExpertProteinAnalysisSystem(SwissInstituteofBioinformatics,SIB)日本、欧洲、美国其他研究机构的工具平台…… 一、数据库字段检索http://www.ncbi.nlm.nih.gov/例1:用ID号检索protein数据库序列及相关信息人TPA(tissueplasminogenactivator)蛋白质ID号:AAO34406 一、数据库字段检索检索步骤在NCBI界面中选择“protein”数据库在检索框中填写“AAO34406”,点击“GO” Fasta格式蛋白质特性参考文献物种起源 原序列复制后,可到BLAST中进行相似性对比 例2:同时获得多个蛋白的信息获得多个蛋白信息Display设置输送到文件、剪切板等 例3:一次性获取几百/上千蛋白信息使用BatchEntrez将序列号存储在文件中(每个序列号一行,不要有其它任何字符),点击“浏览…”即可得到结果列表http://www.ncbi.nlm.nih.gov/sites/batchentrez 上传序列文件 关键字检索数据库记录数据库字段未知例4:查询tissueplasminogenactivator蛋白信息 315条记录 70条记录 选择题名中有RecName被识别序列的记录tissueplasminogenactivatorandhumanandRecname 名称是所需要的蛋白SwissProt号以P/Q开头 gi号Fasta格式序列 例6:获取核酸序列:人类血小板衍生因子的序列关键词:Plateletderivedgrowthfactorhomosapiens限定字段:基因定义(标题)"Plateletderivedgrowthfactor"[TI]and"homosapiens"[TI] 基因定义碱基数、核酸类型 序列长度物种来源参考文献染色体特性 NCBIstructure查询分子模型数据库(MMDB),各种蛋白质的结构信息蛋白质域数据库(CDD),在proteins(CDs)内保存的功能领域序列和结构对准表达目录检索和观看结构,从结构上查找特定蛋白质的相似蛋白质,辨认功能位点 检索步骤检索栏中直接输入的检索词包括:PDB代码,蛋白质名,作者,或期刊名搜寻,得出检索初步结果,需注意筛选也许出现多个指定的蛋白质存在的记录,反映不同实验技术情况,并出现或缺乏各种配合基或金属离子也许包含全长分子的不同片段还有许多突变体蛋白质结构包含了PDB记录(实验性描述,PDB代码) 显示结构概略页点击次要结构SecondaryStructure按钮对观看3D分子的结构有用观看完整蛋白质结构按钮FullProteinStructures(须下载Cn3D软件)Viewing3DStructures 实例例7:查找铁氧化还原蛋白的三维结构蛋白质代码:1doi铁氧化还原蛋白名:ferredoxinfe 蛋白质代码蛋白质描述:来自死海古菌的铁氧化还原蛋白 发表文献生物体分类名称显示三维结构参考文献 蛋白质链栏,鼠标放在栏上,显示残基;点击显示分子各条链、邻族结构点击显示存储域点击显示序列 Genome数据库检索MapViewer(图形显示器),可观看数据库内带有综合遗传和自然图的各种有机体基因组、全部染色体、序列集成数据通常检索的是序列全长序列cDNA,难以检索某一序列特定区域,了解5’或3’的核酸序列或对内含子等其它分子生物学内容进行分析例8:利用MapViewer获取特定基因周围的基因组序列 选择“Genome数据库,找到Mapviewer工具点击进入获取FMR1基因组3’,5’端序列 OMIM数据库例9:查找角化过度症(营养不良性神经病)Keratoderma,palmoplantar 染色体位点 内容目录相关数据库连接 OMIM基因图谱 二、序列数据的相似性检索常用工具:BLAST(BasicLocalAlignmentSearchTool)、FASTAhttp://blast.ncbi.nlm.nih.gov/Blast.cgi5种查询方式例10:检索人TPA蛋白的同源蛋白序列选择“proteinblast” 5种查询方式 输入SP号,gi号或序列上传比对序列文件工作名称选择比对数据库生物组织名称选择算法参数,可用默认值 类似性图谱比对结果描述详细比对结果 比对积分报告数据库标识符蛋白定义积分值 比对结果检索序列匹配的数据库记录打分情况匹配结果 引物设计引物:在聚合反应中作为底物引发聚合产物的短的序列统称为引物。PCR反应中扩增一个已知序列DNA,对其引物须有一定的满足条件,才能有效地扩增模板序列,这些条件有:(1)引物长度为20个碱基(2)引物序列与被扩增的序列不具有同源性(3)引物中G+C碱基的含量以40%~60%为宜等根据引物设计条件,进行计算机程序处理,便可方便地进行自动引物设计,常用软件primer3,http://frodo.wi.mit.edu/ 进入Primer3输入序列 序列1cctgcgtccccgccccgcgcagccgccgcgctcctgcgctccgaggtccgaggttcccga61gatgaaggtctggctgctgcttggtcttctgctggtgcacgaagcgctggaggatgttac121tggccaacaccttcccaagaacaagcgtccaaaagaaccaggagagaatagaatcaaacc181taccaacaagaaggtgaagcccaaaattcctaaaatgaaggacagggactcagccaattc241agcaccaaagacgcagtctatcatgatgcaagtgctggataaaggtcgcttccagaaacc301cgccgctaccctgagtctgctggcggggcaaactgtagagcttcgatgtaaagggagtag361aattgggtggagctaccctgcgtatctggacacctttaaggattctcgcctcagcgtcaa421gcagaatgagcgctacggccagttgactctggtcaactccacctcggcagacacaggtga481attcagctgctgggtgcagctctgcagcggctacatctgcaggaaggacgaggccaaaac541gggctccacctacatcttttttacagagaaaggagaactctttgtaccttctcccagcta601cttcgatgttgtctacttgaacccggacagacaggctgtggttccttgtcgggtgaccgt661gctgtcggccaaagtcacgctccacagggaattcccagccaaggagatcccagccaatgg721aacggacattgtttatgacatgaagcggggctttgtgtatctgcaacctcattccgagca781ccagggtgtggtttactgcagggcggaggccgggggcagatctcagatctccgtcaagta841ccagctgctctacgtggcggttcccagtggccctccctcaacaaccatcttggcttcttc901aaacaaagtgaaaagtggggacgacatcagtgtgctctgcactgtcctgggggagcccga961tgtggaggtggagttcacctggatcttcccagggcagaaggatgaaaggcctgtgacgat1021ccaagacacttggaggttgatccacagaggactgggacacaccacgagaatctcccagag1081tgtcattacagtggaagacttcgagacgattgatgcaggatattacatttgcactgctca1141gaatcttcaaggacagaccacagtagctaccactgttgagttttcctgacttggaaaagg1201aaatgtaatgaacttatggaaagcccatttgtgtacacagtcagctttggggttcctttt1261attagtgctttgccagaggctgatgtcaagcaccacaccccaaccccagcgtctcgtgag1321tccgacccagacatccaaactaaaaggaagtcatccagtctattcacagaagtgttaact1381tttctaacagaaagcatgattttgattgcttacctacatacgtgttcctagtttttatac1441atgtgtaaacaattttatataatcaatcatttctattaaatgagcacgtttttgtaaaaa1501at 参数设定 输出结果起始序列数引物长度熔点引物中碱基gc的比例引物起始处与寡合苷酸任意区域的互补指数引物与寡合苷酸3’端的互补指数引物序列 三、功能数据库的高级检索通过序列建模等方法,构建特定模型用新序列搜索构建模型,实现对新序列所包含的结构域等信息的识别SMART通过隐马尔科夫算法构建蛋白质结构域模型,搜索识别新蛋白质序列中可能含有的结构域http://smart.embl-heidelberg.de/例11:预测TPA蛋白质的结构域 点击“normalmode”将fasta格式序列粘贴到“sequence”栏 结构域名称、起始位置、终止位置、可靠性概率图形化的结构域示意图 蛋白质结构预测 常用软件SWISS-MODEL:http://swissmodel.expasy.org/CPHmodels:http://www.cbs.dtu.dk/services/CPHmodels/ SwissModel界面自动模式联配模式项目模式 自动模式用于建模的氨基酸序列或是Swiss-Prot/TrEMBL编目号,可直接通过web界面提交。服务器会完全自动地为目标序列建立模型联配模式需多序列联配的结果,序列中至少包括目标序列和模板;服务器会基于比对结果建模;用户需指明哪条序列作为目标序列,哪条作为模板项目模式允许用户提交经手工优化的请求给服务器 例12:使用SWISS-MODEL建立mouseFASantigeneligand蛋白质分子模型步骤:获取序列(识别号:p41047)http://www.expasy.ch/选择SWISS-MODEL的“AutomatedModel”粘贴序列提交建模任务结果需要几天出来,用MyWorkspace看结果 在蛋白质数据库中输入关键词或识别号(如:p41047)获取序列选择序列格式显示 选择fasta格式复制序列 结果 蛋白质功能预测InterPro在domain的水平上对未知的序列进行注释软件:InterProScan例13:对给定的未知功能的序列example预测功能http://www.ebi.ac.uk/ 未知功能蛋白质ATP-bindingsubunitofanABC-typeosmolytetransporter序列MASVSFEQVTKQFDDYVAVNNLNLEIEDGEFLVFVGPSGCGKTTSLRLLAGLETVSQGQICIGDRRVNELSPKDRDIAMVFQSYALYPHMSVYENMAFSLDLQGKPKEEIRQRVCSAAELLGIEKLLHRKPKELSGGQRQRVAVGRAIVRKPSVFLMDEPLSNLDAMLRVQARKEISKLHSDLATTFIYVTHDQVEAMTMGDRIAVMKDGILQQVDSPANLYNQPANLFVAGFIGSPAMNFFQVERLSQEGKEKLSLDGVVLPMPDSVAKNGDRPLTLGIRPENIYHPQYLPLEIEPMELPATVNLVEMMGNELIVYAQTPAGTEFVARIDPRVNIKQKDSVKFVVDTQRFYYFDREMETAIF 输入框中输入待测序列 选择匹配记录 蛋白质特征数据库Pfam、PROSITE中获取 功能描述 实习题利用Entrez的检索方法获得Plasminogen蛋白的ID号(选择Swissprot数据库的记录)利用题1中获得的ID号在SRS检索该蛋白的相关信息(包括序列)SRS:http://srs.ebi.ac.uk/用题2获得的序列,做同源性检索,获得该蛋白鼠的同源序列(选择匹配最好的)查询Plasminogen蛋白结构域的类型和组成方式