• 42.50 KB
  • 5页

matlab在生物信息学分析中的应用

  • 5页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
MATLAB在生物序列信息分析中的应用生物技术(生物制药方向09)杨清松0909501162摘要:MATLAB生物信息工具箱为广大用户提供了一个用于基因组和蛋白质组分析的综合环境,它利用数据库资源,使科学研究事半功倍,在工具箱提供的开放环境里,用户甚至可以按照自己的目的来设计和利用分析工具。本文主要介绍MATLAB生物信息工具箱在基因序列分析中的应用,包括确定核苷酸组成,密码子组成,氛基酸转化和组成等,所有操作简便高效,结果可视化程度高。关键词:MATLAB,序列分析,序列比对,ORF,密码子生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起[1]。人类基因组测序工作完成后,我们在后基因组时代面临的一个重要问题,即如何处理越来越多的数据,进而分析基因组序列的意义,研究尚不清楚的结构和功能等。这对生物信息学的工具提出了新的挑战。在国际学术界,MATLAB已经被公认为准确、可靠的科学计算标准软件。从MATLAB6。5。1首次增加了引人注目的生物信息学工具箱以来,如今的版本生物信息学工具箱的数据处理能力得到了极大的提升[2]。目前,MATLAB可以进行序列分析,系统发生分析,芯片数据分析,可视化等,并可以在互联网上获取数据库资料。最新版本的工具箱则强化了质谱分析和统计推论与预测功能,包括基线校正、平滑、排比和重新取样等。能让研究人员执行质谱仪资料分析、统计推论与预测、绘图及处理大量基因组和蛋白质体序列分析等工作。文章主要介绍当前在基因序列分析、序列比对中的应用。 1基因序列分析序列分析是利用计算机方法来寻找有关核苷酸或氨基酸。序列的信息序列分析的一般工作是基因识别,确定两个基因的相似性,确定一个基因的蛋白质编码以及研究另一相似基因的功能。在分析完一段序列时,首要任务就是研究序列中的核苷酸组成。下面是序列分析的主要内容和相应函数。1.1确定核苷酸的组成可以使用序列统计函数确定这个序列是否含有蛋白质编码域的特征。1.2绘制密度图可用ntdensity函数绘制单体密度和联合体密度图。1.3计算核苷酸数目可用basecount函数计算链中的核苷酸数目。1.4计算互补核苷酸数目显示核苷酸分布可用seqrecomplement函数显示核苷酸的分布。1.5饼状图可用basecount函数显示饼状图。1.6计算二聚体个数可用dimercount函数计算一个序列中的二聚体个数,并在一个条形图中显示出来。1.7确定密码子组成三核苷酸密码子编码一个氨基酸,在一个核苷酸序列中有个可能的密码子。知道序列中密码子的百分比有助于用户假设密码子的排列情况。 1.8计算密码子数目可用函数计算一个核苷酸序列中的密码子数目。1.9绘制热红外分布图可用绘图程序绘制热红外分布图显。1.10显示密码子示出个阅读框中的所有的个密码子。1.11确定密码子分布运用codecount函数。1.12氨基酸转化和组成确定蛋白质相关的氨基酸组成可以提供给用户蛋白质特征图谱。1.13确定氨基酸组成和分子量可用atomiccomp函数和molweight函数确定蛋自质的氨基酸组成和分子量。1序列比对序列比对是生物信息学的重要基础。进行序列比对的目的之一是判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。序列比对的基本算法主要有两个,一是用于全局比对的Needleman-wunsch算法,另一个是主要用于局部比对的Smith-waterman算法,而后者又是在前者的基础上发展起来的[3]。在MATLAB生物信息工具箱中,序列比对主要用这两种算法。运用MATLAB进行序列比对的一般步骤如下:2.1查找序列信息2.1.1查找目的基因在NCBI中查询并获得目的基因序列。2.1.2读入序列数据 用getgenebank函数可将基因信息被以结构列表的形式导人MATLAB工作区。2.1.3读入另一序列的信息导入另一可能有同源性的基因序列,如果用户能够在数据库中定位一个未知的基因,那么这个未知基因和已知基因的功能和特征很可能是相同的[4]。2.2确定蛋白质编码序列2.2.1查找目的基因的ORFORF即开放阅读框,指可以连续编码蛋白的核酸序列。利用seqshowORFs函数的输出结果给出了人类的所有阅读框中ORF中起始和终止密码子的位置。2.2.2查找另一参比基因的ORF2.3比较氨基酸序列2.3.1将ORF转换为氨基酸序列2.3.2绘制散点图用Seqdotplot可绘制散点图。2.3.3比对这两个氨基酸序列用nwalign函数可比对两序列。2.3.4截短序列2.3.5比对被截短的氨基酸序列2.3.6局部比对两氨基酸序列Matlab生物信息学工具箱提供了生物信息学中常用的函数,由于这些函数均经过严格测试,稳健性可以得到保证,免去我们自己设计这些函数的不便。Matlab生物信息学工具箱可用于计算生物学和设计新算法,创建可独立运行应用程序并得到可视化结果,使研究人员更专注于生物信息算法。目前,此工具箱还不能提供核酸和蛋白质高级结构的分析功能,这也为大家提供了改进的空间。 以后Matlab会设计更好的算法,可重用的软件模块,改进数据库和不同数据类型的可视化显示,改进知识系统,以及用于阐述环境和遗传与环境相互作用对健康和疾病的影响。应用程序设计者可以用Matlab提供的工具设计生物技术和药学软件。Matlab将在药物发现,基因组和蛋白质组学研究中有广泛的应用[5]。Reference:[1]CollinsFS,GreenED,GuttmacherAE,etal.Avisionforthefutureofgenomicsresearch[J].Nature,2003,422:838.[2]TheMathWorks.BioinformaticstoolboxforusewithMATLAB[M].TheMathWorksInc,2005.1-2.[3]唐玉荣.生物信息学中的序列比对算法[J]计算机工程与应用,2003.29,2006:5-7[4]张敏.生物信息学中多序列比对等算法的研究[D].大连理工大学,2005[5]王政,赵文,金思毅,等.基于化工工具箱的开发方案,计算机与应用化学,2000,17(4):382-384