结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法

【关键词】 结核分枝杆菌

Bioinformatics prediction strategy for Mycobacterium tuberculosis (H37Rv) secreted proteins。

【Abstract】 AIM: To establish a prediction strategy for Mycobacterium tuberculosis (H37Rv) secreted proteins to pave the way for further research. METHODS: The whole protome of H37Rv was scanned by SignalP and TMHMM. The protein date analysis system based on Visual FoxPro was established to process the output of SignalP and TMHMM and identify the secreted proteins. The sequences of the secreted proteins were aligned by BLASTp. RESULTS: One hundred and seventynine secreted proteins were identified, where 12 of them were found to be unique in H37Rv. CONCLUSION: Bioinformatics approaches can be used as an assistant tool in secreted protein research.

【Keywords】 Mycobacterium tuberculosis;secreted protein;signal peptide;bioinformatics。

【摘要】 目的:建立一种结核分枝杆菌(H37Rv)分泌蛋白的预测方法,为后续研究提供参考依据. 方法:以SignalP和TMHMM两个软件对结核分枝杆菌蛋白组进行扫描,基于Visual FoxPro构建“蛋白质数据分析处理系统”对扫描原始数据进行分析处理以识别分泌蛋白,再经BLASTp完成相似性比对. 结果:预测出了179种分泌蛋白,其中12种为H37Rv所特有. 结论:生物信息学方法可作为一种研究分泌蛋白的辅助工具,用于指导实验.

【关键词】 结核分枝杆菌分泌蛋白信号肽;生物信息学

0引言。

结核分枝杆菌(Mycobacterium tuberculosis, MTB)的分泌蛋白不但在豚鼠实验中可以引发迟发性超敏反应,在结核病患者体内也可诱导抗体的产生[1],对结核病的预防和诊断具有重要意义. 目前有两种实验生物学方法用于MTB分泌蛋白的研究,一种是通过二维凝胶电泳的方法分离MTB早期培养滤液蛋白(CFP),再通过N端测序[2]或免疫学方法加以确定[3]. 另一种是通过基因融合的方法将MTB的基因与报告基因融合后进行表达,再对报告基因的表达产物进行定位,以确定是否为分泌表达[4]. 已有30多种MTB分泌蛋白通过实验方法得以确认,但MTB分泌蛋白远不止这30多种,尚有很多未被发现. MTB蛋白分泌的主要途径是sec—依赖性的分泌途径也称为II型分泌途径,该类分泌蛋白的结构特点是新生肽链的N末端具有典型的信号肽特征,主要分为N区、H区、C区三个部分. N区位于信号肽N端,含有1~3个带正电荷的氨基酸残基;H区位于信号肽中间,由10~15个疏水氨基酸残基组成;C区位于信号肽C端,富含亲水氨基酸,能被信号肽酶识别. 信号肽所具备的这些数量化特点为计算机自动化分析预测提供了可能.

分泌蛋白和膜蛋白都含有信号肽序列,所不同的是分泌蛋白信号肽之外不再有疏水跨膜区信号肽引导分泌蛋白跨膜穿梭之后,信号肽酶在相应位点将信号肽切除,以此完成成熟分泌蛋白分泌过程;而膜蛋白信号肽之外还有一个以上的疏水跨膜区信号肽在引导膜蛋白跨膜时,由于疏水跨膜区的存在使得膜蛋白停留在细胞膜中. 本文预测MTB分泌蛋白的方法主要涉及到两方面内容:一方面是对信号肽序列的识别,另一方面是对蛋白疏水跨膜区的识别. 首先通过对信号肽的识别将分泌蛋白和膜蛋白从其他蛋白质组中区分出来,然后从中寻找疏水跨膜螺旋以区分分泌蛋白和膜蛋白,最后利用NCBI提供的MTB蛋白序列相似性搜索(BLASTp)发现有12条预测出分泌蛋白为MTB所特有.

1预测方法。

预测方法如图1所示.

1.1搜集结核杆菌H37Rv基因组和蛋白组信息在美国国家生物技术信息中心(的核酸数据库Nucleotid中查寻关键词“H37Rv complete genome”. 从搜索结果中查找H37Rv全基因组,并以FASTA格式下载. 从英国基因组研究中心Sanger center的数据库(ftp://ftp.sanger.ac.uk/pub/tb/sequences/)下载全蛋白质组信息.

1.2分析数据分别向SignalP和TMHMM提交H37Rv蛋白组数据. 由于SignalP服务器对单次提交数据量有数量限制,因此将H37Rv蛋白组数据分为8次提交(Rv0001Rv0500,Rv0501Rv1000,……Rv3501Rv3924). 另由于Rv2048单数据量过大,超过SignalP服务器对单数据的处理范围,因此将Rv2048 C端部分氨基酸残基除去(不影响N端信号肽分析). 由于TMHMM服务器对提交数据量没有限制,可一次全部提交. 返回数据一次保存.

1.3建立数据库根据本课题的实际需求,依据SignalP和TMHMM分析结果的数据特点,使用VFP6.0开发了“蛋白质数据分析处理系统”用来存储和处理SignalP和TMHMM的原始分析结果(图2).

1.4获得分泌蛋白和膜蛋白通过上述数据分析系统自动完成分泌蛋白和膜蛋白的识别和查询.

1.5BLASTp分析预测出的所有H37Rv分泌蛋白通过NCBI的BLASTp服务器与所有已知的蛋白序列进行相似性比对,以获得结核杆菌H37Rv特有的分泌蛋白.

2结果。

2.1H37Rv基因组和蛋白组信息搜集从美国国家生物技术信息中心的核酸数据库Nucleotid中查寻到编号为NC_000962的记录,其中包含了H37Rv的全部基因组信息共4 411 529 bp,从Sanger的数据库获得蛋白组信息,共3924条蛋白序列数据.

2.2H37Rv蛋白信号肽跨膜区分析将SignalP和TMHMM的原始分析结果通过“蛋白质数据分析处理系统”自动识别N端具有N区、H区和C区等典型信号肽特征的蛋白质和具有典型跨膜螺旋特征的蛋白质,通过数据库的自动查询功能共发现了179个分泌蛋白(其中有12个已得到相关文献的证实,表1)和150个膜蛋白.表1H37Rv蛋白信号肽跨膜区分析结果(略)。

2.3BLASTp分析对179条分泌蛋白经BLASTp分析发现有12条蛋白为H37Rv特有,在其他物种已发表的蛋白质序列中无任何相似区域(表2).表2BLASTp分析结果(略)。

3讨论。

在对结核杆菌H37Rv的3924条蛋白分析过程中SignalP共预测出了573条蛋白质含有信号肽;TMHMM预测出了786条蛋白质含有疏水跨膜螺旋,其中623条蛋白质含有信号肽. SignalP和TMHMM对信号肽预测结果的交集为329条,其中150条含有信号肽疏水跨膜区被列为膜蛋白,其余179条蛋白不含信号肽疏水跨膜区因而被列为分泌蛋白.

SignalP和TMHMM的原始分析结果数据量非常大,每条蛋白质包含了“蛋白编号”、 “可信度”以及“酶切位点”等11项不同信息,因此H37Rv的分析结果中信息量多达43 164条. 若要对4万多条信息进行人工比较将是一项费时、费力的工作,且人工比较的准确性也难得到保证. 我们开发出基于Visual FoxPro的“蛋白质数据分析处理系统”,不仅能将SignalP和TMHMM的原始分析结果自动导入数据库,而且可对数据库中的各项数据进行比较,实现了将分泌蛋白和膜蛋白的识别工作完全交给计算机来完成. 以前用人工方法可能要花费数周时间的工作,现在利用这套系统仅需数秒钟即可完成,同时排除了人为可能造成的错误.

1 次访问