应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因

摘要】 目的探索黑斑息肉综合征(PJS)特异性相关基因。方法根据PJS基因表达系列,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取基因相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类。结果从PJS患者的特异差异表达基因谱中得到270个已知基因名称的差异表达基因,从聚类结果看,是与“遗传”和“先天缺陷”“肿瘤”“肌肉”“突变”关系密切的基因聚在一起,包括了COL6A2和COL6A3两个基因。结论COL6A2和COL6A3可能是PJS特异性相关基因

【关键词】 黑斑息肉综合征 微阵列 数据挖掘 生物信息学。

Mining Gene Expression Microarray Data of Peutz Jeghers Syndrome by Literature Profiling。

Dai Yichen, Huang Zhongxi, Song Yugang, Xie Junpei, Zeng Wei。

1.Department of Gastroenterology, PLA No.174 Hospital, Xiamen 361003, China;。

2.South Hospital, Guangzhou 510515, China。

Abstract: ObjectiveTo search for the studies on PeutzJeghers syndrome (PJS)related genes. MethodsPJS microarray gene expression data was mined by literature profiling. The search was based on the analysis of literature profiles generated by extracting the frequencies of certain terms from the abstracts on these different expression genes stored in the Medline literature database. Terms are then filtered on the basis of both repetitive occurrence and cooccurrence among multiple gene entries. Finally, clustering analysis with Cluster and Treeview program was performed. ResultsCOL6A2 and COL6A3 were the two novel genes related with PJS polyps. ConclusionCOL6A2 and COL6A3 genes may play an important role in the pathogenesis of PJS polyps.

Key words: PeutzJeghers syndrome; microarray; literature profiling;computational biology。

我们应用文献轮廓挖掘技术分析PJS基因差异表达情况,揭示参与PJS形成的多个基因的功能关系以及发现特异性相关基因,进而揭示PJS形成的可能机制。

1材料和方法。

11获取差异表达基因把资料完整地入选病例分为大肠腺瘤组、PJS大肠息肉组和正常大肠黏膜对照组。大肠镜检查术中留取的新鲜组织标本液氮冻存备用,按Trizol 一步法提取样品组织总RNA,经质量检测后,将各组的RNA样品等量混合,进行反转录荧光标记,用Cy3dUTP标记大肠腺瘤组和大肠PJS息肉组的cDNA,用Cy5dUTP标记正常大肠黏膜组的cDNA。将已标记的样品cDNA探针与深圳微芯生物公司提供的含有8 064个人类靶基因基因表达谱芯片进行杂交,经清洗、扫描仪扫描荧光图像、提取杂交信号,经转换后以数据形式输出,对数据进行标准化处理后用生物信息学软件进行生物信息学分析。以芯片中密度值在5×108以上的数据点为有效数据,同时把比值2或0.5的数据点作为存在显著性表达差异基因点的筛选标准,筛选各组间差异表达基因。根据差异表达基因的筛选标准,选取已知基因名称的差异表达基因大肠PJS息肉特异性表达变化的基因有270个,其中已知基因259个,EST 11个。

1.2获取基因相关摘要通过检索在PUBMED文献中那些在标题中包含基因的官方名称、缩写或别称的条目来获取基因相关文献。如果检索到的文献不足5篇, 则需进一步扩展到摘要中包含基因名称的条目,甚至用基因家族名称代替基因名称。基因命名的信息从人类基因命名委员会(HGNC)的网站和NCBI的Locuslink的网站上获取。由于相当大量的文献并不遵守官方命名,因此一方面会存在漏检现象,另一方面则出现假阳性。为了避免过高的假阳性,有必要快速浏览搜索结果以便发现并删除不恰当的检索字符串。

1.3文字分析。

选择XML的输出格式后,点击工具条的保存按钮就可以将查询结果保存下来。摘要从输出文件中抽取来,并保存在一个新文件中,并且一篇摘要保存一行。用Montreal公司的Provalis Research软件的Wordstat模块的“文本转换魔术师”对每个文件进行格式转化。再用simstat模块打开并用“内容分析”的统计方法进行分析。输出选择词的类别百分比。

1.4数据过滤在分析的文献中发现的每一个特定词都赋予一个发生频率值,这样每一个基因都有好几万条记录。

这些词当中大多数要么是普遍存在的(例如,“if”,“because”,“cell”,“identified”在大多数基因的大多数摘要中都出现),要么是极罕见的(只在极少数基因的极少数摘要中出现),因此对于定义基因特异性词的发生轮廓没有多大用处,必须删除。剩下的词则是出现在少数基因的大多数摘要中,从而传递了这些基因相关信息。数据过滤规则:第一步,删除在科学文献当中常见的词。选用每个词在250个随机选取的基因中的发生值的平均值来确定该词的基值。把基值超过5%的词归为无辨别力的一类并删除。第二步,每个基因的名词发生值与基值做比较。选取词的发生值与基值差异值超过阈值=t+(k/n)的词。其中t是最小的阈值,k是常数,n是给定基因相关摘要的数目;t和k是主观设定的而且直接影响结果和噪声水平,本实验选择t=15%和k=1.5(这样当文献只有5篇时,阈值为45%,而当文献数目很大时,最小阈值为15%)。第三步,只有当至少两个基因包含同一个词时,该词才可以用来定义基因之间的关系,因此只有至少通过两个基因过滤的名词才保留下来。第四步,当噪音词太多时,手动删除不相关的词。根据上述数据过滤原则和大肠腺瘤与大肠PJS息肉的组织学、病理生理及可能的相关发病机制等特点选词,从297个关键词中选择出的38个词,根据词义之间的相关性以同义词的方式合并,最终归为25类。并可根据词的意义对这个词的频率值乘以一定的权重,这样与这词相关基因就易于聚成一类。

0 次访问