文本中知识点的知识组织系统研究与架构

摘 要:受到超链接思想的启发,针对网页文本中不断出现的新知识点,文章从用户阅读的角度,提出了一个面向文本知识点知识组织系统架构。文章所提出的系统架构不仅可有效地解决用户文本阅读中的知识“迷途”的问题,还可以根据知识点的使用信息,为用户提供更有价值的知识应用服务。

关键词:知识组织 知识点 知识库。

中图分类号: TP391.3;G254.29 文献标识码: A 文章编号: 1003—6938(2013)06—0013—06。

1 引言。

随着计算机技术和网络技术的发展,网页文本信息已经成为人们获取知识的重要来源渠道之一。作为信息的主要承载工具,网页文本中隐藏着大量的知识点信息。图书情报学领域的研究者已经意识到,当前知识组织已经不仅是文献单元组织[1],而且还扩展到知识点组织知识点组织一旦成熟,必将会极大地促进人类获取知识的效率。虽然网页文本资源大大便利了人们对信息的获取,但在用户阅读网页文本的过程中,依然还有一个影响着用户获取信息的效率和质量的问题。和传统文献一样,在用户阅读数字化文本信息时,对于文本中的新知识或者是自己还没有掌握的知识,需要一个学习和吸收的过程。数字化时代,用户可以不必去查找字典和词典这类工具书,但仍然需要借助其他的工具,如搜索引擎,问答系统等。虽然这些工具可以解决用户阅读中部分知识的疑惑问题,但需要反复在搜索引擎与阅读页面之间跳跃,可能会造成读者在这些“跳跃”中出现阅读迷失,并且所获得的知识点知识也存在不完全性或缺乏针对性。本文借鉴过去传统的知识获取手段和现今的链接技术,并将它们有机结合起来,实现网上阅读的知识点动态生成与知识提供的知识服务。

2 研究背景。

在进行知识点组织之前,我们有必要先明确一下什么是知识点。在图书情报研究中,“知识点”概念并不常见,但和知识点比较接近的“知识单元”、“知识元”和“知识节点”较为常见。文献[1—3]认为知识点知识元是同一个概念,只是知识单元在不同时期和不同学科领域的表现形态。究竟什么是知识单元,尽管不少学者意识到了知识单元的重要意义,但目前还并没有形成对知识单元的统一的认识[1]。温有奎在其论文和著作中多次提到“知识元”这一概念,他认为知识可分解成最小的独立单元,即知识元[4]。文庭孝也提出了类似的见解,认为知识元应该是一个最小的表达一个完整知识概念的独立单元[5],同时他也认为知识单元知识元既有区别又有联系,一个知识元可以包含多个知识单元,一个知识单元也可以包含多个知识元[5]。为了实现知识元标引,温有奎将知识元分为描述型和过程型两个大类11个小类[4]。文庭孝做了一个描述性的解释[5],认为知识元可以是一段文字、一幅图表、一章或一节、一个公式或者一个程序,他还认为,任何一个确定的知识元最终都是由包含若干个主题词的主题概念组合而成[6]。王子舟以化学元素“铁”这一知识元为例,认为其至少包含11个属性[7]。

虽然学者的理解并不完全一致,但这些观点毫无疑问为知识元或知识单元知识组织提供了很大帮助。尽管经过了近十年的探索,目前仍没有关于知识元的实际应用系统。笔者认为,在当前的句法分析或语义分析这些深层自然语言处理研究还尚未成熟的条件下,开展知识元的应用研究还存在一定的困难。受到知识元和知识单元等相关研究的启示,本文将研究对象限定于知识点,笔者认为知识点组织是不同于知识单元知识元的。首先,不管是知识单元还是知识元,都有一个比较严格的限制,涉及到一个完整的知识描述单元,相对来说,知识点是一个更为宽泛的描述性概念。其次,知识点并不一定是最小的知识单元,也可以进行进一步的细分。在描述范围上,知识点应该是介于文献单元知识元之间的一个知识承载的单位。笔者认为,词汇文本中承载知识点最为重要的单位。正如文献[6]在知识元的研究中也曾指出,目前能找到的表达知识内容本身的最小知识单元应该属于长度不等的词汇。相对于以字、短语、句子和段落为单元的处理,词汇单元是一种切实可行但又非常有应用价值的知识组织方式。从语言构成上来说,词是自然语言中有意义的能独立运用的最小单位[8]。基于以上考虑,笔者认为在当前的条件下,以词汇为切入点,开展文本知识点知识组织是一个切实可行的应用研究。

在Internet中,Web资源通过超链接的方式有机地组织在一起。受到网页链接的启示,我们设想,如果能在文本内容中捕获知识点,并且在知识点出现的位置插入一个知识点链接,当用户有需求时可以通过知识点链接获取知识点的描述信息。在2000年前后,利用超文本技术来进行知识组织研究就开始受到了研究者的关注。蒋永福认为,和传统的知识组织方法相比,超文本技术具有明显的优点[9]。该技术也被加入到全文检索系统的应用探索中[10]。在知识组织领域,和本文研究比较接近的还有本体、关联数据,作为一种知识组织的方法,本体工具被应用于多种类型的知识组织探索任务中[11—13]。本体、关联数据倾向于从语义的角度来进行知识组织,目前相关的研究多聚焦于框架设计[14—15]、标准制定[16]的探索中。就目标而言,本体、关联数据在于实现语义网的知识组织,而本文是针对传统的HTML网页文本来实现知识点知识组织的。

本文以知识库为资源保障,受到网页链接和动态生成的启示,从用户阅读文本的角度,提出了一个面向文本知识点知识组织架构。该架构不仅可以大大方便用户获取知识的过程,提高用户获取知识点效率,而且还可以根据用户使用记录来深入挖掘知识点背后的隐含信息。本文的工作为知识点的即时获取提供了非常有价值的帮助,对文本知识点组织具有一定的实际指导意义。

3 思路与构想。

知识库提供了文本知识点知识资源,链接技术给了我们将文本知识点知识知识联系的技术手段,但如何将其链接起来并即时将知识点知识展现给用户是本文的研究重点。实现文本知识点链接的动态生成与知识展现,不仅需要构建知识点知识库,还要设计算法搜索出文本中需要建立链接知识点词汇,然后在此词汇上建立知识点链接(见图1)。

在思路图中,“XX”表示知识库中的一个知识点网页A包含了“XX”这个知识点,为了在网页A中将知识点替换为知识点链接,首先需要在欲输出文本中识别出“XX”这个知识点,再根据知识库中的相关记录,在输出文本中生成带有链接知识点。XX中,“url”表示提供知识点解释信息的网址,“kid”表示可以接收知识点的参数变量,“k001”表示知识点“XX”的ID。一旦某个网页中包含了知识点“XX”,我们便可以将文本中的知识点“XX”替换为带有链接知识点,那么知识点“XX”和网页之间便产生了关联。在用户阅读网页A时,通过激活知识点链接“XX”,便可以直接获取知识库中关于知识点“XX”的描述信息。仅有一个知识点“XX”,和网页间所产生的关系也比较简单,但随着知识点网页数量的增加,知识点网页之间将会形成复杂的链接关系。

综上所述,传统的阅读习惯和超文本链接技术,启发了我们在文本中建立知识点链接思路,根据动态知识点链接思想,本文构造一个面向文本知识点知识组织架构。架构的提出为用户文本阅读提供了切实可行的解决方案,进一步提升知识服务水平。

4 文本知识点知识组织架构。

文本知识点提供知识服务的知识组织是一个静态组织和动态生成的一个联合体,它不仅仅关于静态知识组织,还涉及完成文本中动态生成知识点链接知识点关联库,以及为了解知识库的链接和应用情况构建的知识点应用分析库。除此外,文本知识点知识组织架构还包括生成文本链接的算法和知识库即时更新工具。

4.1 总体流程设计。

文本知识点知识提供的目标是为了满足用户在阅读中产生的知识需求,这一需求涉及知识库构建与维护、链接生成与激活等多个方面。为了清晰地表达这一活动流程的全过程,我们绘制了文本知识点组织流程图(见图2)。

根据流程图所示,文本知识点组织可以划分为三个部分,分别是根据文本内容以及知识点知识库生成知识点链接、建立知识点文本之间的关联库、根据用户链接的激活操作构建知识点的应用分析库三个子任务。

4.2 知识点知识库结构设计。

知识点知识库是即时提供文本知识阅读系统中的知识组织中一个非常重要的组成部分,也是文本中添加知识点链接的重要依据,为整个系统提供知识点来源。根据知识点的属性,我们设计了知识点知识库的基本结构信息表(见表1)。

信息表中仅包含了知识点的一些基本属性,其中知识点ID是每个知识点的唯一标识,仅对应该知识点的一个规范词汇或标准词汇,如链接信息k001(影响因子),在链接信息表(见表2)中就对应多个意义相同却表示有异的词汇(影响因子、IF、Impact Factor),前者用于显示知识点知识,后者用于在文本中动态建立与该知识点链接知识点描述表示的是一个知识点的详细信息,面向终端用户显示。

为了便于进一步展开知识点应用的挖掘和分析,我们还添加了知识点的当前状态级别和被点击的次数等属性。知识点的当前状态级别属性表示一个知识点的活跃状态,知识点活跃状态值的确定主要取决于该知识点击次数与被链接次数之比,可以在使用过程中即时产生。被点击次数是指读者在浏览文本点击知识点的次数。系统可以通过被点击次数和活跃状态值综合评估每个知识点

一个知识点可能会有多个词汇的表达形式,还需要专门设计知识点链接词汇表。表2以“影响因子”这一知识点为例,给出了相关词汇的有关信息及链接标识。

表中三个词汇都链向同一个知识点词汇是从文本中获取知识点的重要依据,一个知识点是一个标准的概念,而在实际的文本内容中,可能会有多个词汇表述这个概念。被链接次数可以反映出这个词汇用户阅读文本中的热度,如果再从这些被点击的次数综合分析,则可以得到人们迫切希望了解和掌握的知识

4.3 知识点文本关联及应用分析库结构设计。

文本知识点组织过程中,如果知识库中知识点的相关词汇被包含在网页文本中,那么这个知识点网页文本之间便建立了关联。一个知识点可以关联到多个网页地址,一个网页也可以关联多个知识点,所以知识点网页之间的关联关系是多对多的。知识库中知识词汇网页间的关联关系就需要通过链接来实现,这种关联关系主要通过相应数据库存储起来。为了获取知识点文本网页之间的关联,我们分别设计了知识点网页文本关联信息表(见表3)和用户点击信息记录表(见表4)来存储知识点文本网页之间的关联信息和知识点点击的信息。

知识点文本关联信息表主要用来记录知识点网页之间的关联关系。在该表中,初次关联时间和最近关联时间用来统计一个知识点与所有页面关联的初次时间和最近时间,当前月关联文本数量用来记录当前月份某一个知识点关联网页文本数量。关联文本总数量用来记录自系统运行以来知识点关联的所有网页文本的数量,该指标表示一个知识点关联广度。更新时间用来记录相对应的知识描述的最近更新时间。该表为我们通过知识点关联来分析用户关心的问题以及变化趋势提供了非常有价值的信息。

在添加了知识点链接标记的文本中,知识点链接是否频繁被用户点击访问?用户阅读知识点的变化趋势如何?这些都是一个知识服务系统非常关心的问题。用户阅读行为的分析不仅可以改善知识库的组织,还可以帮助人们了解目前用户关注哪些知识点,希望补充哪些知识点,哪些知识点过去常被点击但目前已经能耳熟能详了。通过统计分析用户知识点的操作行为信息,还可以捕获用户所关心的热点和事件。表4给出了用户点击知识点的信息例子。

表4不仅记录了每个知识点点击总次数,还记录了当前月被点击的次数。通过记录初次点击时间和最近点击时间信息,可以观察人们对这一知识点关注程度,如自初次点击以后,一直被频繁点击,说明用户非常需要补充这类知识。如果一个知识点早期被频繁点击,近期已不再被访问,说明该知识点可能已被公众所熟知,或者是用户访问的文本中与该知识点较少关联了。

此外,如果将表3与表4关联起来分析,可以对知识点进行等级划分,即经常被关联但又极少被点击知识点,可视为非活跃知识点,在必要时可从知识库中剔除。总的来说,知识点应用分析库的主要有两个作用,一是根据应用情况维护知识点知识库,二是通过用户行为分析了解用户所关心的问题和希望补充的知识

5 知识点链接生成与应用服务。

文本知识点知识组织系统不仅可以为用户提供知识点的描述信息服务,而且还可以根据页面和知识点关联记录,以及用户的阅读知识点知识的行为,来进一步提高知识服务水平。根据4.2节中三种库结构的设计,在应用服务方面,我们将从文本知识点链接的生成,知识点文本间的关联分析,来探讨知识库的更新和维护。此外,我们还设计了知识点链接生成的核心算法。

5.1 知识点链接生成核心算法设计。

知识点链接生成的主要目的是根据知识点知识库,为文本中的知识点添加知识点链接。在添加知识点链接之前,首先需要对文本知识点进行识别,该阶段实际上是对文本内容和知识库进行扫描匹配的过程。知识点链接生成核心算法如下所示:

(1) 以标点符号(包括“,”、“。”、“:”、“‘”、“、”和“……”等)为划分标记对即将输出的文本进行句子片段抽取,并将所有的句子片段放入字符串数组A;。

(2) 顺序读取字符串数组中的句子片段,将一个句子中的所有字按照先后顺序存依次放入字符数组B;。

(3) 在B中,从第一个字符开始,逐步和位于其后的字符按照顺序进行组合,如果和下一个字符组配的词和知识库中的知识点词汇匹配成功,则继续和下一个字符组配,直到和某一个字符组配后,和知识库中知识点词汇无法匹配,则取最临近的匹配成功的结果;。

(4) 匹配成功词汇即为知识点,根据知识库中该知识点的属性信息,将知识点替换为知识点链接,同时将知识库中对应知识点文本关联关系写入相关数据库;。

(5) 如果字符数组B扫描完毕,则跳至步骤(2),否则,将字符数组中匹配成功的字符移除,跳至步骤(3);。

(6) 整个文本句子段落匹配结束,将带有知识点链接标记的文本输出到客户端,同时将网页的相关信息写入链接数据库,退出整个程序。

在上述的算法流程中,为了确保知识点扫描的质量以及生成链接的效率,还需要对以下两种情况进行处理。

(1)知识点嵌套的情况。在正向最大匹配时,系统将所有和知识库匹配成功的知识点进行记录,这样既能抽取最长的知识点,也能抽取出嵌套的知识点。譬如,“关键词”、“轮排索引”和“关键词轮排索引”都是系统需要标注的知识点。对于这种情况的知识点链接标记生成,可以采用下拉列表的方式,根据知识点的嵌套关系,最长的放在首位,根据长度依次排列。用户通过触发不同的知识点,来异步获取不同的知识点的解析或描述。

(2)一词多义的情况。在知识点文本内容匹配过程中,一旦发现一个知识点属于一词多义的情况,系统便将两个词义的链接进行组合替换原有的知识点。在知识点激活过程中,通过加入简单的交互,让用户根据上下文语义环境选择合适的词义描述。譬如,知识点“病毒”既有“细菌”意义也有“计算机程序”的意义,知识点组织系统将两个词义链接进行组配,用户浏览时通过简单的交互来选择适当的词义描述。

5.2 文本知识点关联分析。

知识点关联趋势可以细分为两类,一类是知识点被其它页面关联的趋势,一类是知识点用户点击的趋势,两种情况从两个不同的角度揭示了知识点的使用趋势。

(1)知识点文本关联趋势分析。通过对知识点关联趋势分析,可以了解一个知识点当前是否处在活跃状态,是否还被广泛地应用。例如“图书馆自动化”这一知识点在计算机技术刚刚被引入到图书馆领域时,受到图书馆学、情报学以及相关学科的很大重视。随着信息化的逐步推进,该知识点目前受到的关注日趋减弱。近些年,“数字图书馆”作为一个新的概念被引入图书馆学领域,该知识点是指利用一切数字化技术为图书馆的多方位服务,给图书馆领域开创了新的局面,受到了广泛关注。从网页关联的角度,我们可以发现一个知识点在当前的环境下被使用的情况,如果一个知识点在平时被使用的趋势一直处在较低的状态,突然一段时间该知识点的被使用量达到一个峰值,这样的现象意味着该知识点可能成为了人们所关注的热点。在学术相关的网页文本中,通过知识点趋势的分析,可以帮助领域的专家和学者了解知识点的发展脉络,及时获取有关的学术前沿,进而可以更好地为学科研究提供帮助。

(2)知识点用户使用及反馈。在正文中出现链接标记的知识点,对于用户来说,主要有两种情况,一种是看到了知识点,通过进一步点击来获取更加详细的解释信息,一种是没有去点击相应的知识点链接。两种情况的背后包含了用户的不同使用行为,而这一行为在一定程度上揭示了知识点用户的关注趋势。和学术论文等数字资源相比,用户在阅读加入知识点组织功能的网页文本时,通过点击知识点链接用户知识点之间实际上是建立了一个动态交互的过程,当很多用户均对某一个知识点表示了关注,表明该知识点可能是作为一个相对较新的知识概念,正处在扩散传播阶段。通常而言,一个新的知识点会随着时间的推移最终被大部分用户理解、消化并吸收。

5.3 知识点知识库的更新维护。

知识库的构建并不是一劳永逸的,知识的发展和演化是一个动态的过程,与社会的发展息息相关。一方面,系统要不停地往知识库中添加新的知识点,还要完善已有的知识点以提供更好的知识服务,另一方面,系统还需要对已有的知识点进行评价,为用户提供更有价值的知识服务。知识点评价方法主要有两个途径,分别是从知识点网页关联的角度和知识点用户点击的角度展开评价。对于很少被网页关联知识点,虽然被系统加入到知识库中,但鲜有网页关联知识点,可能的原因是该知识点已经不再受到人们的关注,我们将此类知识点加入较低的等级。对于被广泛应用于网页中,但用户点击量很小的知识点,这类知识点是人们通常所常用的表达,虽然系统为该知识点添加了链接标记,但用户点击数还非常低,可以推断该知识点可能已经比较成熟,并不是一个新出现的概念,大部分的读者对该词已经比较了解。对于以上两种情况,系统可对这些知识点添加不同处理标记,或者根据其不活跃程度进行分级,确保整个知识库的检索效率以及文本知识点的服务质量。通过知识库的不断完善,系统可以为不同用户提供更好的知识组织解决方案和知识服务水平。

尽管系统已经初步实现了文本知识点组织的功能,但仍然存在着需要改进的地方。今后我们将文本知识点组织系统的功能进一步深化,并考虑将其嵌入到网页的浏览器中,采用基于规则和统计和结合的算法去自动抽取正文内容,从而在浏览器显示的过程中动态添加超链接信息。此外,面向知识点知识组织还可以应用于学术文献的信息组织,我们还尝试将此功能加入学术论文的阅读器中,目前学术文献的信息组织还停留在以篇章为单位的阶段,如果从学术文献中的知识点着手,那么人类获取知识的方式将会发生很大改变。

6 结语。

随着网络化和数字化资源的普及,网页文本逐渐成为人们获取信息和知识的重要方式之一。研究者已经意识到当前的知识组织已经不仅局限于文献单元组织知识单元知识元对人类知识获取将会有更大意义。然而在当前条件下,要实现知识组织的应用系统还有一定的困难。本文受到超文本链接思想的启发,以知识点的承载单位——词汇为切入点,从用户阅读文本的角度,提出了一个文本知识点知识组织的系统架构。该架构不仅可以大大方便用户获取知识的过程,提高用户获取知识点效率,而且还可以根据知识点的使用日志,为用户提供知识点的应用服务。本文中知识点架构为知识点的即时获取提供了非常有价值的帮助,对文本知识点知识组织具有一定的实际指导意义。

参考文献:

[1]文庭孝,罗贤春, 刘晓英,等. 知识单元研究述评[J]. 中国图书馆学报, 2011, 37(9): 75—85.

[2]化柏林. 从知识抽取相关概念辨析看知识抽取的特点和发展趋势[J]. 情报科学, 2010, 28(2): 311—315.

[3]化柏林. 基于篇章内容分析的文本信息处理系统差异性探析[J]. 情报杂志, 2008,(9): 29—32.

[4]温有奎, 温浩, 徐端颐,等.基于知识元的文本知识标引[J]. 情报学报, 2006, 25(3): 282—288.

[5]文庭孝. 知识单元的演变及其评价研究[J]. 图书情报工作, 2007, 51(10): 72—76.

[6]文庭孝, 侯经川, 龚蛟腾,等.中文文本知识元的构建及其现实意义[J]. 中国图书馆学报, 2007, 33(6): 91—95. [7]王子舟, 王碧漠.知识的基本组分—文献单元知识单元[J]. 中国图书馆学报, 2003, 29(1): 5—11.

[8]朱德熙. 语法讲义[M]. 北京: 商务印书馆, 1982.

[9]蒋永福. 论知识组织[J].图书情报工作,2000,(6): 5—10.

[10]苏新宁.超文本技术在全文检索系统中的实现[J]. 情报学报, 2000, 19(6): 582—585.

[11]夏立新, 徐晨琛,白华.基于本体的电子政务知识管理研究[J]. 情报科学, 2009, (11):1607—1611.

[12]陈向东, 余锦凤.一种基于本体的知识组织工具[J]. 情报理论与实践, 2006, 29(6): 746—749.

[13]贾君枝. 简单知识组织系统与汉语主题词表[J]. 中国图书馆学报, 2008,34(1): 75—78.

[14]欧石燕.面向关联数据的语义数字图书馆资源描述与组织框架设计与实现[J].中国图书馆学报, 2012,38(6): 58—69.

[15]陈谷川,陈豫.语义网知识组织系统的研究与构架[J]. 现代图书情报技术, 2006, (4): 24—28.

[16]曾新红.中文叙词表本体的形式化表示与SKOS的比较研究——以及对建立中文知识组织系统形式化表示标准体系的建议[J]. 中国图书馆学报,2010, 36(2): 99—106.

作者简介:韩普,男,南京邮电大学讲师,研究方向:信息处理、信息分析;王东波,男,南京农业大学讲师,研究方向:自然语言处理与文本挖掘;谢靖,男,南京中医药大学讲师,研究方向:文本挖掘。

4 次访问