聚类分析在外国语言学研究中的应用探讨

【摘要】 对聚类分析语言研究中的应用领域进行了阐述,并围绕聚类分析在外国语言研究中的应用价值与前景进行探讨研究,希望能够为推动聚类分析在外国语言研究中的应用发展带来一点理论支持。

【关键词】 聚类分析 外国语言研究 应用所谓的聚类分析,又被称为数值分类学,这是一种多元统计分类技术。在社会各领域中,聚类分析都有着广泛的研究与运用,并取得了一定的成效。以外国语言研究为例,相较于其他方法,聚类分析语言统计中具有突出优势,鉴于此,针对聚类分析在外国语言研究中的应用具有重要的研究价值。

一、聚类分析语言研究中的应用领域。

在语义、句法型式、认知语言学、心理学语言学、计算语言学以及社会语言学等多个领域,聚类分析都具有一定的应用价值。通常情况下,聚类分析是结合到语料库数据一起使用。关于聚类分析在外国语言研究中的应用领域,具体阐述如下:

1.词汇语义学。

语言学中的有一个假设:语言项目的语境分布信息对该语言项目的语义、功能特点进行了揭示,语言成分的分布条件或限制就是语言成分的意义所在。语料库将词汇的分布环境信息涵盖其中,以共现词及其频率为例,基于语料库中的共现特征的频率信号的获取,剧烈分析可以对近义词、反义词的意义与用法有一个客观、系统的辨析。相关人员就提出词汇行为轮廓研究方法就对聚类分析加以运用。值得一提的,实验表明,同(近)义词的类或簇的心理现实性比较突出。在词汇语义学中,在词典编纂、外语教学领域聚类分析往往具有较强的适用性。

2.句法型式研究

在对语料库句法结构进行聚类时,聚类分析能够提供一定的帮助,并且在经验数据性的句法研究中,聚类分析也具有适用性。例如人们在聚类语料库中某个单词的全部索引时,对该词汇的全部句法型式进行识别与提取,进而就可以使我们对特定单词的句法行为的认识变得更加系统与全面。在基于数据驱动的句法研究、词典编纂以及外语教学而言,其应用价值显然是比较大的。

所谓的型式,就是短语单位,其组成部分包括名词、形容词以及补足语成分。研究型式句法是为了将不同词类的所有型式抽象、归纳出来。在对句法型式进行抽取与概括时,聚类分析主要采取如下做法:首先对句法型式的一系列特征集合进行建构,然后进行每个索引行为中具体语言信息向对应型式特征信息的转换,基于对相似度算法的应用,将聚类分析用于同一检索词析出的索引行中,并将每组索引行中的公共特征项提取出来,最后使相关单词的句法型式的自动识别与提取得以实现,具体如下图所示。

3.语言风格变异研究

对于一个语篇而言,其呈现的语言结构单位的使用统计特征分为很多种,例如词长、句长、型符类符比、词性比例、句型比例等等。大量研究表明,根据文本体裁的不同,语言结构特征就客观而言存在变异。在语言结构单位特征频率分布的差异的影响下,语言风格变异自然就会形成。语篇风格、文体也是基于这些频率分布差异得以构成的。此外,站在一个作者的角度,其语言中表现出来的语言结构单位的个性化使用统计特征也必然包含了很多种,我们可以统计出一个作者不同作品的语言使用情况,基于分析获取该作者对不同语言结构单位使用的统计特征。相反的,我们也可以通过作者对语言结构单位使用的统计特征,将聚类分析运用将作者身份已知的文本以及身份未知的文本分析中,然后以分析结果为参考,对这些匿名作品的作者进行有效识别。

4.语言的地理变异

语言的地理变异又被称为方言聚类,在语言学这一领域中聚类分析有着非常长的应用历史。在上世纪80年代初,就有研究人员在方言分类研究中运用了聚类分析,并取得了理想的成效。之后,欧洲方言计量学研究中,以某些研究人员为代表的对聚类分析应用越来越广泛。

5.语言的社会变异

语言变异与社会结构之间有着非常复杂的关系,在研究中如果选择传统方法,显然是无法取得理想的效果的,究其原因就在于传统的研究方法的盲目性比较强,并且系统性有所缺失,大部分情况下需要以个人经验或灵感对语言提出假设并展开研究,而相较于规模庞大的语言数据而言,个人经验或灵感显然是微不足道的。而聚类分析应用则是传统方法的问题得到有效规避,这种方法能够为研究者在规模庞大的语言数据中寻找数据结构提供支持,然后与数据结构为基础,对相关研究变量进行有效分析、提取,使不同变量之间的关联被系统性的发现出来,然后通过假设对理论模型进行建构。

二、聚类分析应用分析及发展前景。

相较于定性的分类方法,聚类分析的客观性与可重复性是其应用价值的重要体现。聚类分析是以事实与数据为基础得到运用的,这是其客观性特点的体现。当然不可否认,聚类分析并没有将所有主观因素排除掉,在某些方面的选择上其主观性依然存在,例如算法选择、距离计算方式以及聚类数值特征等等。然而,如果人们设定了聚类分析中的指标、类的定义、距离计算方式以及算法等参数,那么聚类的可重复性、可检验性就得到突出,并且也提供一个基准来比较不同分类方法的优劣。以主观定性为依托的分类方法具有较低的重复性,由于专家与新手的理论素养、经验以及直觉存在很大的差别,因此复制起来存在较大难度,他们的分类结果也不尽相同。众所周知,在科学研究中,客观性与可重复性是最为基本的要求,因此,相较于定性分类聚类分析的科学性更强。

此外,聚类分析在规模庞大的数据处理中也具有很高的应用价值。对于小数据而言,人们可以对其结构进行有效分析,然后提出猜想和假设。但如果数据规模庞大且复杂程度较高,那么受限于认知能力,人们可能并不能透过数据表面对其中的结构与规律进行研究与分析,同时提出的猜想与假设也可能不尽合理。而基于聚类分析应用,可以使大数据处理变得高效、准确,使其中的结构与规律得以发现,为人们提出假设提供支持。

三、结语。

在大数据时代背景下,语料库数据的内容必然更加丰富,数据挖掘技术的应用也取得了重大突破。现阶段,人们逐渐开始质疑对内省式语言数据的可靠性,并对语言用法数据加以运用。由此可见,在未来在面对规模庞大的语言数据时,只有通过数据挖掘,才能够实现语言知识的获取。而人工与肉眼显然是无法处理这些语言数据的,此时聚类分析的价值就体现出来。作为外国语言研究这,必须对聚类分析以及其他的数据挖掘技术进行深入研究与学习,促使自身研究能够与时代发展形势相适应。

参考文献:

[1]孙仕光,張萍.聚类分析在外国语言研究中的应用[J].怀化学院学报,2016,(3) :108—113.

[2]刘佳玲.聚类分析在外国语言研究中的应用[J].科学与财富,2017,(19) :97.

[3]陈芯莹,刘海涛.语义、句法网络作为语体分类知识源的对比研究[J].计算机工程与应用,2014,(02) :10—14+43.

[4]陈芯莹,刘海涛.句法复杂网络作为语体分类的知识源研究[J].计算机工程与应用,2013,(08) :32—36.

[5]陈芯莹,刘海涛.句法复杂网络作为语体分类的知识源研究[J].计算机工程与应用,2012.

3 次访问