关于自然语言的一个小科普请接收!

图灵汇官网

20世纪,全球对自然语言处理的研究一度陷入了误区。当时,学术界普遍认为,要让计算机完成翻译或语言识别等任务,必须让计算机具备类似人类的智能,从而理解自然语言。然而,现在几乎所有科学家都不再坚持这一观点,尽管仍有许多非专业人士误以为计算机是通过模拟人类智能来解决这些问题的。

为什么会形成这种认识?主要是因为人类习惯于按照自己的方式进行思考。人类通常认为,能够将英语翻译成汉语的人,必然对这两种语言有着深刻的理解。这正是直觉的作用。在人工智能领域,特别是自然语言处理领域,这种方法被称为“飞鸟派”,即观察鸟类如何飞行,然后模仿制造飞机,而不必深入了解空气动力学原理。

实际上,怀特兄弟发明飞机依靠的是空气动力学,而非仿生学。我们不应嘲笑前辈们的直觉,因为这是人类认知的普遍规律。如今,机器翻译和语言识别技术已相当成熟,并被数亿人使用,但外界许多人仍误以为这些应用依赖于计算机理解自然语言的能力。事实证明,这些技术主要依靠数学,尤其是统计学。

20世纪60年代,科学家们面临的问题是如何理解自然语言。当时普遍认为,首先需要完成两项任务:分析句子结构和获取语义。这实际上是惯性思维的结果,受到了传统语言学研究的影响。学习西方语言时,通常需要掌握语法规则、词性和构词法等内容。虽然这些规则是人类学习语言的有效工具,但它们容易用计算机算法描述,从而增强了基于规则的自然语言处理的信心。

相比之下,语义分析相对不够系统化。语义在计算机中的表达更加困难,因此直到20世纪70年代,这方面的工作进展缓慢。鉴于语义对于理解自然语言至关重要,各国政府在资助句法分析研究的同时,也投入了一部分资金支持语义分析和知识表示等相关课题。

例如,在学习英语时,即便中学和大学英语考试成绩优异,也不一定能考好GRE,更不用说看懂英文电影。原因在于,即使学习了10年的英语语法,也无法涵盖所有情况。即便能够制定一套包含所有自然语言现象的语法规则集,计算机也难以解析。自然语言在发展过程中形成了词义和上下文相关的特性,因此其语法较为复杂,具有上下文依赖性。

20世纪70年代,基于规则的句法分析很快达到了瓶颈。从20世纪80年代末至今的25年间,随着计算能力和数据量的提升,过去看似无法通过统计模型完成的任务逐渐变得可行,包括复杂的句法分析。到20世纪90年代末期,通过统计获得的句法规则甚至比语言学家总结的更具说服力。

因此,自然语言处理的研究从单纯的句法分析和语义理解转向了更为实用的应用,如机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识获取等。

以上内容是对原文的改写,旨在保留核心信息的同时提高可读性和独特性。

本文来源: 图灵汇 文章作者: 杜小含