自然语言是人类日常生活中使用的语言,比如汉语、英语、法语等,是人类社会发展演变的结果,而非人为创造的语言。它是我们学习和生活的关键工具。自然语言是人类社会约定俗成的语言,区别于编程语言等人工语言。据估计,以语言文字形式记载和传播的知识占据了知识总量的80%以上。在计算机应用中,约85%的信息处理任务涉及语言文字,而用于数学计算和过程控制的比例分别仅为10%和5%。
自然语言处理是一种计算机技术,用于处理自然语言的形态、发音和意义等信息,包括输入、输出、识别、分析、理解和生成等操作。自然语言处理的目标是实现人机之间的信息交流,它涉及人工智能、计算机科学和语言学等多个领域。具体的应用形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成和语音识别等。
自然语言处理主要包括两个流程:自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义;自然语言生成则是指计算机能够用自然语言表达给定的意图。
自然语言的理解和分析是一个分层次的过程,许多语言学家将其分为五个层次,以便更好地体现语言的构成。这五个层次分别为语音分析、词法分析、句法分析、语义分析和语用分析。
在人工智能和语音信息处理领域,学者们普遍认为,通过图灵测试可以判断计算机是否理解了某种自然语言。图灵测试的标准包括:机器人能正确回答输入文本中的相关问题;机器能生成输入文本的摘要;机器能用不同的词语和句型复述输入文本;机器能将一种语言翻译成另一种语言。
自然语言处理是一门涉及计算机科学、语言学和心理学等多个学科的交叉学科。梳理自然语言处理的发展历程有助于我们更好地理解这一学科。
1950年,图灵提出了著名的“图灵测试”,这通常被认为是自然语言处理的起点。20世纪50年代到70年代,自然语言处理主要采用基于规则的方法,但这种方法存在局限性,因为规则无法涵盖所有语句,且需要开发者同时具备计算机和语言学的专业知识。因此,这一阶段虽然解决了一些简单问题,但未能从根本上实现自然语言处理的实用化。
70年代以后,随着互联网的快速发展和硬件设备的不断进步,自然语言处理思潮从经验主义转向理性主义,基于统计的方法逐渐取代基于规则的方法。贾里尼克和他的IBM华生实验室在这一转变中发挥了关键作用,他们通过统计方法显著提升了语音识别率,实现了从实验室到实际应用的跨越。
2008年以来,随着深度学习技术的发展,自然语言处理进入了新的阶段。深度学习技术通过多层神经网络实现端到端的训练,极大地提高了自然语言处理的性能。RNN(循环神经网络)已成为自然语言处理中最常用的方法之一,GRU(门控循环单元)和LSTM(长短期记忆网络)等模型也得到了广泛应用。
近年来,词向量表示、文本编码和解码技术以及大规模预训练模型在自然语言处理领域取得了显著进展。
自然语言处理领域的学者分布呈现出明显的地域特征。美国在这一领域的人才数量优势明显,主要分布在东西海岸;欧洲也有较多的人才,主要集中在中西部;亚洲的人才主要分布在中国东部及日韩地区。此外,自然语言处理领域的学者性别比例显示,男性学者占89.3%,女性学者占10.7%。
中国的自然语言处理学者分布也呈现出地域差异,京津地区的人才数量最多,其次是长三角和珠三角地区。内陆地区的人才相对较少,这种分布与区位因素和经济发展水平有关。此外,中国与其他国家在自然语言处理领域的合作也非常密切,其中中美合作最为频繁,中欧合作次之,中印合作在质量上表现较高。
近年来,预训练语言模型在自然语言处理领域取得了重要进展。预训练模型首先在大规模无监督语料上进行长时间的无监督或自监督训练,获得通用的语言建模和表示能力。然后在应用到实际任务时,只需在原有语言表示模型上增加针对特定任务的输出层,并使用少量任务语料进行微调即可。
ELMo、GPT、BERT等预训练语言模型的出现,使自然语言处理任务的表现远超传统模型。BERT是由Google AI提出的预训练语言模型,通过无监督预训练任务,使模型能够从无标注语料中获得通用的语言建模能力。
BERT之后,出现了许多对其扩展的模型,包括跨语言预训练的XLM和UDify,跨模态预训练的模型,融合知识图谱的ERNIE,将seq2seq等语言生成任务整合入BERT类模型的MASS和UniLM等。其中,重要的进展包括:
资料来源:公开网络