自然语言理解(NLP)概念|数据堂

图灵汇官网

近年来,人工智能(AI)领域频频传来好消息,各大公司纷纷争夺该领域的顶尖人才。笔者最近也收到了许多与此相关的咨询和讨论,不得不说,有时人们的确存在误解。人工智能是一个非常广泛的概念,涵盖了几乎所有学科,并非仅仅是计算机、通信、声学和光学等领域。虽然机器学习(如深度学习和强化学习)受到了广泛关注,但它们并不是实现人工智能的唯一途径。

尽管如此,基于大数据和机器学习的狭义人工智能确实已经深刻改变了我们的生活,尤其是在搜索、电子商务、广告、社交媒体和语音技术等方面。

长期以来,人们普遍认为语音识别是人工智能的核心领域,并且认为它是最接近实现人工智能的技术。然而,这种看法并不完全正确。实际上,语音识别只是人类交互的一种方式,与其他交互方式如按键、触摸和手势并无本质区别。许多人相信语音识别帮助人类产生了智慧,但这一观点缺乏有力的科学依据。当前,我们在人体结构的理解方面仍处于初级阶段,关于智慧的了解更是有限。不过,可以肯定的是,语音交互确实是获取知识的重要手段之一。

当前,人工智能的应用中,语音识别并非最关键的部分,其对日常生活的影响也相对有限。经过十多年的发展,特别是在深度学习技术的推动下,语音识别的准确率已大幅提升,但达到99%之后,进一步提高难度很大。即便如此,为何我们对语音识别依然不够满意呢?这是因为我们错误地将语言理解的概念附加到了语音识别上。实际上,语音识别只是人工智能的一个小分支,现在也可以被视为深度学习的一个子领域。就像人类的听觉系统一样,语音识别主要负责将语言转换成人类可理解的声音信号,在计算机应用中则是转换成文字。

那么,真正关键的问题是什么?从各大公司发布的资料来看,他们都在追求自然语言处理(NLP)或自然语言理解(NLU)的进步。当然,这也是得益于基础声学和语音识别技术的显著提升。前者解决了计算机“听得见”的问题,后者则致力于解决“听得懂”的问题。由此可见,“听得懂”才是未来十年内最核心的挑战。

自然语言处理(NLP)或自然语言理解(NLU),有时也被称作计算语言学(CL),是一个难以精确界定的概念。1999年,美国计算机科学家Bill Manaris曾这样定义:自然语言处理研究的是人在人际交流和人机交流中所遇到的语言问题。NLP通过构建计算机模型来模拟语言能力,并提出相应的方法来不断完善这些模型,进而设计出实用系统并评估这些系统的性能。笔者认为这一定义较为准确,但有些笼统。因此,我们时常感到困惑,但这并不奇怪,因为语言本身就是一个极其复杂的人类概念。

数据堂开发的一系列数据集产品为实现自然语言理解提供了强有力的支持。其中包括1300万组人机对话交互文本数据,这些数据可用于自然语言理解和知识库构建等多个领域。

总的来说,随着深度学习的发展,自然语言理解取得了一些进展,但NLP面临的问题依旧复杂,短期内难以取得重大突破。正因如此,这个行业需要更多有才华的人才持续投入。而且,这是一个充满潜力的新兴行业,优秀的毕业生有望获得可观的年薪。然而,过度的投资也可能给行业带来一些不利影响。

本文来源: 图灵汇 文章作者: 数码科技观察