【重磅】Google开源全球最精准自然语言解析器SyntaxNet

图灵汇官网

【新智元导读】

Google Research今日宣布,全球最精准的自然语言解析器SyntaxNet正式开源。谷歌持续推动开源进程。据透露,谷歌训练的模型在语言理解方面的准确率已超过90%。近期,各大科技巨头纷纷加速其人工智能平台的开源步伐,谷歌和Facebook一直处于领先地位。特斯拉创始人马斯克的OpenAI也致力于构建一个完全公开的AI模型训练平台。一向被认为保守的亚马逊也开始尝试开源。

语言理解被认为是人工智能领域中的终极挑战之一。要实现全面的人工智能,首先需要解决语言理解的问题。语言理解的过程包括词汇分割、依存关系构建以及先验知识的应用等多个步骤。谷歌资深研究科学家Slav Petrov表示,谷歌团队一直在探索如何让计算机系统更智能地理解和处理人类语言。今天,他们分享了研究成果,并发布了SyntaxNet开源项目。这是一个基于TensorFlow的开源神经网络框架,提供了自然语言理解系统的基石。

SyntaxNet是一个开源框架,被称为句法解析器,它是众多自然语言理解系统的关键组成部分。用户可以利用SyntaxNet训练新的模型,并使用已经训练好的Paesey McParseface模型来分析英语文本。Paesey McParseface模型采用先进的机器学习算法,能够分析句子的语言结构,并理解每个词的功能。该模型在解析英语句子方面表现出色,有助于推动自动信息提取、翻译等领域的发展。

SyntaxNet的工作原理是接收一个句子,自动为每个单词打上词性标签,并通过依存句法树展示这些词的句法功能。例如,句子“Alice saw Bob”可以被解析成依存句法树,其中Alice和Bob被标记为名词,saw作为动词,并且saw是整个句子的中心。Paesey McParseface能够准确解析这类句子,甚至更复杂的句子。

句法分析之所以困难,主要是因为人类语言的多义性。例如,句子“Alice drove down the street in her car”可以有两种不同的解析方式。SyntaxNet利用神经网络处理这种多义性,通过逐步处理句子中的每个词,并基于合理性的评分来做出决策。这种方法需要结合学习和搜索,以达到最佳的预测准确性。Parsey McParseface在标准测试中表现出色,其准确率超过94%,接近人类水平。尽管如此,它在分析互联网上的非正式文本时仍面临挑战,准确率略低于90%。

尽管如此,Parsey McParseface已经足够应用于许多实际场景。目前,主要的问题在于处理多义性,这需要结合现实世界的知识和深度语境推理。未来,研究者们将继续努力,以提升自然语言理解的能力,使其适用于各种语言和语境。

如果您想尝试使用SyntaxNet,请参考相关代码,并下载Parsey McParseface模型。主要开发者包括Chris Alberti, David Weiss, Daniel Andor, Michael Collins 和 Slav Petrov,祝您成功!

本文来源: 图灵汇 文章作者: 金凤霞