自然语言处理(NLP)是一种利用计算机和软件解析人类语言(无论是书面还是口头)的技术。NLP 通过人工智能处理和分析文本或语音数据,从而理解和解释内容、分类内容或从中获得洞见。自然语言生成(NLG)作为 NLP 的一部分,利用计算机生成人类语言文本。自然语言理解(NLU)则负责录入文本,理解上下文和意图,然后生成智能回复。
NLP 技术的应用范围广泛,涵盖了垃圾邮件过滤器、拼写检查、语法检查、自动校正、语言翻译、情感分析和语义搜索等。最近,基于 Transformer 架构的深度学习(DL)方法的发展极大地提升了 NLP 技术的性能和功能。如今,先进的 NLP 模型已成为现代搜索引擎、语音助手和聊天机器人的核心技术,使这些应用程序能够更加高效地处理日常订单、路由查询和回答常见问题。
NLP 的应用正在迅速扩展,并有望在未来几年内实现几何级数的增长。据一项研究显示,与自然语言处理相关的产品和服务预计到 2025 年将达到 430 亿美元,而在 2017 年这一数字仅为 30 亿美元。这一显著增长反映了自然语言处理解决方案的广泛应用。此外,只有大约 15% 的企业数据存储在数据库中,其余的数据如文本、电子邮件、会议笔记和电话转录等也蕴含着巨大的业务价值。自然语言处理有望解锁这些数据中的商业价值,使其对企业决策者产生重要作用。
机器学习(ML)是推动当前大多数自然语言处理解决方案的核心,并将继续推动其进一步发展。这些系统使用 NLP 算法来理解词语的使用方式。通过从书籍、短语和惯用语中提取信息,NLP 系统识别词语和短语之间的模式和关系,从而“学习”理解人类语言。在 NLP 应用中,常用的技术如词嵌入将输入文本转换为词向量(一个词的数学表示)。借助此技术,通过将句子中的每个词翻译成一组数字,以便在输入到深度学习模型(例如 RNN、LSTM 或 Transformer)前理解上下文。随着神经网络的自我训练,这些数字会随时间变化,为每个词编码语义和上下文信息等独特属性。这些深度学习模型能够针对特定语言任务(如下一词语预测和文本摘要)提供适当的输出,这些任务用于生成输出序列。
然而,词嵌入等文本编码机制在捕捉细微差别方面可能存在挑战。例如,“bass fish”和“bass player”具有相同的表征。在处理长段落时,它们可能在结尾时丢失掉文章开头获取的上下文。BERT(Bidirectional Encoder Representations from Transformers)是一种深度双向的方法,能够更好地理解和保留上下文。训练语言模型时,一个关键挑战是缺少标记数据。BERT 在无监督任务上接受训练,通常使用书籍语料库、英语维基百科等非结构化数据集。
长期以来,AI 研究人员一直致力于让计算机理解人类语言及其细微差别,并作出适当的反应。然而,在采用加速计算的现代 AI 技术出现之前,构建具有真正自然语言处理(NLP)功能的系统是不可能的。一个由数百个核心组成的 GPU 可以并行处理数千个线程,因此已成为训练深度学习模型和执行推理的首选平台,其性能比纯 CPU 平台高出 10 倍。
近年来,NLP 技术的不断进步和突破是推动 NLP 发展的重要因素之一,其中重要的一点是部署 GPU 来处理庞大的且高度复杂的语言模型。基于 NLP Transformer 的深度学习模型,如 BERT,无需按顺序处理连续数据,与 RNN 相比,可以在 GPU 上实现更多并行化,从而减少训练时间。BERT 利用无监督学习方法、预训练模型的迁移学习能力以及 GPU 的加速能力,使其在业界得到广泛应用。经过快速训练和优化的 GPU 支持模型,能够将语音辅助应用程序的响应时间从数十秒缩短至几毫秒,从而实现更加自然的计算机辅助交互。
在过去十年里,由于 GPU 驱动的递归神经网络的改进,自然语言处理应用呈爆炸式增长。这使得初创公司能够提供语音服务、语言教师和聊天机器人等服务。
医疗健康领域面临的一大挑战是难以获得医疗服务。通过实施 NLP 来训练聊天机器人,医疗健康行业可以解决医疗专业人员短缺的问题,并建立与患者的沟通渠道。此外,NLP 在生物医学文本挖掘(通常称为 BioNLP)中的应用也非常重要。鉴于生物文献的数量庞大以及生物医学出版物的发布速度不断提升,NLP 成为了一个关键工具,能够从已发表的研究中提取信息,推动生物医学领域的知识进步,这对药物研发和疾病诊断具有重要意义。
NLP 是构建更强大的聊天机器人和 AI 助手的关键组成部分。在众多基于 NLP 的应用程序中,BERT 已成为机器学习领域 NLP 的领军者及语言模型。借助 AI,NVIDIA 最近打破了 BERT 训练速度的记录,有助于释放未来几年内在线提供的数十亿预期对话式 AI 服务的潜力,使其达到人类水平的理解能力。例如,银行可以使用 NLP 来评估信用记录较少或没有信用记录的客户的信誉。
除了医疗健康领域,聊天机器人技术在零售行业的应用也非常广泛。聊天机器人能够准确分析客户查询,并生成回复或建议,从而简化客户流程并提高商店运营效率。NLP 还可用于文本挖掘客户反馈和情感分析。
借助 NVIDIA GPU 和 CUDA-X AI™ 库,可以快速训练和优化大量的先进语言模型,从而在几毫秒或更快的时间内完成推理。这是一项重大进步,可以结束快速 AI 模型与大型复杂 AI 模型之间的权衡。NVIDIA 的 AI 平台率先将 BERT 的训练时间控制在一小时之内,并在 2 毫秒多一点的时间内完成 AI 推理。在与复杂语言模型协作时,NVIDIA GPU 的并行处理能力和 Tensor Core 架构可实现更高的吞吐量和可扩展性,从而为 BERT 的训练和推理提供优异的性能。借助这种突破性的性能水平,开发者能够为大型应用程序应用先进的语言理解技术,供全球数亿消费者使用。早期采用 NVIDIA 性能提升技术的公司包括 Microsoft 以及全球一些具创新性的初创公司。这些组织借助 NVIDIA 平台为客户开发高度直观、响应即时且基于语言的服务。