自然语言处理(NLP)是人工智能的关键领域之一,旨在使计算机能够理解人类的语言,实现人机之间的自然交流。刘邦博士在其博士论文《自然语言处理与文本挖掘的图结构表示》中,深入探讨了基于图结构的自然语言处理和文本挖掘方法。该论文将多种核心任务与图结构的强大表示能力相结合,充分利用深度学习的优势和文本中的结构信息,解决了许多关键问题:
论文提出了一种基于树或图结构的短文本和长文本分解算法,提高了语义匹配任务的准确性。此外,还开发了一个名为 Story Forest 的新闻聚类和组织系统,通过结构化的方式呈现事件之间的关系和时间顺序,显著提高了推荐系统的性能。
提出了 ConcepT 概念挖掘系统和 GIANT 系统,用于构建用户兴趣点的图谱。这些系统不仅提高了信息推荐的准确性,还能有效捕捉用户兴趣点的变化,避免了推荐系统中的单调现象。
提出了一种名为 ACS-Aware Question Generation 的系统,可以从无标注的文本中自动生成高质量的问答对。这种方法不仅降低了问答系统数据集的构建成本,还提高了阅读理解系统的性能。
自然语言处理的核心问题是文本表示和计算方法。传统的 bag-of-words 模型忽略了文本的词序和单词间的联系,而深度学习则通过学习单词的共现关系来改进文本表示。近年来,预训练语言模型如 Transformer 提供了上下文敏感的多层语义表示,极大地提升了 NLP 的性能。
在信息爆炸的时代,有效的信息组织变得尤为重要。Story Forest 系统通过对新闻文章进行事件粒度的聚类,形成了结构化的事件树,使得用户更容易理解和追踪事件的发展脉络。
ConcepT 概念挖掘系统从用户搜索行为中提取概念,构建了用户视角的认知系统,增强了信息推荐的准确性。它已经在腾讯 QQ 浏览器中得到应用,取得了显著的效果。
提出了 ACS-QG 任务,模拟人类提问过程,从无标注文本中生成高质量的问答对。实验表明,该系统生成的问答对质量远超现有算法。
本论文通过图结构表示和深度学习模型,显著提高了多种自然语言处理任务的性能。未来的研究将集中在长文本理解、多任务协同学习以及通用图结构表示等方面。