本次研究由来自清华大学、墨尔本大学、香港中文大学及中国科学院大学的专家团队共同完成。该团队聚焦于大模型、知识图谱、推荐搜索、自然语言处理以及大数据等领域。
知识图谱作为结构化知识的载体,广泛应用于信息检索、电商、决策推理等多个领域。然而,各机构或方法构建的知识图谱在表示方式和覆盖范围上存在差异,如何高效地整合这些知识图谱,以构建全面、丰富且准确的知识体系,成为了提高知识图谱覆盖度和精确度的关键问题。这就引出了知识图谱对齐(Knowledge Graph Alignment)的任务,旨在解决不同知识图谱间的整合难题。
传统方法在对齐实体和谓词时需依赖人工标注,这种方法不仅成本高昂、效率低下,且对齐效果不佳。本次研究团队创新性地提出AutoAlign,一种基于大型语言模型的全自动化知识图谱对齐方法。AutoAlign无需人工参与对齐的种子实体或谓词,而是通过算法自动理解实体语义和结构进行对齐,显著提升了效率和准确性。
AutoAlign由三个关键部分构成:
整个流程通过图编码方法,如TransE,实现谓词的对齐,并通过自动化提示词设计,自动对齐实体类型,以捕捉谓词间的相似性。
研究团队在最新基准数据集DWY-NB上进行了实验,结果表明AutoAlign在知识图谱对齐性能上表现出显著提升,尤其在无人工标注种子的情况下,相较于现有最佳模型,AutoAlign展现出了明显优势。这证明了AutoAlign不仅在对齐准确性上超越了现有方法,而且在完全自动化对齐任务中展现出了卓越的能力。
AutoAlign的出现为知识图谱对齐提供了全新的解决方案,通过自动化过程提高了效率和准确性,为构建更加全面、丰富和精确的知识体系奠定了坚实的基础。