彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

投稿
APP
微信扫一扫获取更多

彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

晏倩

2024-07-26 14:27:05

图灵汇官网

导读

本次研究由来自清华大学、墨尔本大学、香港中文大学及中国科学院大学的专家团队共同完成。该团队聚焦于大模型、知识图谱、推荐搜索、自然语言处理以及大数据等领域。

知识图谱的重要性与挑战

知识图谱作为结构化知识的载体，广泛应用于信息检索、电商、决策推理等多个领域。然而，各机构或方法构建的知识图谱在表示方式和覆盖范围上存在差异，如何高效地整合这些知识图谱，以构建全面、丰富且准确的知识体系，成为了提高知识图谱覆盖度和精确度的关键问题。这就引出了知识图谱对齐（Knowledge Graph Alignment）的任务，旨在解决不同知识图谱间的整合难题。

自动化知识图谱对齐：AutoAlign

传统方法在对齐实体和谓词时需依赖人工标注，这种方法不仅成本高昂、效率低下，且对齐效果不佳。本次研究团队创新性地提出AutoAlign，一种基于大型语言模型的全自动化知识图谱对齐方法。AutoAlign无需人工参与对齐的种子实体或谓词，而是通过算法自动理解实体语义和结构进行对齐，显著提升了效率和准确性。

AutoAlign方法概览

AutoAlign由三个关键部分构成：

谓词嵌入模块：旨在对齐知识图谱中含义相近的谓词，如将“isin”与“locatedin”进行匹配。
实体嵌入学习：包含属性嵌入模块与结构嵌入模块，旨在对齐实体及其关联的属性和结构信息。

整个流程通过图编码方法，如TransE，实现谓词的对齐，并通过自动化提示词设计，自动对齐实体类型，以捕捉谓词间的相似性。

实验验证与结果

研究团队在最新基准数据集DWY-NB上进行了实验，结果表明AutoAlign在知识图谱对齐性能上表现出显著提升，尤其在无人工标注种子的情况下，相较于现有最佳模型，AutoAlign展现出了明显优势。这证明了AutoAlign不仅在对齐准确性上超越了现有方法，而且在完全自动化对齐任务中展现出了卓越的能力。