百科具体知识整合大型措辞模子和常识图谱的门途图

知识百科 2024-04-07 22:17:52 0 百科具体知识  

  将知识图谱与大型语言模型结合,可以为LLM带来更强大的知识表示和推理能力,同时辅助其在信息检索和生成任务中表现更出色,并提供更可信的知识验证,从而拓展了LLM在各种实际应用场景中的应用范围和性能。具体应该如何做呢? 正好,有研究团队整理了一个非常详细的综述。

  大型语言模型(LLM),如ChatGPT和GPT4,由于其新兴的能力和普适性,在自然语言处理和人工智能领域引起了新的浪潮。然而,LLM是黑匣子模型,往往无法充分捕捉和获取事实知识。相比之下,知识图谱(KG),例如和华普,是明确存储丰富事实知识的结构化知识模型。KG可以通过提供外部知识来增强LLM的推理和可解释性。与此同时,由于知识图谱的建立困难且不断发展,这对现有的知识图谱方法在生成新事实和表示未见知识方面提出了挑战。因此,统一LLM和KG,同时利用它们的优势,是互补的。在本文中,我们提出了统一LLM和KG的前瞻性路线图。我们的路线图包括三个通用框架,即:1)增强的KG-LLM,将KG融入LLM的预训练和推理阶段,或用于增强LLM所学知识的理解;2)LLM增强的KG,利用LLM进行不同的KG任务,如嵌入、补全、构建、图文生成和问答;3)协同作用的LLM+KG,其中LLM和KG发挥相等的作用,并以数据和知识驱动的双向推理方式相互增强LLM和KG。我们在路线图中回顾和总结了这三个框架内的现有工作,并指出了它们未来的研究方向。

  大型语言模型(LLM)[1](如BERT [1],RoBERTA [2]和T5 [3])在大规模语料库上进行预训练,已经在各种自然语言处理(NLP)任务中展现出良好的性能,例如问答[4]、机器翻译[5]和文本生成[6]。最近,模型规模的大幅增加进一步赋予了LLM新兴的能力[7],为将LLM应用为人工通用智能(AGI)铺平了道路。像ChatGPT2和PaLM23这样的先进LLM,拥有数十亿的参数,展示了在许多复杂实际任务中的巨大潜力,如教育[8]、代码生成[9]和推荐[10]。

  尽管大型语言模型(LLM)在许多应用中取得了成功,但它们被指责缺乏事实知识。具体来说,LLM会记忆训练语料库中包含的事实和知识[14]。然而,进一步的研究揭示出,LLM无法回忆事实,并经常产生错误的陈述,出现错觉现象[15],[28]。例如,LLM在被问到“爱因斯坦是何时发现重力?”时可能会说“爱因斯坦在1687年发现了重力”,这与艾萨克·牛顿制定的引力理论相矛盾。这个问题严重影响了LLM的可信度。

  作为黑匣子模型,LLM还因其缺乏可解释性而受到批评。LLM以参数的方式隐含地表示知识。很难解释或验证LLM获取的知识。此外,LLM通过概率模型进行推理,这是一个犹豫不决的过程[16]。LLM用于预测或决策的具体模式和函数对人类来说是不可直接访问或解释的[17]。即使一些LLM能够通过应用思维链来解释其预测结果[29],它们的推理解释也会出现错觉问题[30]。这严重影响了LLM在医疗诊断和法律判断等高风险场景中的应用。例如,在医疗诊断场景中,LLM可能会错误地诊断一种疾病,并提供与医学常识相矛盾的解释。这还引发了另一个问题,即在通用语料库上训练的LLM可能无法很好地推广到特定领域或新知识,因为它们缺乏领域特定知识或新的训练数据[18]。

  为了解决上述问题,将知识图谱(KG)整合到LLM中是一个潜在的解决方案。知识图谱以三元组的方式(头实体、关系、尾实体)存储大量的事实知识,是一种结构化和确定性的知识表示方法(如维基数据[20]、YAGO[31]和NELL[32])。KG对于各种应用至关重要,因为它们提供准确的显式知识[19]。此外,它们以符号推理能力而闻名[22],能够生成可解释的结果。KG还可以随着新知识的不断添加而不断演化[24]。此外,专家可以构建领域特定的KG,提供精确可靠的领域特定知识[23]。

  然而,KG的构建很困难[33],现有的KG方法[25],[27],[34]无法很好地处理现实世界KG的不完整和动态变化的特性。这些方法无法有效地建模未知实体和表示新的事实。此外,它们通常忽略了KG中丰富的文本信息。此外,现有的KG方法通常针对特定的KG或任务进行定制,缺乏足够的通用性。因此,利用LLM来解决KG面临的挑战也是必要的。我们在图1中总结了LLM和KG的优点和缺点。

  最近,将LLM与KG统一的可能性引起了研究人员和实践者的越来越多的关注。LLM和KG天然相互关联,并且可以相互增强。在增强型KG-LLM中,KG不仅可以在LLM的预训练和推理阶段中融入,提供外部知识[35]–[37],还可以用于分析LLM并提供可解释性[14],[38],[39]。在LLM增强型KG中,LLM已经被用于各种与KG相关的任务,如KG嵌入[40],KG补全[26],KG构建[41],图文生成[42]和KG问答[43],以改进KG的性能并促进应用。在协同LLM + KG中,研究人员将LLM和KG的优点相结合,相互增强知识表示[44]和推理[45],[46]。尽管有关增强型LLM的一些调研[47]–[49]主要集中在使用KG作为外部知识增强LLM,但它们忽略了在LLM中整合KG的其他可能性以及LLM在KG应用中的潜在作用。

  在本文中,我们提出了一个展望未来的路线图,以统一LLM和KG,利用它们各自的优势,克服各种下游任务中的局限性。我们提供了详细的分类,进行了全面的综述,并指出了这些快速发展领域的新方向。我们的主要贡献总结如下:

  1)路线图。我们提出了一个展望未来的路线图,以整合LLM和KG。我们的路线图包括三个通用框架,即KG增强LLM,LLM增强KG和协同LLM + KG,为统一这两个不同但互补的技术提供了指导。

  2)分类和综述。针对路线图中的每个整合框架,我们提供了详细的分类和独特的研究分类法。在每个类别中,我们从不同整合策略和任务的角度回顾了研究,为每个框架提供了更多的见解。

  3)涵盖新进展。我们涵盖了LLM和KG中的先进技术。我们讨论了ChatGPT和GPT-4等最新LLM模型,以及多模态知识图谱等新颖的KG。

  4)挑战和未来研究方向的总结。我们强调现有研究面临的挑战,并提出了几个有前景的未来研究方向。

  本文的其余部分组织如下。第2节首先介绍LLM和KG的背景。第3节介绍路线图和本文的整体分类。第4节介绍KG增强LLM的不同方法。第5节描述了可能的LLM增强KG方法。第6节展示了协同LLM和KG的方法。第7节讨论挑战和未来研究方向。最后,第8节总结本文。

  基于大规模语料库预训练的大型语言模型(LLMs)在各种自然语言处理任务中显示出巨大潜力[13]。如图3所示,大多数LLMs源自Transformer设计[50],它包含由自注意力机制增强的编码器和解码器模块。根据体系结构,LLMs可以分为三组:1)仅编码器LLMs,2)编码器-解码器LLMs和3)仅解码器LLMs。如图2所示,我们总结了几个具有不同模型结构、模型大小和开源可用性的代表性LLMs。

  仅编码器的大型语言模型仅使用编码器对句子进行编码并理解单词之间的关系。这些模型的常见训练范式是预测输入句子中的掩码单词。这种方法是无监督的,并且可以在大规模语料库上进行训练。像BERT [1]、ALBERT [51]、RoBERTa [2]和ELECTRA [52]这样的仅编码器LLMs需要添加额外的预测头来解决下游任务。这些模型在需要理解整个句子的任务(如文本分类[53]和命名实体识别[54])中效果最好。

  编码器-解码器的大型语言模型采用编码器和解码器模块。编码器模块负责将输入句子编码为隐藏空间,解码器用于生成目标输出文本。编码器-解码器LLMs的训练策略可以更加灵活。例如,T5 [3]通过屏蔽和预测屏蔽单词的范围进行预训练。UL2 [55]统一了多个训练目标,如不同的屏蔽范围和屏蔽频率。编码器-解码器LLMs(例如T0 [56]、ST-MoE [57]和GLM-130B [58])能够直接解决基于上下文生成句子的任务,例如摘要、翻译和问答[59]。

  仅解码器的大型语言模型仅采用解码器模块来生成目标输出文本。这些模型的训练范式是预测句子中的下一个单词。大规模的仅解码器LLMs通常可以根据少量示例或简单指令执行下游任务,而无需添加预测头或微调[60]。许多最先进的LLMs(例如Chat-GPT [61]和GPT-4)采用仅解码器架构。然而,由于这些模型是闭源的,学术研究人员很难进行进一步的研究。最近,Alpaca5和Vicuna6作为开源的仅解码器LLMs发布。这些模型基于LLaMA进行微调,并且在性能上与ChatGPT和GPT-4相当。

  提示工程是一个新兴领域,专注于创建和优化提示,以最大化大型语言模型(LLM)在各种应用和研究领域中的效果[63]。如图4所示,提示是为LLM指定的任务(例如情感分类)而创建的一系列自然语言输入。提示可以包含以下几个元素:1)指令,2)上下文和3)输入文本。指令是一个短句,指示模型执行特定任务。上下文提供输入文本或少量示例的背景信息。输入文本是需要模型处理的文本。

  提示工程旨在提高大型语言模型(如ChatGPT)在各种复杂任务中的能力,例如问答、情感分类和常识推理。链式思维(CoT)提示[64]通过中间推理步骤实现复杂推理能力。Liu等人[65]将外部知识纳入设计了更好的知识增强提示。自动提示工程(APE)提出了一种自动生成提示的方法,以提高LLM的性能[66]。提示提供了一种简单的方式来利用LLM的潜力,而无需微调。精通提示工程有助于更好地理解LLM的优势和局限性。

  知识图谱(KGs)以三元组的形式存储结构化知识,其中KG = {(h, r, t) ? E × R × E},E和R分别表示实体和关系的集合。现有的知识图谱(KGs)根据存储的信息可以分为四类:1)百科知识图谱,2)常识知识图谱,3)领域特定知识图谱和4)多模态知识图谱。我们在图5中示例了不同类别的知识图谱。

  百科知识图谱是最常见的知识图谱,它代表了现实世界中的常识知识。百科知识图谱通常通过整合来自不同和广泛的信息源构建,包括人类专家、百科全书和数据库。Wikidata [20]是最广泛使用的百科知识图谱之一,它包含从文章中提取的各种知识。其他典型的百科知识图谱,如Freebase [67]、Dbpedia [68]和YAGO [31],也源自。此外,NELL [32]是一个不断完善的百科知识图谱,它会自动从网络中提取知识,并利用这些知识来不断改进自己的性能。除英语以外,还有一些以其他语言为基础的百科知识图谱,例如CN-DBpedia [69]和Vikidia [70]。最大的知识图谱名为Knowledge Ocean(KO)[7],目前包含4,878,43636个实体和17,311,58349个关系,同时支持英文和中文。

  常识知识图谱描述了关于日常概念(如对象和事件)及其关系的知识[71]。与百科知识图谱相比,常识知识图谱通常对从文本中提取的隐含知识进行建模,例如(Car,UsedFor,Drive)。ConceptNet [72]包含广泛的常识概念和关系,可以帮助计算机理解人们使用的词汇的含义。ATOMIC [73]和ASER [75]专注于事件之间的因果关系,可用于常识推理。其他一些常识知识图谱,如TransOMCS [76]和CausalBank [77],是自动构建的,提供常识知识。

  领域特定知识图谱通常用于表示特定领域(如医学、生物学和金融)中的知识[23]。与百科知识图谱相比,领域特定知识图谱通常规模较小,但更准确可靠。例如,UMLS [78]是医学领域的一个领域特定知识图谱,包含生物医学概念及其关系。此外,其他领域的领域特定知识图谱还包括金融[79]、地质学[80]、生物学[81]、化学[82]和家谱学[83]等。

  与传统的只包含文本信息的知识图谱不同,多模态知识图谱以多种形式(如图像、声音和视频)表示事实[84]。例如,IMGpedia [85]、MMKG [86]和Richpedia [87]将文本和图像信息都整合到知识图谱中。这些知识图谱可以用于各种多模态任务,如图像文本匹配[88]、视觉问答[89]和推荐[90]。

  ChatGPT/GPT-4是基于LLM的聊天机器人,可以以自然对话的方式与人类进行交流。为了提高LLMs的知识感知能力,ERNIE 3.0和Bard将KGs纳入他们的聊天机器人应用中。与聊天机器人不同,Firefly开发了一款照片编辑应用,允许用户使用自然语言描述来编辑照片。Copilot、New Bing和Shop.ai采用LLMs来增强其应用,涵盖了编码助手、网络搜索和推荐领域。Wikidata和KO是两个代表性的知识图谱应用,用于提供外部知识。OpenBG [91]是一个用于推荐的知识图谱。Doctor.ai开发了一个医疗助手,结合LLMs和KGs提供医疗建议。

  在本节中,我们首先提出了一个明确的框架,用于统一LLMs和KGs。然后,我们对统一LLMs和KGs的研究进行分类。

  3.1 路线所示,我们提出了统一KGs和LLMs的路线图。在路线图中,我们确定了三个统一LLMs和KGs的框架,包括KG增强的LLMs,LLM增强的KGs和协同LLMs + KGs。

  LLMs以其从大规模语料库中学习知识的能力以及在各种自然语言处理任务中取得的最先进性能而闻名。然而,LLMs经常因幻觉问题[15]和缺乏可解释性而受到批评。为了解决这些问题,研究人员提出了使用知识图谱(KGs)增强LLMs的方法。KGs以明确和结构化的方式存储大量知识,可用于增强LLMs的知识感知能力。一些研究人员提出在LLMs的预训练阶段将KGs纳入其中,这有助于LLMs从KGs中学习知识[92],[93]。其他研究人员则提出在LLMs的推理阶段将KGs纳入其中。通过从KGs中检索知识,可以显著提高LLMs在访问特定领域知识方面的性能[94]。为了提高LLMs的可解释性,研究人员还利用KGs来解释LLMs的事实[14]和推理过程[95]。

  KGs以存储结构化知识在许多实际应用中发挥重要作用[19]。现有的KGs方法在处理不完整的KGs[25]和处理文本语料库构建KGs方面存在不足。随着LLMs的通用性,许多研究人员尝试利用LLMs的能力来解决与KG相关的任务。

  将LLMs应用为KG相关任务的文本编码器是最直接的方法。研究人员利用LLMs处理KGs中的文本语料库,并使用文本的表示来丰富KGs的表示[97]。一些研究还利用LLMs处理原始语料库,并提取关系和实体用于KG构建[98]。最近的研究尝试设计一种能够有效将结构化KGs转化为LLMs可理解格式的KG提示。这样,LLMs可以直接应用于与KG相关的任务,例如KG补全[99]和KG推理[100]。

  LLMs和KGs的协同引起了研究人员的越来越多的关注[40],[42]。LLMs和KGs是两种本质上互补的技术,应该统一到一个通用框架中以相互增强。

  为了进一步探索统一LLMs + KGs的方法,我们提出了一个统一的框架,如图7所示。统一框架包含四个层次:1)数据层,2)协同模型层,3)技术层和4)应用层。在数据层中,LLMs和KGs分别用于处理文本和结构化数据。随着多模态LLMs [101]和KGs [102]的发展,该框架可以扩展到处理多模态数据,如视频、音频和图像。在协同模型层中,LLMs和KGs可以相互协同以提高它们的能力。在技术层中,已经在LLMs和KGs中使用的相关技术可以纳入该框架,进一步提高性能。在应用层中,LLMs和KGs可以集成在一起,用于解决各种实际应用,如搜索引擎[103],推荐系统[10]和人工智能助手[104]。

  为了更好地了解统一LLMs和KGs的研究,我们进一步为路线图中的每个框架提供了细粒度的分类。具体而言,我们关注不同的KGs和LLMs集成方式,即KG增强的LLMs,LLM增强的KGs和协同LLMs + KGs。研究的细粒度分类如图8所示。

  KG增强的LLMs。集成KGs可以增强LLMs在各种下游任务中的性能和可解释性。我们将KG增强的LLMs的研究分为三组:

  2)KG增强的LLM推理:包括利用KGs在LLMs的推理阶段使用KGs,使LLMs能够在无需重新训练的情况下访问最新的知识。

  3)KG增强的LLM可解释性:包括使用KGs来理解LLMs学到的知识以及解释LLMs的推理过程的工作。

  1)LLM增强的KG嵌入:包括将LLMs应用于通过编码实体和关系的文本描述来丰富KGs表示的研究。

  2)LLM增强的KG补全:包括利用LLMs对文本进行编码或生成事实,以提高KG完成任务的性能的论文。

  3)LLM增强的KG构建:包括利用LLMs来处理实体发现、共指消解和关系提取等任务,用于KG构建的研究。

  4)LLM增强的KG到文本生成:包括利用LLMs生成描述KGs事实的自然语言的研究。

  5)LLM增强的KG问答:包括将LLMs应用于连接自然语言问题并从KGs中检索答案的研究。

  大型语言模型(LLMs)在许多自然语言处理任务中取得了有希望的结果。然而,LLMs因缺乏实际知识并在推理过程中产生事实错误而受到批评。为了解决这个问题,研究人员提出了将知识图谱(KGs)集成到LLMs中以增强其性能。在本节中,我们首先介绍KG增强的LLMs预训练,旨在在预训练阶段将知识注入到LLMs中。然后,我们介绍KG增强的LLMs推理,使LLMs在生成句子时考虑到最新的知识。最后,我们介绍KG增强的LLMs可解释性,旨在通过使用KGs来提高LLMs的可解释性。表2总结了将KGs集成到LLMs中的典型方法。

  现有的大型语言模型主要依赖于对大规模语料库进行无监督训练。尽管这些模型在下游任务中可能表现出色,但它们通常缺乏与现实世界相关的实际知识。将知识图谱集成到大型语言模型中的先前工作可分为三部分:1)将知识图谱集成到训练目标中,2)将知识图谱集成到LLMs的输入中,3)将知识图谱集成到额外的融合模块中。

  这个类别的研究工作侧重于设计新颖的知识感知训练目标。一种直观的想法是在预训练目标中暴露更多的知识实体。GLM [106]利用知识图谱的结构为掩码概率分配权重。具体而言,对于可以通过一定数量跳跃到达的实体,被认为是学习的最重要实体,并且在预训练过程中给予更高的掩码概率。此外,E-BERT [107]进一步控制了标记级和实体级训练损失之间的平衡。训练损失的值被用作标记和实体的学习过程的指示,动态确定它们在下一次训练周期中的比例。SKEP [105]在LLMs的预训练过程中也采用了类似的融合方式来注入情感知识。SKEP首先通过利用PMI和预定义的种子情感词识别具有积极和消极情感的单词。然后,它在词掩码目标中对这些被识别为情感词的单词分配更高的掩码概率。

  另一方面,还有一些研究明确利用与知识和输入文本之间的连接。如图9所示,ERNIE [92]提出了一种新颖的单词-实体对齐训练目标作为预训练目标。具体而言,ERNIE将句子和文本中提到的相应实体输入到LLMs中,然后训练LLMs来预测文本标记和知识图谱中实体之间的对齐链接。类似地,KALM [93]通过合并实体嵌入将实体相关的信息融入到输入标记中,并在仅有标记的预训练目标之外引入了实体预测的预训练任务。这种方法旨在提高LLMs捕捉与实体相关的知识的能力。最后,KEPLER [132]将知识图谱嵌入训练目标和掩码标记预训练目标直接应用于共享的基于Transformer的编码器中。Deterministic LLM [108]的重点是预训练语言模型以捕捉确定性的事实知识。它只对具有确定性实体作为问题的范围的部分进行掩码,并引入了额外的线索对比学习和线索分类目标。WKLM [110]首先将文本中的实体替换为同类型的其他实体,然后将其输入到LLMs中。模型进一步进行预训练以区分实体是否已被替换。

  如图10所示,这类研究工作侧重于将相关的知识子图引入到LLMs的输入中。给定一个知识图谱三元组和相应的句子,ERNIE 3.0 [104]将三元组表示为一个标记序列,并将其直接与句子拼接在一起。它进一步随机掩盖三元组中的关系标记或句子中的标记,以更好地将知识与文本表示相结合。然而,这种直接知识三元组拼接的方法使得句子中的标记与知识子图中的标记密集地相互作用,可能导致知识噪声。为了解决这个问题,K-BERT [36]通过可见矩阵将知识三元组注入到句子中,只有知识实体可以访问知识三元组信息,而句子中的标记只能在自注意力模块中相互作用。为了进一步减少知识噪声,Colake [111]提出了一个统一的词-知识图谱(如图10所示),其中输入句子中的标记形成一个全连接的词图,与知识实体对齐的标记与其相邻实体连接在一起。上述方法确实能够向LLMs注入大量的知识。然而,它们主要关注热门实体,忽视了低频和长尾实体。DkLLM [112]旨在改进LLMs对这些实体的表示。DkLLM首先提出一种确定长尾实体的新方法,然后用伪标记嵌入将这些选定的实体替换为文本中的实体,作为大型语言模型的新输入。此外,Dict-BERT [113]提出利用外部字典来解决这个问题。具体而言,Dict-BERT通过将字典中的定义附加到输入文本的末尾来改善稀有单词的表示质量,并训练语言模型来在输入句子和字典定义之间进行局部对齐,并区分输入文本和定义是否正确映射。

  通过将额外的融合模块引入LLMs中,可以单独处理并将知识图谱中的信息融入到LLMs中。如图11所示,ERNIE [92]提出了一种文本-知识双编码器架构,其中T-编码器首先对输入句子进行编码,然后K-编码器处理知识图谱,并将其与T-编码器中的文本表示融合。BERT-MK [114]采用了类似的双编码器架构,但在LLMs的预训练过程中引入了知识编码器组件中相邻实体的附加信息。然而,知识图谱中的某些相邻实体可能与输入文本无关,导致额外的冗余和噪声。CokeBERT [117]关注这个问题,并提出了一个基于GNN的模块,通过使用输入文本来过滤掉无关的KG实体。JAKET [115]提出在大型语言模型的中间融合实体信息。模型的前半部分分别处理输入文本和实体序列。然后,文本和实体的输出被组合在一起。具体而言,实体表示被添加到其对应位置的文本表示中,然后由模型的后半部分进一步处理。K-adapters [116]通过适配器来融合语言和事实知识,适配器只在变压器层的中间添加可训练的多层感知器,而大型语言模型的现有参数在知识预训练阶段保持冻结状态。这样的适配器彼此独立,并且可以并行训练。

  上述方法可以有效地将知识与大型语言模型中的文本表示进行融合。然而,现实世界的知识是不断变化的,这些方法的局限性在于它们不允许在不重新训练模型的情况下更新已整合的知识。因此,在推理过程中它们可能无法很好地推广到未见过的知识[133]。因此,人们对将知识空间和文本空间分离并在推理过程中注入知识进行了大量研究。这些方法主要集中在问答(QA)任务上,因为QA要求模型能够捕捉到文本语义含义和最新的现实世界知识。

  一种直接的方法是利用双塔架构,其中一个独立模块处理文本输入,另一个处理相关的知识图谱输入[134]。然而,这种方法缺乏文本和知识之间的交互。因此,KagNet [95]提出首先编码输入的知识图谱,然后增强输入的文本表示。相反,MHGRN [135]使用输入文本的最终LLM输出来指导对知识图谱的推理过程。然而,它们都只设计了文本和知识之间的单向交互。为了解决这个问题,QA-GNN [118]提出使用基于GNN的模型通过消息传递来共同推理输入上下文和知识图谱信息。具体而言,QA-GNN通过池化操作将输入的文本信息表示为一个特殊节点,并将该节点与知识图谱中的其他实体连接起来。然而,文本输入只被池化为一个单一的密集向量,限制了信息融合的性能。JointLK [119]随后提出了一个框架,通过LM-to-KG和KG-to-LM双向注意机制,在文本输入的任何标记和知识图谱实体之间实现细粒度的交互。如图12所示,计算了所有文本标记和知识图谱实体之间的成对点积分数,并单独计算了双向注意分数。此外,在每个JointLK层中,根据注意分数动态修剪了知识图谱,以便后续层能够集中在更重要的子知识图结构上。尽管JointLK有效,但其中输入文本和知识图谱之间的融合过程仍然使用最终的LLM输出作为输入文本表示。GreaseLM [120]在LLMs的每一层中为输入文本标记和知识图谱实体设计了深入和丰富的交互。架构和融合方法在很大程度上类似于在第4.1.3节中讨论的ERNIE [92],只是GreaseLM不使用单独的文本T-编码器来处理输入文本。

  与将所有知识存储在参数中的上述方法不同,如图13所示,RAG [94]提出了将非参数模块和参数模块结合起来处理外部知识的方法。给定输入文本,RAG首先通过最近邻搜索在非参数模块中搜索相关的知识图谱,以获取几个文档。然后,RAG将这些文档视为隐藏变量z,并将它们作为附加上下文信息馈送到由Seq2Seq LLMs支持的输出生成器中。研究表明,在生成过程中使用不同的检索文档作为条件比仅使用单个文档来引导整个生成过程效果更好。实验结果表明,与只使用参数模块或非参数模块的基准模型相比,RAG在开放域QA中表现更好。RAG还能够生成更具体、多样和真实的文本,而不仅仅是基于参数的基线模型。Story-fragments [123]通过添加额外模块来确定重要的知识实体并将它们融入生成器中,以提高生成的长篇故事的质量。EMAT [124]通过将外部知识编码为键值内存,并利用快速最大内积搜索进行内存查询,进一步提高了这种系统的效率。REALM [122]提出了一种新颖的知识检索器,帮助模型在预训练阶段从大型语料库中检索并关注文档,并成功提高了开放域问答的性能。KGLM [121]根据当前上下文从知识图谱中选择事实以生成事实性句子。借助外部知识图谱的帮助,KGLM可以使用领域外的词汇描述事实。

  尽管LLMs在许多自然语言处理任务中取得了显著的成功,但它们仍然受到缺乏可解释性的批评。大型语言模型(LLM)的可解释性是指对大型语言模型内部工作和决策过程的理解和解释能力[17]。这可以提高LLMs的可信度,并促进它们在医学诊断和法律判断等高风险场景中的应用。知识图谱(KGs)在结构上表示知识,并且可以为推理结果提供良好的可解释性。因此,研究人员尝试利用知识图谱来提高LLMs的可解释性,这可以大致分为两类:1)用于语言模型探测的知识图谱,和2)用于语言模型分析的知识图谱。

  大型语言模型(LLM)探测旨在了解存储在LLM中的知识。LLMs经过大规模语料库的训练,通常被认为包含了大量的知识。然而,LLMs以一种隐藏的方式存储知识,使得很难确定存储的知识。此外,LLMs存在幻觉问题[15],导致生成与事实相矛盾的陈述。这个问题严重影响了LLMs的可靠性。因此,有必要对存储在LLMs中的知识进行探测和验证。

  LAMA [14]是首个使用知识图谱探测LLMs中知识的工作。如图14所示,LAMA首先通过预定义的提示模板将知识图谱中的事实转化为填空陈述,然后使用LLMs预测缺失的实体。预测结果用于评估LLMs中存储的知识。例如,我们尝试探测LLMs是否知道事实(Obama,职业,总统)。我们首先将事实三元组转换为带有对象被屏蔽的填空问题“Obama的职业是什么?”然后,我们测试LLMs能否正确预测出“总统”这个对象。然而,LAMA忽略了提示不恰当的事实。例如,“Obama的职业是。”可能对语言模型的填空预测比“Obama是一位职业。”更有利。因此,LPAQA [125]提出了一种基于挖掘和改写的方法,自动生成高质量和多样化的提示,以更准确地评估语言模型中包含的知识。此外,Adolphs等人[127]尝试使用示例使语言模型理解查询,实验证明对T-REx数据的BERT-large模型取得了显著的改进。与使用手动定义的提示模板不同,Autoprompt [126]提出了一种基于梯度引导搜索的自动化方法来创建提示。

  与使用百科和常识知识图谱来探测一般知识不同,BioLAMA [136]和MedLAMA [128]使用医学知识图谱来探测LLMs中的医学知识。Alex等人[129]研究LLMs保留不太流行的事实的能力。他们从Wikidata知识图谱中选择了低频点击实体的不太流行的事实。然后将这些事实用于评估,结果表明LLMs在处理此类知识时遇到困难,并且在尾部的事实性知识的记忆方面,扩大规模并不能显著提高。

  知识图谱(KGs)用于预训练语言模型(LLMs)分析旨在回答以下问题:“LLMs是如何生成结果的?”和“LLMs的功能和结构如何工作?”为了分析LLMs的推理过程,如图15所示,KagNet [38]和QA-GNN [118]通过知识图谱将LLMs在每个推理步骤生成的结果进行了基于图的支撑。通过从KGs中提取图结构,可以解释LLMs的推理过程。Shaobo等人[131]研究LLMs如何正确生成结果。他们采用了从KGs中提取的事实的因果性分析。该分析定量地衡量LLMs在生成结果时所依赖的词汇模式。结果表明,LLMs更多地依赖于位置相关的词汇模式而不是知识相关的词汇模式来生成缺失的事实。因此,他们声称LLMs不适合记忆事实性知识,因为依赖关系不准确。为了解释LLMs的训练,Swamy等人[130]采用语言模型在预训练期间生成知识图谱。LLMs在训练过程中获得的知识可以通过KGs中的事实来揭示。为了探索LLMs中的隐式知识是如何存储在参数中的,Dai等人[39]提出了知识神经元的概念。具体而言,被识别的知识神经元的激活与知识表达高度相关。因此,他们通过抑制和放大知识神经元来探索每个神经元表示的知识和事实。

  知识图谱以结构化的方式表示知识,并已应用于许多下游任务,如问答、推荐和网络搜索。然而,传统的知识图谱通常不完整,现有方法往往缺乏考虑文本信息的能力。为了解决这些问题,最近的研究探索了将LLMs整合到知识图谱中以考虑文本信息并提高下游任务性能。在本节中,我们将介绍关于LLM增强的知识图谱的最新研究。代表性的工作总结在表3中。我们将分别介绍整合LLMs进行知识图谱嵌入、知识图谱补全、知识图谱构建、知识图谱到文本生成和知识图谱问答的方法。

  知识图谱嵌入(KGE)旨在将每个实体和关系映射到低维向量(嵌入)空间。这些嵌入包含了知识图谱的语义和结构信息,可以用于各种任务,如问答[182]、推理[38]和推荐[183]。传统的知识图谱嵌入方法主要依赖于知识图谱的结构信息,通过在嵌入上定义的评分函数(如TransE [25]和DisMult [184])进行优化。然而,由于结构连接性的限制,这些方法通常无法很好地表示未见实体和长尾关系[185],[186]。为了解决这个问题,如图16所示,最近的研究采用LLMs通过编码实体和关系的文本描述来丰富知识图谱的表示[40],[97]。

  其中eh、er和et分别表示实体h、t和关系r的初始嵌入。Pretrain-KGE在实验中使用BERT作为LLM编码器。然后,将初始嵌入馈送到KGE模型中生成最终的嵌入vh、vr和vt。在KGE训练阶段,通过遵循标准KGE损失函数优化KGE模型:

  其中f是KGE评分函数,γ是边界超参数,v′h、v′r和v′t是负样本。通过这种方式,KGE模型可以学习充分的结构信息,同时保留LLM中的部分知识,从而实现更好的知识图谱嵌入。KEPLER [40]提供了一个统一的模型用于知识嵌入和预训练的语言表示。该模型不仅使用强大的LLMs生成有效的文本增强的知识嵌入,还无缝地将事实知识集成到LLMs中。Nayyeri等人[137]使用LLMs生成世界级、句子级和文档级表示。它们通过四维超复数的Dihedron和Quaternion表示将其与图结构嵌入统一为一个向量。Huang等人[138]将LLMs与其他视觉和图形编码器结合起来,学习多模态的知识图谱嵌入,提高下游任务的性能。CoDEx [139]提出了一种由LLMs赋能的新型损失函数,通过考虑文本信息来指导KGE模型测量三元组的可能性。所提出的损失函数与模型结构无关,可以与任何KGE模型结合使用。

  其中尾部实体被[MASK]替换。将句子馈送到LLMs中,然后微调模型来预测被遮蔽的实体,公式化为

  其中Θ表示LLM的参数。LLM被优化以最大化正确实体t的概率。训练后,LLMs中相应的标记表示用作实体和关系的嵌入。类似地,LMKE [140]提出了一种对比学习方法,改进了LLMs生成的用于KGE的嵌入的学习。此外,为了更好地捕捉图结构,LambdaKG [142]采样1-hop邻居实体,并将它们的标记与三元组连接为一个句子,然后馈送到LLMs中。

  知识图谱补全(KGC)是指在给定知识图谱中推断缺失的事实的任务。与KGE类似,传统的KGC方法主要关注知识图谱的结构,而没有考虑广泛的文本信息。然而,LLMs的最新整合使得KGC方法能够编码文本或生成事实,以提高KGC的性能。根据它们的使用方式,这些方法分为两个不同的类别:1) LLM作为编码器(PaE),2) LLM作为生成器(PaG)。

  如图18(a)、(b)和(c)所示,这一系列的方法首先使用仅编码器LLMs对文本信息和知识图谱事实进行编码。然后,它们通过将编码表示输入到预测头部(可以是简单的MLP或传统的知识图谱评分函数,如TransE [25]和TransR [187])中来预测三元组的可信度。

  将[CLS]标记的最终隐藏状态馈送到分类器中,预测三元组的可能性,公式化为

  其中σ(·)表示Sigmoid函数,e[CLS]表示LLMs编码的表示。为了提高KG-BERT的效果,MTL-KGC [143]提出了一种用于KGC框架的多任务学习,将额外的辅助任务(如预测和相关性排序)融入模型的训练中。PKGC [144]通过使用预定义模板将三元组及其支持信息转化为自然语言句子,评估三元组(h,r,t)的有效性。这些句子然后通过LLMs进行二分类处理。三元组的支持信息是根据h和t的属性使用语言化函数推导出来的。例如,如果三元组是(Lebron James,member of sports team,Lakers),则关于Lebron James的信息被语言化为“Lebron James:American basketball player”。LASS [145]观察到语言语义和图结构对KGC同样重要。因此,提出了LASS来联合学习两种类型的嵌入:语义嵌入和结构嵌入。在这种方法中,将三元组的完整文本转发给LLMs,然后分别计算h、r和t的对应LLMs输出的平均池化。然后,将这些嵌入传递给图结构方法(如TransE)以重构知识图谱结构。

  MLM编码。许多工作不是编码三元组的完整文本,而是引入了遮蔽语言模型(MLM)的概念来编码知识图谱的文本信息(图18(b))。MEM-KGC [146]使用遮蔽实体模型(MEM)分类机制来预测三元组中的遮蔽实体。输入文本的形式为

  类似于公式4,它试图最大化遮蔽实体是正确实体t的概率。此外,为了使模型学习未见实体,MEM-KGC还结合了基于实体文本描述的实体和超类预测的多任务学习:

  OpenWorld KGC [147]将MEM-KGC模型扩展到处理开放世界KGC的挑战,采用了一个流水线框架,在其中定义了两个串行的基于MLM的模块:实体描述预测(EDP)和不完整三元组预测(ITP)。EDP首先使用公式8对三元组进行编码,并生成最终的隐藏状态,然后将其作为公式7中头实体的嵌入传递给ITP,以预测目标实体。分离编码。如图18(c)所示,这些方法将三元组(h,r,t)分为两个不同的部分,即(h,r)和t,可以表示为

  然后,这两部分分别由LLMs进行编码,然后使用[CLS]标记的最终隐藏状态作为(h,r)和t的表示。然后将这些表示输入到评分函数中,预测三元组的可能性,公式化为

  其中fscore表示像TransE这样的评分函数。StAR [148]在其文本上应用了Siamese风格的文本编码器,将其编码为单独的上下文表示。为了避免文本编码方法的组合爆炸,例如KG-BERT,StAR使用了一个包含确定性分类器和用于表示和结构学习的空间度量的评分模块,这也通过探索空间特性增强了结构化知识。SimKGC [149]是另一个利用Siamese文本编码器对文本表示进行编码的实例。在编码过程之后,SimKGC对这些表示应用对比学习技术。这个过程涉及计算给定三元组及其正负样本之间的相似性。特别地,最大化三元组的编码表示与正样本的相似性,同时最小化三元组的编码表示与负样本的相似性。这使得SimKGC能够学习一个将可信和不可信三元组分开的表示空间。为了避免过度拟合文本信息,CSPromp-KG [188]采用了用于KGC的参数高效提示学习。

  LP-BERT [150]是一种混合KGC方法,将MLM编码和分离编码相结合。这种方法包括两个阶段:预训练和微调。在预训练阶段,该方法使用标准的MLM机制对KGC数据进行预训练LLMs。在微调阶段,LLMs对两个部分进行编码,并使用对比学习策略进行优化(类似于SimKGC [149])。

  最近的工作将LLMs作为序列到序列生成器应用于KGC。如图19(a)和(b)所示,这些方法涉及编码器-解码器或仅解码器LLMs。LLMs接收查询三元组(h,r,?)的文本输入序列,并直接生成尾实体t的文本。

  GenKGC [99]使用大型语言模型BART [5]作为基础模型。受到GPT-3 [60]中使用的上下文学习方法的启发,其中模型连接相关样本以学习正确的输出答案,GenKGC提出了一种关系引导的演示技术,其中包括具有相同关系的三元组,以促进模型的学习过程。此外,在生成过程中,提出了一种基于实体感知的分层解码方法,以降低时间复杂性。KGT5 [151]引入了一种新颖的KGC模型,满足这些模型的四个关键要求:可扩展性、质量、多功能性和简洁性。为了实现这些目标,所提出的模型采用了直观的T5 small架构。该模型与先前的KGC方法不同之处在于,它是随机初始化的,而不是使用预训练模型。KG-S2S [152]是一个全面的框架,可以应用于各种类型的KGC任务,包括静态KGC、时态KGC和少样本KGC。为了实现这个目标,KG-S2S通过引入一个额外的元素来重新构造标准的三元组KG事实,形成一个四元组(h,r,t,m),其中m表示额外的“条件”元素。尽管不同的KGC任务可能涉及不同的条件,但它们通常具有相似的文本格式,这使得可以统一不同的KGC任务。KG-S2S方法结合了各种技术,如实体描述、软提示和Seq2Seq Dropout,以提高模型的性能。此外,它利用约束解码来确保生成的实体是有效的。对于闭源LLMs(如ChatGPT和GPT-4),AutoKG采用提示工程来设计定制的提示 [96]。如图20所示,这些提示包含任务描述、少样本示例和测试输入,指导LLMs预测KG补全的尾实体。

  LLMs作为编码器(PaE)在LLMs编码的表示之上应用了额外的预测头部。因此,PaE框架在微调方面更容易,因为我们只需优化预测头部并冻结LLMs。此外,预测的输出可以很容易地指定并与现有的KGC函数集成,适用于不同的KGC任务。然而,在推理阶段,PaE需要对KG中的每个候选项计算分数,这可能计算开销很大。此外,它们不能推广到未见实体。此外,PaE需要LLMs的表示输出,而一些最新的LLMs(例如GPT-41)是闭源的,没有提供对表示输出的访问权限。

  另一方面,LLMs作为生成器(PaG)不需要预测头部,在不进行微调或访问表示的情况下即可使用。因此,PaG框架适用于各种LLMs。此外,PaG直接生成尾实体,使得推理更高效,无需对所有候选项进行排序,并且可以轻松推广到未见实体。但是,PaG的挑战在于生成的实体可能多样化,不一定位于知识图谱中。此外,由于自回归生成,单个推理的时间较长。最后,如何设计一个将知识图谱输入LLMs的强大提示仍然是一个未解决的问题。因此,尽管PaG在KGC任务中显示出了有希望的结果,但在选择合适的基于LLMs的KGC框架时,必须仔细考虑模型复杂性和计算效率之间的权衡。

  Justin等人[189]对LLMs与KGC方法进行了全面的分析。他们的研究调查了LLMs嵌入的质量,并发现它们对于有效的实体排序来说不够理想。为此,他们提出了一些处理嵌入表示以改善其适用性于候选检索的技术。该研究还比较了不同的模型选择维度,例如嵌入提取、查询实体提取和语言模型选择。最后,作者提出了一个有效地将LLMs适应于知识图谱补全的框架。

  知识图谱构建涉及在特定领域内创建知识的结构化表示。这包括识别实体及其彼此之间的关系。知识图谱构建的过程通常包括多个阶段,包括实体发现、共指消解和关系抽取。图21展示了在知识图谱构建的每个阶段中应用LLMs的通用框架。最近的方法还探索了端到端的知识图谱构建(end-to-end knowledge graph construction),它在一步中构建完整的知识图谱,或者直接从LLMs中提取知识图谱。

  知识图谱构建中的实体发现是指从非结构化数据源(如文本文档、网页或社交媒体帖子)中识别和提取实体,并将它们纳入构建知识图谱的过程中。

  命名实体识别(NER)涉及在文本数据中识别和标记命名实体,并确定它们的位置和分类。命名实体包括人物、组织、地点和其他类型的实体。最先进的NER方法通常利用LLMs的上下文理解和语言知识来进行准确的实体识别和分类。根据所识别NER跨度的类型,有三种NER子任务,即平面NER、嵌套NER和不连续NER。1)平面NER是从输入文本中识别不重叠的命名实体。它通常被概念化为一个序列标注问题,其中文本中的每个标记根据其在序列中的位置被分配一个唯一的标签 [1],[190]–[192]。2)嵌套NER考虑允许一个标记属于多个实体的复杂情况。基于跨度的方法[193]–[197]是嵌套NER的一个流行分支,它涉及枚举所有候选跨度并将它们分类为实体类型(包括非实体类型)。基于解析的方法[198]–[200]揭示了嵌套NER与组成句法分析任务(预测嵌套和不重叠跨度)之间的相似性,并提出将组成句法分析的见解整合到嵌套NER中。3)不连续NER识别在文本中可能不连续的命名实体。为了应对这个挑战,[201]使用LLM输出来识别实体片段,并确定它们是否重叠或相继。

  实体类型化(ET)旨在为上下文中给定的实体提供细粒度和超精细的类型信息。这些方法通常利用LLM对提及、上下文和类型进行编码。LDET [153]采用预训练的ELMo嵌入 [190]作为单词表示,并采用LSTM作为句子和提及编码器。BOX4Types [154]认识到类型依赖的重要性,并使用BERT来表示隐藏向量和超矩形(盒状)空间中的每种类型。LRN [155]考虑了标签之间的外在和内在依赖关系。它使用BERT对上下文和实体进行编码,并利用这些输出嵌入进行演绎和归纳推理。MLMET [203]使用预定义的模式构建BERT MLM的输入样本,并使用[MASK]来预测提及的上下文相关的上位词,可以视为类型标签。PL [204]和DFET [205]利用提示学习进行实体类型化。LITE [206]将实体类型化形式化为文本推理,并使用RoBERTa-large-MNLI作为主干网络。

  实体链接(EL),也称为实体消岐,涉及将文本中出现的实体提及链接到知识图谱中的相应实体。[207]提出了基于BERT的端到端EL系统,共同发现和链接实体。ELQ [208]采用快速双编码器架构,在一次通过中同时执行提及检测和链接,用于下游的问答系统。与将EL框架为向量空间匹配的先前模型不同,GENRE [209]将其构建为一个序列到序列问题,自动地生成一个标记了实体在自然语言中的唯一标识的输入标记。GENRE被扩展为多语言版本mGENRE [210]。考虑到生成EL方法的效率挑战,[211]将自回归链接并行化到所有潜在提及中,并依赖一个浅层和高效的解码器。ReFinED [212]提出了一种高效的零样本EL方法,利用细粒度实体类型和实体描述,通过基于LLM的编码器进行处理。

  共指消解是在文本中查找所有指称(即提及),这些指称指代同一实体或事件的过程。文档内共指消解指的是所有这些指称都在单个文档中的CR子任务。Mandar等人 [157]通过将之前的LSTM编码器 [213]替换为BERT来初始化LLM的共指消解。这项工作之后出现了SpanBERT [158],它是在BERT架构上进行预训练的,采用了基于跨度的屏蔽语言模型(MLM)。受到这些工作的启发,Tuan Manh等人 [214]通过将SpanBERT编码器纳入非LLM方法e2e-coref [213]中,提出了一个强大的基准模型。CorefBERT利用提及参考预测(MRP)任务,对一个或多个提及进行掩码,并要求模型预测被屏蔽提及的对应指代。CorefQA [215]将共指消解形式化为一个问答任务,为每个候选提及生成上下文查询,并使用查询从文档中提取出共指跨度。Tuan Manh等人 [216]引入了一个门控机制和一个噪声训练方法,利用SpanBERT编码器从事件提及中提取信息。

  跨文档共指消解是指涉及跨多个文档的提及指代同一实体或事件的子任务。CDML [159]提出了一种跨文档语言建模方法,该方法在相关文档上预训练了一个Longformer [219]编码器,并使用MLP进行二元分类,以确定一对提及是否是共指的。CrossCR [160]利用端到端模型进行跨文档共指消解,该模型在黄金提及跨度上进行预训练,使用成对的评分器比较跨所有文档的所有跨度与提及。CR-RL [161]提出了一种基于演员-评论家深度强化学习的跨文档共指消解方法。

  关系抽取涉及识别自然语言文本中提及的实体之间的语义关系。根据分析的文本范围,关系抽取方法分为两种类型:句子级关系抽取和文档级关系抽取。

  句子级关系抽取专注于识别单个句子内实体之间的关系。Peng等人 [162]和TRE [220]引入LLM来提高关系抽取模型的性能。BERT-MTB [221]通过执行匹配空白任务并结合为关系抽取设计的目标,在BERT的基础上学习关系表示。Curriculum-RE [163]利用课程学习来改进关系抽取模型,在训练过程中逐渐增加数据的难度。RECENT [222]引入了SpanBERT,并利用实体类型限制来减少噪声候选关系类型。Jiewen [223]通过将实体信息和标签信息合并到句子级嵌入中,扩展了RECENT,使得嵌入能够意识到实体和标签。

  文档级关系抽取(DocRE)旨在提取文档内多个句子之间实体之间的关系。Hong等人 [224]通过将BiLSTM主干替换为LLM,提出了DocRE的一个强大基准模型。HIN [225]使用LLM对实体在不同级别(包括实体、句子和文档级别)上的表示进行编码和聚合。GLRE [226]是一个全局到局部网络,使用LLM对文档信息进行编码,以实体的全局和局部表示以及上下文关系表示的形式。SIRE [227]使用两个基于LLM的编码器来提取句内和句间关系。LSR [228]和GAIN [229]提出了基于图的方法,在LLM上引入图结构,以更好地提取关系。DocuNet [230]将DocRE定义为一个语义分割任务,并在LLM编码器上引入U-Net [231],以捕捉实体之间的局部和全局依赖关系。ATLOP [232]关注DocRE中的多标签问题,可以通过两种技术处理,即用于分类器的自适应阈值和用于LLM的局部上下文汇集。DREEAM [164]通过引入证据信息进一步扩展和改进了ATLOP。

  目前,研究人员正在探索使用LLM进行端到端的知识图谱构建。Kumar等人 [98]提出了一种从原始文本构建知识图谱的统一方法,该方法包含两个由LLM驱动的组件。他们首先在命名实体识别任务上微调LLM,使其能够识别原始文本中的实体。然后,他们提出了另一个用于解决关系抽取任务的“2模型BERT”,其中包含两个基于BERT的分类器。第一个分类器学习关系类别,而第二个二元分类器学习两个实体之间关系的方向。预测的三元组和关系用于构建知识图谱。Guo等人 [165]提出了一种基于BERT的端到端知识抽取模型,可用于从古代汉语文本中构建知识图谱。Grapher [41]提出了一种新颖的端到端多阶段系统。它首先利用LLM生成知识图谱实体,然后使用简单的关系构建头部,从文本描述中有效地构建知识图谱。PiVE [166]提出了一个使用小型LLM(例如T5)进行提示和迭代验证的框架,用于纠正由更大的LLM(如ChatGPT)生成的知识图谱中的错误。为了进一步探索先进的LLM,AutoKG为不同的知识图谱构建任务(如实体类型化、实体链接和关系抽取)设计了几个提示,并使用ChatGPT和GPT-4执行知识图谱构建。

  已经证明,LLM可以隐式地编码大量的知识 [14]。如图22所示,一些研究旨在从LLM中提取知识以构建知识图谱。COMET [167]提出了一种常识变换器模型,通过使用现有元组作为知识的种子集进行训练,构建常识知识图谱。使用这个种子集,LLM学习将其学习到的表示适应于知识生成,并产生高质量的新元组。实验结果表明,LLM中的隐式知识转移到常识知识图谱中生成显式知识。BertNet [168]提出了一种基于LLM的自动知识图谱构建框架。它仅需要关系的最小定义作为输入,并自动生成多样的提示,在给定的LLM中进行有效的知识搜索,以获得一致的输出。构建的知识图谱具有竞争力的质量、多样性和新颖性,具有更丰富的新的复杂关系集合,这些关系无法通过先前的方法提取。West等人 [169]提出了一种从LLM中提取符号知识的符号知识蒸馏框架。他们首先通过从像GPT-3这样的大型LLM中提取常识事实,来微调一个较小的学生LLM。然后,利用学生LLM生成常识知识图谱。

  知识图谱到文本(KG-to-text)生成的目标是生成高质量的文本,准确、一致地描述输入的知识图谱信息[233]。KG-to-text生成连接了知识图谱和文本,在更现实的自然语言生成场景中(包括故事叙述[234]和知识驱动的对线])中提高了知识图谱的适用性。然而,收集大量图文平行数据具有挑战性和成本高昂,导致训练不足和生成质量差。因此,许多研究努力要么利用LLM的知识,要么构建大规模的弱监督KG-text语料库来解决这个问题。

  作为在KG-to-Text生成中使用LLM的开创性研究工作,Ribeiro等人[170]和Kale和Rastogi [236]直接对多种LLM进行微调,包括BART和T5,目的是将LLM的知识转移到这个任务上。如图23所示,这两项工作将输入的图形简单表示为线性遍历,并发现这种简单的方法成功地超过了许多现有的最先进的KG-to-text生成系统。有趣的是,Ribeiro等人[170]还发现继续预训练可以进一步提高模型的性能。然而,这些方法无法明确地将丰富的图形语义纳入到KG中。为了增强LLM的KG结构信息,JointGT [42]提出在Seq2Seq大型语言模型中注入保持KG结构的表示。给定输入的子KG和相应的文本,JointGT首先将KG实体和它们的关系表示为一系列标记,然后将它们与输入LLM的文本标记连接在一起。在标准的自注意模块之后,JointGT使用汇聚层获得知识实体和关系的上下文语义表示。最后,这些汇聚的KG表示在另一个结构感知的自注意层中进行聚合。JointGT还使用额外的预训练目标,包括在给定掩码输入的情况下进行KG和文本重构任务,以改善文本和图形信息之间的对齐。李等人[171]专注于少样本场景。它首先采用一种新颖的广度优先搜索(BFS)策略来更好地遍历输入的KG结构,并将增强的线性化图形表示馈送到LLM中以生成高质量的输出,然后对齐基于GCN和LLM的KG实体表示。Colas等人[172]首先将图形转换为适当的表示形式,然后对每个KG节点进行全局注意机制的编码,接着是图形感知注意模块,最后解码为标记序列。与这些工作不同,KG-BART [37]保留了KG的结构,并利用图形注意力来聚合子KG中丰富的概念语义,增强了模型在未见过的概念集上的泛化能力。

  尽管LLM在实证方面取得了显著的成功,但它们的无监督预训练目标未必与KG-to-text生成任务很好地对齐,这促使研究人员开发大规模的KG-text对齐语料库。Jin等人[173]提出了一个从中无监督获取的130万个KG-to-graph训练数据。具体而言,他们首先通过超链接和命名实体检测器检测出文本中出现的实体,然后只添加与相应知识图谱共享一组实体的文本,类似于关系抽取任务中的距离监督思想[237]。他们还提供了1000多个人工注释的KG-to-Text测试数据,以验证预训练的KG-to-Text模型的有效性。类似地,Chen等人[174]还提出了从英文维基转储中收集的KG驱动文本语料库。为了确保KG和文本之间的关联,他们仅提取至少包含两个锚文本链接的句子。然后,他们使用这些链接中的实体在WikiData中查询它们周围的邻居,并计算这些邻居与原始句子之间的词汇重叠。最后,只有高度重叠的配对被选中。作者探索了基于图形和序列的编码器,并确定它们在不同任务和设置中的优势。

  知识图谱问答(KGQA)的目标是根据知识图谱中存储的结构化事实,找到自然语言问题的答案[238],[239]。KGQA的不可避免的挑战是检索相关事实并将KG的推理优势扩展到问答中。因此,最近的研究采用LLM来弥合自然语言问题和结构化知识图谱之间的差距[177],[178],[240]。应用LLM进行KGQA的通用框架如图24所示,LLM可以用作1) 实体/关系提取器和2) 答案推理器。

  实体/关系提取器旨在识别自然语言问题中提及的实体和关系,并检索与之相关的事实。鉴于LLM在语言理解方面的熟练度,可以有效地利用LLM来实现这一目的。Lukovnikov等人[176]是第一个将LLM用作关系预测分类器的研究,与浅层神经网络相比,性能有了显著提高。Nan等人[177]介绍了两个基于LLM的KGQA框架,采用LLM来检测提及的实体和关系,然后使用提取的实体-关系对在KG中查询答案。QA-GNN [118]使用LLM对问题和候选答案对进行编码,以估计相关KG实体的重要性。检索到的实体用于构建子图,在此基础上,图神经网络进行答案推理。Luo等人[175]使用LLM计算关系和问题之间的相似度,以检索相关事实,形式化为

  其中q表示问题,r表示关系,LLM(·)分别为q和r生成表示。此外,Zhang等人[241]提出了一种基于LLM的路径检索器,逐跳检索与问题相关的关系,并构建多条路径。每条路径的概率可以计算为

  其中p表示路径,rt表示路径的第t跳关系。检索到的关系和路径可以用作上下文知识,以改善答案推理器的性能,如下所示

  答案推理器旨在对检索到的事实进行推理并生成答案。LLM可以作为答案推理器直接生成答案。例如,如图24所示,DEKCOR [178]将检索到的事实与问题和候选答案连接起来,形成如下输入

  其中a表示候选答案。然后将它们输入LLM进行答案得分的预测。在使用LLM生成x的QA上下文表示后,DRLK [179]提出了一个动态分层推理器来捕捉QA上下文和答案之间的交互,以进行答案预测。Yan等人[240]提出了一个基于LLM的KGQA框架,包括两个阶段:(1)从KG中检索相关事实,(2)根据检索到的事实生成答案。第一阶段类似于实体/关系提取器。给定一个候选答案实体a,它从KG中提取一系列路径p1,...,pn。但是第二阶段是基于LLM的答案推理器。它首先使用KG中的实体名称和关系名称来表达路径。然后,它将问题q和所有路径p1,...,pn连接在一起,形成输入样本

  这些路径被视为候选答案a的相关事实。最后,它使用LLM预测假设:“a是q的答案”的支持度,即

  其中LLM对x进行编码,并将与[CLS]标记对应的表示输入进行二元分类,σ(·)表示sigmoid函数。

  为了更好地引导LLM在KG上进行推理,OreoLM [180]提出了一个知识交互层(KIL),插入在LLM层之间。KIL与KG推理模块交互,它发现不同的推理路径,然后推理模块可以在路径上进行推理以生成答案。GreaseLM [120]将LLM和图神经网络的表示融合起来,以有效地在KG事实和语言上下文中进行推理。UniKGQA [43]将事实检索和推理统一到一个框架中。UniKGQA由两个模块组成。第一个模块是语义匹配模块,使用LLM在语义上匹配问题和相应的关系。第二个模块是匹配信息传播模块,它在KG上沿着有向边传播匹配信息,用于答案推理。类似地,ReLMKG [181]在大型语言模型和相关知识图谱上进行联合推理。语言模型对问题和语言路径进行编码,语言模型的不同层产生的输出指导图神经网络进行消息传递。这个过程利用结构化知识图谱中包含的显式知识进行推理。

  LLM和KG的协同已经引起了近年来越来越多的关注,它将LLM和KG的优点相结合,在各种下游应用中相互增强性能。例如,LLM可以用于理解自然语言,而KG被视为知识库,提供事实知识。将LLM和KG统一起来可以得到一个强大的知识表示和推理模型。在本节中,我们将从两个角度讨论基于Synergized LLMs + KGs的内容:1) 知识表示和2) 推理。我们在表4中总结了代表性的研究工作。

  KEPLER [40]提出了一个统一的知识嵌入和预训练语言表示模型。在KEPLER中,他们使用LLM对文本实体描述进行编码,作为它们的嵌入表示,然后联合优化知识嵌入和语言建模目标。JointGT [42]提出了一个图文联合表示学习模型,提出了三个预训练任务来对齐图和文本的表示。DRAGON [44]提出了一种自监督方法,从文本和KG中预训练一个联合的语言-知识基础模型。它将文本片段和相关的KG子图作为输入,双向融合两种模态的信息。然后,DRAGON利用两个自监督推理任务,即遮蔽语言建模和KG链接预测,优化模型参数。HKLM [243]引入了一个统一的LLM,将KG纳入其中,以学习领域特定知识的表示。

  为了充分利用LLM和KG的优势,研究人员将LLM和KG相互协同,进行各种应用的推理。在问答任务中,QA-GNN [118]首先利用LLM处理文本问题,并引导KG上的推理步骤。通过这种方式,它可以弥合文本和结构信息之间的差距,为推理过程提供可解释性。在知识图推理任务中,LARK [45]提出了一种以LLM为指导的逻辑推理方法。它首先将传统的逻辑规则转换为语言序列,然后要求LLM对最终输出进行推理。此外,Siyuan等人[46]在统一框架中统一了结构推理和语言模式预训练。给定一个文本输入,他们采用LLM生成逻辑查询,并在KG上执行以获得结构上下文。然后,将结构上下文与文本信息融合起来生成最终的输出。RecInDial [244]将知识图谱和LLM结合起来,在对话系统中提供个性化推荐。KnowledgeDA [245]提出了一个统一的领域语言模型开发流程,利用领域知识图谱增强任务特定的训练过程。

  在前面的章节中,我们回顾了统一KG和LLM的最新进展,但仍然存在许多需要解决的挑战和开放问题。在本节中,我们讨论了这个研究领域的未来方向。

  LLM中的幻觉问题[246],即生成不准确的事实内容,显著影响了LLM的可靠性。正如在第4节中讨论的那样,现有研究尝试利用KG通过预训练或增强推理来获得更可靠的LLM。尽管有这些努力,幻觉问题在LLM领域可能在可预见的未来仍然存在。因此,为了赢得公众的信任和拓宽应用领域,检测和评估LLM和其他形式的AI生成内容(AIGC)中的幻觉实例至关重要。现有方法努力通过在一小组文档上训练神经分类器来检测幻觉[247],但这些方法既不稳健也不强大,无法处理不断增长的LLM。最近,研究人员尝试使用KG作为外部来源验证LLM[248]。进一步的研究将LLM和KG结合起来,实现一个可以跨领域检测幻觉的广义事实核查模型[249]。因此,KG为幻觉检测打开了一扇新的大门。

  尽管LLM能够存储大量的现实世界知识,但在现实世界情况变化时,它们不能快速更新其内部知识。已经提出了一些用于编辑LLM中知识的研究方法[250],[251],而无需重新训练整个LLM。然而,这些解决方案仍然存在性能不佳或计算开销大的问题。现有研究[252],[253]也提出了在LLM中编辑知识的解决方案,但只限于处理KG中基于简单元组的知识。此外,仍然存在诸如灾难性遗忘和错误知识编辑等挑战,需要进一步研究。

  尽管预训练和知识编辑可以更新LLM以跟上最新的知识,但它们仍然需要访问LLM的内部结构和参数。然而,许多最先进的大型LLM(如ChatGPT)只为用户和开发者提供API,对于公众来说它们是黑盒的。因此,无法采用传统的KG注入方法[95],[134]来改变LLM的结构,添加额外的知识融合模块。将各种类型的知识转化为不同的文本提示似乎是一种可行的解决方案。然而,这些提示是否能够很好地推广到新的LLM仍然不清楚。此外,基于提示的方法仅限于LLM的输入令牌长度。因此,如何对黑盒LLM进行有效的知识注入仍然是一个需要探索的开放问题。

  当前的知识图谱通常依赖于文本和图形结构来处理与KG相关的应用。然而,现实世界的知识图谱通常是通过多种模态的数据构建的。因此,有效地利用多种模态的表示将成为未来KG研究的重要挑战。一个潜在的解决方案是开发能够准确编码和对齐不同模态实体的方法。最近,随着多模态LLM的发展,利用LLM进行模态对齐在这方面具有潜力。然而,将多模态LLM和KG结构之间的差距缩小仍然是这个领域的一个重要挑战,需要进一步的研究和进展。

  传统上,仅在纯文本数据上训练的LLM并不具备理解结构化数据(如知识图谱)的能力。因此,LLM可能无法完全理解知识图谱结构所传达的信息。一种直接的方法是将结构化数据线性化为LLM可以理解的句子。然而,由于KG的规模,将整个KG线性化为输入是不可能的。此外,线性化过程可能会丢失KG中的一些基本信息。因此,有必要开发可以直接理解KG结构并在其上进行推理的LLM。

  KG和LLM是两种互补的技术,它们可以相互协同。然而,现有研究对LLM和KG的协同应用尚未深入探索。LLM(如ChatGPT)在生成类人文本和理解自然语言方面表现出色,而KG是以结构化方式捕获和表示知识的结构化数据库。通过结合它们的能力,我们可以创建一个强大的系统,既能从LLM的上下文理解中受益,又能从KG的结构化知识表示中受益。为了更好地统一LLM和KG,需要结合许多先进的技术,如多模态学习[261]、图神经网络[262]和持续学习[263]。最后,LLM和KG的协同应用可以应用于许多现实世界的应用,如搜索引擎[103]、推荐系统[10]、药物发现等。

  有了给定的应用问题,我们可以应用KG进行基于知识的搜索,寻找潜在的目标和未见过的数据,并同时使用LLM进行基于数据/文本的推理,看看能够得出哪些新的数据/目标项。当基于知识的搜索与基于数据/文本的推理相结合时,它们可以相互验证,从而产生由双驱动轮驱动的高效和有效的解决方案。因此,我们可以预见在不久的将来,集成KG和LLM的潜力将在各种具备生成和推理能力的下游应用中得到充分的关注。

  将大型语言模型(LLMs)和知识图谱(KGs)统一起来是一个活跃的研究方向,引起了学术界和工业界的广泛关注。在本文中,我们对该领域的最新研究进行了全面的概述。我们首先介绍了不同的方式来整合KG以增强LLMs。然后,我们介绍了应用LLMs进行KG的现有方法,并根据各种KG任务建立了分类体系。最后,我们讨论了这个领域的挑战和未来方向。我们希望本文能够提供对这个领域的全面了解,并推动未来的研究进展。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

下一篇 :返回列表

分享:

扫一扫在手机阅读、分享本文

留言与评论 (共有 条评论)
验证码: