港科大提出KGPFN:让知识图谱基础模型真正学会“看上下文”
01相关背景知识图谱基础模型的目标是让一个模型能够迁移到没见过的新图谱、新实体甚至新关系上进行推理。过去的知识图谱基础模型通常更强调一种能力从大量图谱中学习可迁移的关系结构规律。但作者指出这还不够。真正的基础模型不应该只会“记住通用规律”还应该能在推理时根据当前任务给出的上下文进行适应。也就是说模型不仅要知道某类关系通常怎么出现还要能判断这个规律在当前图谱里是否成立当前查询附近的结构是否支持这个规律同一个关系在大量实例中呈现出怎样的整体模式当局部证据和通用规律冲突时模型应该相信哪一个为了解决这个问题Gao 等作者提出了KGPFN。它把Prior-data Fitted NetworkPFN的上下文学习思想引入知识图谱推理中让模型在不微调参数的情况下直接利用推理时提供的结构化上下文完成适应。一句话概括KGPFN 想解决的不是“模型能不能学到关系规律”而是“模型能不能在新图谱里根据上下文临场判断这些规律该怎么用”。02问题背景KG 基础模型缺了哪块拼图知识图谱由大量三元组构成例如(人物, 出生于, 城市) (城市, 位于, 国家) (人物, 国籍, 国家)知识图谱推理中的典型任务是链接预测。给定一个不完整三元组(h, r, ?)模型需要从候选实体中预测最可能的尾实体t。例如(Demis Hassabis, nationality, ?)模型需要判断答案更可能是UK、USA还是其他国家。传统知识图谱嵌入方法往往依赖特定图谱中的实体表示因此当模型面对一个新图谱时通常需要重新训练或微调。知识图谱基础模型的出现就是为了让模型获得更强的跨图谱迁移能力。不过作者认为现有知识图谱基础模型存在一个明显短板它们更擅长学习“通用关系模式”但不够擅长利用“推理时上下文”。这会带来一个问题模型可能会把某个常见结构模式过度泛化。比如很多情况下某人出生于某城市 某城市位于某国家可以推断某人的国籍是该国家但这个规律并不总是成立。一个人出生在某个国家并不意味着其国籍一定是这个国家。此时工作地点、教育背景、职业经历等局部关系可能会改变最终判断。所以知识图谱推理不能只依赖抽象规律还需要看具体上下文。03核心洞察知识图谱里的上下文不是一段文本在大语言模型中上下文通常是一段文本模型通过提示词或示例来理解任务。但知识图谱里的上下文完全不同。作者强调知识图谱上下文具有两个特点结构化 异质化它不是一段线性文本而是由实体、关系、路径、子图、正负样本共同组成的复杂结构。因此作者把知识图谱上下文拆成两个互补部分· 局部上下文 Local Context局部上下文指的是当前查询实体附近的子图结构。例如在预测某个人的国籍时模型不仅要看出生地 → 所在国家还可能要看工作机构 居住地 教育经历 合作关系 所属组织这些局部结构能帮助模型判断某个通用规律在当前实体身上是否可靠。换句话说局部上下文负责回答当前这个查询附近发生了什么· 全局上下文 Global Context全局上下文指的是同一个关系在图谱中大量实例上的整体规律。例如对于nationality关系模型可以观察许多已有实例(Yann LeCun, nationality, USA) (Yoshua Bengio, nationality, Canada) (Zhihua Zhou, nationality, China) (Richard Sutton, nationality, Canada)这些实例及其周围子图可以帮助模型理解这个关系通常和哪些辅助关系共现哪些路径经常支持这个关系哪些实体类型更可能作为尾实体正样本和负样本之间的差异在哪里全局上下文负责回答这个关系在整个图谱里通常怎么表现· KGPFN 的关键判断Gao 等作者的核心判断可以概括为关系普适性 ≠ 上下文适应性关系普适性告诉模型哪些结构规律可以跨图谱复用。上下文适应性告诉模型这些规律在当前图谱、当前关系、当前实体附近应该如何使用。KGPFN 正是围绕这两类上下文设计的。04方法框架KGPFN 如何把上下文用起来KGPFN 的整体流程可以拆成四个步骤① 构造全局上下文 ② 构造局部上下文 ③ 编码关系与局部结构 ④ 用 PFN 做上下文学习第一步构造全局上下文对于一个查询(h, r, ?)KGPFN 会在目标图谱中找到一批具有相同关系r的已知三元组作为正样本(h1, r, t1) (h2, r, t2) ...同时模型还会通过负采样构造一批不成立的负样本(h1, r, t1) (h2, r, t2) ...最后正样本和负样本共同组成该关系的全局上下文Cr {((hk, r, tk), yk)}其中yk 1 表示正样本 yk 0 表示负样本这一步的意义在于模型不只是看到一个孤立查询而是能看到这个关系在目标图谱中的一组代表性案例。第二步构造局部上下文对于每个三元组KGPFN 会围绕头实体h提取一个k-hop邻域子图。论文中特别强调模型没有对头实体和候选尾实体同时提取联合子图而是采用头实体中心的局部子图。原因很现实如果每个候选尾实体都要重新提取子图 那么大规模训练和推理会非常昂贵。因此作者选择只围绕头实体构造局部上下文。这样做的优势是更容易批处理推理速度更快对大量候选尾实体更友好仍然能够保留查询实体附近的重要结构证据。第三步编码关系、局部结构和尾实体交互KGPFN 的编码部分包含三类信息。第一类关系表示。作者先构建一个关系图。在这个关系图中每个节点是一种关系边表示两个关系之间通过实体端点形成的交互方式。论文中考虑了四种基础关系交互tail-to-head head-to-head head-to-tail tail-to-tail随后模型在关系图上进行消息传递得到与查询关系相关的关系表示。第二类多尺度局部上下文表示。KGPFN 使用多层 NBFNet 编码头实体附近的局部子图。NBFNet 的一个重要特性是不同层可以聚合不同跳数范围内的信息。因此作者把每一层得到的头实体表示都看作一种局部上下文摘要第 1 层偏 1-hop 信息 第 2 层偏 2-hop 信息 第 3 层偏 3-hop 信息 ...这样模型能够同时利用浅层邻居信息和更深层的多跳组合证据。第三类尾实体感知的打分表示。只看头实体局部结构还不够因为链接预测最终要区分不同候选尾实体。因此KGPFN 进一步取出尾实体在 NBFNet 最后一层的表示并构造三类交互特征TransE 风格特征 DistMult 风格特征 Cosine 相似度特征这些特征分别从平移、乘性交互和相似度角度刻画(h, r, t)这个候选三元组是否合理。最后模型使用轻量 MLP adapter 把不同来源的特征对齐到同一个潜在空间再拼接成一个融合表示。第四步用 PFN 做上下文学习PFN 是 KGPFN 的核心。在 KGPFN 中PFN 接收两类输入查询三元组的表示 xq 关系相关的上下文集合 Cr然后输出候选三元组的合理性分数。论文中的 PFN 模块包含两个关键注意力机制Feature-level Attention Sample-level Attention也就是特征维度内部看重点 样本集合之间找证据Feature-level Attention负责在单个样本内部识别哪些结构特征更重要。例如某些路径、关系组合或尾实体交互信号可能比其他特征更关键。Sample-level Attention负责在全局上下文样本之间寻找对当前查询最有帮助的案例。例如某个正样本可能和当前查询高度相似某些负样本则可以帮助模型排除错误候选。这就是 KGPFN 的上下文学习能力来源模型不是通过更新参数来适应新图谱而是通过注意力机制在推理时读取上下文并据此改变预测。05理论解释从“看见结构”到“临场组合规则”作者还给出了一个理论视角用来解释 KGPFN 为什么比只学习结构模式的模型更进一步。已有知识图谱基础模型通常更关注结构表达能力也就是模型能不能识别出某种 motif、路径或关系组合模式。但作者指出真正困难的问题不只是识别结构而是这些结构在当前关系下应该如何组合成决策规则例如同样是出生地 → 所在国家这个结构在某些关系预测中很有用在另一些情况下可能会误导模型。因此KGPFN 通过全局上下文让模型临场估计某个结构模式的重要性。论文中的理论结论可以直观理解为一个结构模式真正发挥作用需要同时满足两个条件 ① 它出现在当前查询附近 ② 它在当前关系的上下文样本中也很显著。这就像一种“软逻辑合取”当前查询有这个模式 上下文证明这个模式对该关系重要 该模式对预测产生更强贡献所以KGPFN 并不是给每种关系预先固定一套规则而是在推理时根据上下文动态组合规则。这也是它能适应未见关系的重要原因。06实验设计57 个知识图谱上的检验为了验证 KGPFN 的泛化能力作者在57 个知识图谱上进行了实验。这些数据集分为三类① Transductive16 个图谱 ② Inductive e18 个图谱 ③ Inductive e, r23 个图谱其中最难的是第三类Inductive e, r因为测试时不仅实体没见过连关系类型也没见过。这对知识图谱基础模型非常关键。如果模型只能处理见过的关系那它的“基础模型”属性就会受到限制。而 KGPFN 的目标正是让模型能够迁移到新实体、新关系和新图谱中。实验对比对象论文中将 KGPFN 与多个强基线进行比较ULTRA KG-ICL MOTIF TRIX这些模型都属于较有代表性的知识图谱基础模型或上下文学习模型。其中KGPFN 的一个重要特点是不进行目标数据集微调 只使用推理时上下文也就是说模型预训练完成后面对新图谱时直接通过上下文进行适应。实验设置重点论文中的主要实现细节包括关系编码器6 层 NBFNet 局部上下文编码器6 层 NBFNet 隐藏维度64 局部上下文头实体 3-hop 子图 全局上下文20 个正样本 60 个负样本 优化器AdamW 训练负样本每个正样本 64 个负样本 评估方式对所有实体排序 实验硬件8 张 NVIDIA A800 80GB GPU07结果解读为什么说 ICL 真的发挥作用从主实验结果看KGPFN 的优势非常明确。在 57 个图谱的总平均结果上KGPFN 达到MRR0.432 Hits100.628而最强的 fine-tuned 基线 KG-ICL 的总平均结果为MRR0.430 Hits100.603这意味着KGPFN 即使不在目标数据集上微调也能超过经过微调的竞争模型。更值得注意的是在最困难的 full-inductive 设置中也就是实体和关系都未见过的场景下KGPFN 取得MRR0.433 Hits100.639相比之下fine-tuned KG-ICL 的结果是MRR0.426 Hits100.616这说明 KGPFN 的上下文学习能力并不是装饰性的而是确实帮助模型完成了新图谱适应。· 全局上下文越多越好吗论文进一步分析了全局上下文数量的影响。作者改变正样本数量5 / 10 / 15 / 20以及负样本数量20 / 40 / 60 / 80结果显示正样本数量变化对性能影响不明显但负样本数量增加通常能带来更好的表现。这很有启发性。在链接预测任务中模型不仅要知道什么是正确答案还要能在大量相似候选中排除错误答案。因此更多负样本可以帮助模型更好地区分“看起来像但其实不成立”的候选三元组。总结当然论文也提到一个局限由于计算资源限制作者没有系统验证知识图谱任务上的 scaling law。也就是说KGPFN 在更大模型、更大预训练图谱、更大上下文规模下是否会继续稳定提升还有待进一步研究。但总体来看KGPFN 给知识图谱基础模型提供了一个非常清晰的新方向未来的知识图谱基础模型不仅要学会迁移关系结构还要学会在推理现场读懂上下文。它的意义不只是提出了一个新模型更在于强调了一种新的建模范式学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】