大语言模型与知识图谱融合支撑博物馆文物智慧应用的实践探索

来源:中国文物报
作者:孟睿伟

博物馆承担着文物收藏保护、研究阐释、展示传播和社会教育等重要职能,是传承弘扬中华优秀传统文化的重要阵地。随着人工智能技术加速融入文博领域,如何将大语言模型的语义理解与生成能力转化为支撑文物研究、阐释展示和公众服务的可靠工具,成为智慧博物馆建设中的重要课题。然而,大语言模型在专业领域存在“幻觉”问题,对文物这类知识高度专精、研究成果繁多的领域缺乏深度。如何让大语言模型“说得对、说得准、说得专”,成为博物馆智慧化建设亟待回答的问题。围绕这一问题,中国国家博物馆组织课题组开展“博物馆文物数据管理与知识体系构建研究”。课题组以大语言模型与知识图谱融合为技术路径,建设“博物馆文物知识管理与服务系统”,并依托馆藏甲骨文、金文等资源,赋能“中国国家博物馆古文字资料和研究成果数字化平台”建设,探索以大语言模型与知识图谱融合支撑AI解读、智能问答、图像检索和多维度关联推荐等应用路径。

文博专业知识应用中的可信生成问题

长期以来,博物馆数字化建设的重心在于藏品信息的采集与管理,形成以“一物一档”为核心的数据资产。然而,这种以“藏品管理”为导向的数字化,本质上仍是物的台账,而非知识的网络。文物与文物之间的历史关联、文字与文字之间的演变脉络、纹饰与纹饰之间的工艺传承,大多深藏在专家的研究著述中,难以被检索、被关联、被传播。尤其是甲骨文、金文等古文字类文物,释读门槛高、研究成果散、专业壁垒深,公众即便走进博物馆,也常常面对“天书”望而却步。

大语言模型的出现,为博物馆突破这一困境带来契机。其强大的语言理解与生成能力,使机器能够“读懂”文物描述、“讲述”文物故事。但大语言模型并非万能。在文物这一高度专业的领域,模型容易出现张冠李戴、考释错误、文献引用失实等“幻觉”现象,这对以严谨权威著称的博物馆而言是不可接受的。

知识图谱技术恰好可以补足这一短板。知识图谱以“实体—属性—关系”三元组的方式,将分散的文物知识组织成结构化的语义网络,具有可追溯、可推理、可校验的特点。将知识图谱的结构化优势与大语言模型的语义理解能力有机融合,形成“知识图谱约束大语言模型生成、大语言模型反哺知识图谱扩展”的双向增强机制,是破解专业领域知识服务难题的有效路径。中国国家博物馆立项开展“博物馆文物数据管理与知识体系构建研究”课题,课题组提出“知识本体层—数据层—应用层”的三层架构,建设“博物馆文物知识管理与服务系统”,并以馆藏古文字文物为切入点开展应用验证。

构建面向博物馆文物的知识管理与服务体系

课题组建设的“博物馆文物知识管理与服务系统”致力于构建可持续扩展的文物知识体系,逐步解决文物数据多源异构、知识碎片化、专业表达不系统等共性问题。当前阶段,课题组依托中国国家博物馆馆藏甲骨文、金文等古文字资源,围绕文物基础信息、文字字形、释文内容、著录信息和研究成果等核心要素,开展知识组织与应用验证。

在知识本体层,课题组参考国际文献工作委员会概念参考模型,结合中国国家博物馆馆藏文物的专业特征,构建多层次、多维度的文物知识本体模型。该模型既包含通用文物的基本元数据,也针对甲骨、青铜器等具体类别进行语义扩展,通过文物、文字、释文、著录、研究成果等核心要素之间的属性与关系定义,逐步建立文物间的知识关联。

在数据层,课题组依托大语言模型开展文物知识的辅助抽取与图谱构建。具体而言,大语言模型从文物描述、释文内容、著录信息和相关研究成果等资料中辅助识别实体、抽取属性与关系,形成候选三元组;经专家审核与质量校验后,沉淀为权威的知识图谱数据。这种“机器抽取+专家把关”的人机协同方式,在保证知识权威性的前提下,提升知识图谱的构建效率,同时为上层应用提供可靠的数据底座。

面向古文字数字化平台的知识服务应用实践

“中国国家博物馆古文字资料和研究成果数字化平台”围绕藏品库、文字库、释文库、著录库等核心数据资源,形成文物、文字、释文、著录之间的跨库关联,为知识组织、AI解读和关联推荐提供了重要应用基础。课题组建设的“博物馆文物知识管理与服务系统”通过数据治理、知识组织、语义关联、大语言模型生成和多模态检索等能力,为古文字数字化平台提供知识服务支撑,初步形成面向学术研究、展览策划、公众服务和教育传播的多场景应用能力。

古文字文物的AI解读。传统的文物说明牌受限于篇幅,往往只能提供寥寥数语的基本信息,难以满足观众的深度探索需求。课题组在系统设计中,探索面向文物的交互式智能问答能力。观众可围绕文物基本信息、历史背景、工艺特点和文化内涵等内容进行提问,系统在知识库支撑下生成辅助性解读,并通过预设问题引导观众逐步深入了解文物。这种“知识图谱+大语言模型”的生成方式,有助于降低大语言模型自由生成带来的不确定性和“幻觉”风险,提升解读的可靠性和可追溯性。

古文字的AI解读。针对甲骨文、金文等古文字的释读需求,课题组依托“博物馆文物知识管理与服务系统”,拓展字形与释文的智能解读能力。围绕单字字形与释文,系统呈现其字形特征、释义说明及相关研究著录;围绕一段卜辞或铭文,系统结合上下文给出整体释文与解读,辅助公众理解古文字背后的文化内涵。这种基于结构化知识库的解读方式,既服务普通观众的认知需求,也尊重古文字研究的严谨性。

文物多维度的关联推荐。文物之间的关联是多维的,这种多维关联恰恰是知识网络的核心价值。课题组依托知识图谱与多模态检索技术,实现基于“文物知识网络”的可解释推荐。例如,在甲骨文物详情页,平台提供“内容相似”“同组甲骨”“同期甲骨”“同类内容”“同材质”五个维度的推荐;在青铜器文物详情页,则提供“综合推荐”“同类器物”“同期青铜器”“相似纹饰”“视觉相似”五个维度的推荐。每一个维度背后,都对应着知识本体中明确的属性或关系——释文内容指向文字层面的语义关联,同组与同期指向分组关系和时代关系,同类与同材质指向器物层面的属性关联,相似纹饰与视觉相似则指向工艺与图像层面的视觉关联。这种“可解释、可追溯”的推荐方式,使文物之间的关系不再是黑箱式的“猜你喜欢”,而是一张以知识为骨架的关联网络,推动观众与研究者从单一文物的认知走向“关联式知识发现”。

文物图像检索。在古文字资料整理与研究过程中,研究者常需要在已有馆藏图像中查找字形相近、纹饰相似或器型相近的文物,以开展比较研究。课题组通过提取甲骨、青铜器图像及纹饰等视觉特征,并结合释文文本的语义信息,为平台提供文物图像检索和相似文物发现能力。用户可通过图像检索入口,查找馆藏中视觉相似或语义相关的文物,辅助资料比对与关联研究。

实践成效与价值

课题组的研究与实践,有助于博物馆的文物知识服务在多个层面发生变化。

对学术研究而言,分散的研究成果被组织成可检索、可关联的知识网络,有助于研究者发现文物间的潜在联系,提升研究效率。对展览策划而言,基于知识图谱可智能挖掘文物组合的叙事线索,辅助构建展览主题与陈列逻辑。对公众服务而言,智能问答与多维推荐让“天书”般的古文字变得可读、可感、可探索。对教育传播而言,结构化的知识资源库为研学课程和社教活动设计提供素材,扩大博物馆的文化辐射力。

本课题初步回答“大语言模型如何在专业领域可靠落地”这一普遍性问题。大语言模型不是替代专家,而是放大专家的知识传播力;知识图谱不是束缚模型,而是为模型提供专业的“知识锚点”。两者的有机融合,为博物馆在专业知识场景中安全、可靠、可解释地应用大语言模型提供了实践参考。

展望

文物是历史的见证,知识是文明的延续。下一步,课题组将在三个方面持续深化:一是完善文物高质量数据集和古文字标注数据建设,夯实模型训练、知识抽取和智能应用的数据基础;二是优化大语言模型与知识图谱协同机制,强化专家审核、知识溯源和质量评估,提升AI解读的准确性和可用性;三是依托“博物馆文物知识管理与服务系统”,拓展展厅数字展示、社教课程和学术研究等场景,逐步将相关能力推广至更多文物门类。

让沉睡的文物开口讲述,让深奥的古文字走入大众视野,让分散的文物知识联结成网,是大语言模型赋能博物馆智慧应用的重要方向。

(作者单位:中国国家博物馆)

[本文系2025年度中国国家博物馆科研项目“基于大语言模型的博物馆文物数据管理与知识体系构建研究”(项目编号:GBKX2025Y26)的阶段性研究成果]

image.png


往期回顾

Copyright Reserved 2024 版权所有 国家文物局主管 中国文物报社主办     京ICP备19002194号-6    京公网安备11010102007559号

网站管理:中国文物报社有限公司 技术服务电话:86-10-84078838-6168

1.8023s