金文在古文字材料中占有十分重要的地位,其年代从商代延续至秦汉,时间跨越千年之久。其他古文字材料,如甲骨文主要存在于商代和西周早期,简帛材料主要集中于战国秦汉时期,都不如金文时间跨度长。同时,金文内容丰富,是研究先秦历史和古代文化的第一手材料。鉴于其重要性,对金文进行深入研究并充分挖掘其史料价值是十分必要的。随着新兴科技的出现,结合人工智能技术开展金文研究,不但可以提高研究者的效率,同时也有利于金文的普及化和大众化。
金文材料有其特殊性,而人工智能也具备了学习、分析、总结的能力,学者可将两者相结合,针对金文的特点,利用人工智能中信息检索、计算机视觉、自然语言处理等技术,实现合理的智能算法,进而辅助专家去解决金文领域中的学术难题。本文试着讨论金文与人工智能交叉研究的几个方向,其中金文形体识别方面我们已有另文详论,此处不再赘述,下面主要讨论其他方面。
知识图谱与金文研究
知识图谱本质上是一种知识网络,用于揭示事物之间的关系,可以将原本无结构的知识组织成有机的知识系统。知识图谱能够支持知识的提取、融合、管理等各个方面,应用十分广泛。针对金文材料,可以构建一个集金文字形、词义、辞例于一体的知识图谱,将金文的相关知识融合成一个整体,为学者研究提供便利。目前,学界已有研究者正在开展此项工作。
除了金文自身外,知识图谱还可以连接金文与传世文献。金文资料是地下出土的商周文献,它与传世典籍关系密切,部分内容两者可相互印证,这有助于古史的研究。如利簋铭文记载了武王克商的史实,与传世文献所记相合;子犯编钟铭文记载的战争,与传世典籍记录的晋楚城濮之战可相互对应,而且还能弥补典籍记载之不足。所以,将出土金文与传世文献结合起来进行研究是十分必要的,2023年出版的李学勤先生《金文与西周文献合证》一书便是此类典范。
尽管金文具有重要的史料价值,但借助金文研究古史是存在“门槛”的:一方面研究者需要熟悉金文形体,了解金文的内容;另一方面,还需具备扎实的文献功底,能够将传世文献与金文结合起来。面对这种情况,可以考虑使用知识图谱将金文中出现的人物、地点以及历史事件与传世文献当中的史料相互联系。这一工作将会有力地提高研究效率。
自然语言处理与金文研究
目前,利用人工智能技术研究金文的成果主要是使用计算机视觉模型来处理单字图片,完成字形识别或图像降噪等任务。自然语言处理是人工智能的一个重要分支,将自然语言处理模型与金文文本结合起来进行研究目前还是一片蓝海。其主要难点首先在于,金文文本中存在着大量的异体字、通假字和未释字,而且文本中有很多写法仅在古文字中出现,现有的汉字编码体系根本没有收录,需要古文字研究者自己手动造字、手动编码。其次,人工智能领域流行的自然语言处理模型基本都是基于深度学习的,对数据量要求较高,而金文作为出土文献,数据量相对较小,实现起来有诸多不便。此处所言及的数据量较小,指的是和其他常见种类的海量数据相比,实际上金文无论是篇目还是篇幅都达到了一定的量级。学界目前已经公布的金文数量约2万件。至于铭文长度,虽说以短篇为主,但也不乏长铭,如毛公鼎铭接近500字,大盂鼎、散氏盘等铭文也达300字左右。在对现有模型进行适当调整的情况下,可以采用基于深度学习的自然语言处理模型开展研究工作。而且,商周金文的语言习惯属于先秦古代汉语,可以借助大量的先秦典籍来进行辅助训练,从而弥补出土文献数据有限的缺点。整体上看,这一领域的研究有着广阔的前景。例如,著名人工智能企业DeepMind与威尼斯大学人文系、哈佛大学希腊研究中心、牛津大学古典学院和雅典经济与商业大学信息学系合作共同推出了名为伊萨卡(Ithaca)的深度学习模型。该模型可以自动处理希腊文文本,从而推测受损希腊铭文以及书写位置。该模型推测受损缺失铭文的准确率为62%,受过7年学习和训练的希腊历史以及希腊语专业的研究生预测准确率为25%,但是在该模型的辅助下可以将准确率提升到72%。该成果在2022年以封面文章形式发表在权威科学期刊 Nature上。中国商周金文由于年代久远,铭文也常出现破损缺失、模糊的情况,也可以用类似的模型推测残缺或未释字形。除此之外,借助自然语言处理方法还可完成金文分词、断句、文本分类等诸多有意义的工作。
通用大语言模型与金文研究
大语言模型是一种基于深度学习的超大型人工智能模型,它可以通过分析大量的文本数据,学习人类的语法、语言和知识,从而实现与人类语言交流以及完成文档总结、语言翻译、程序编写等多项任务。ChatGPT诞生后,大语言模型成为当前的研究热点。在学术圈内,大语言模型也受到广泛的关注。目前,已经有越来越多的科研工作者尝试使用大语言模型来助力自己的学习、研究工作。但经过测试可知,已有的各大公司发布的通用大语言模型回答金文领域专业问题的结果并不理想,往往会给出错误的信息,无法满足研究者的需求。原因在于,一般大语言模型的训练量为10TB左右的文本数据。包括金文在内的古文字专业常被称作冷门绝学,在互联网上金文数据极少,甚至几乎可以忽略不计,这就导致可用的金文数据极为匮乏。大语言模型的另外一个特点是数据量越多,出现越频繁,学习效果就越好,而且模型倾向于忽视那些较少出现的稀有数据。这些原因共同导致现有的通用大语言模型在金文领域的“知识匮乏”,生成的大部分都是些似是而非的笼统答案。随着大语言模型使用的推广和普及,一定会有越来越多的金文爱好者或使用者需要借助大语言模型来学习、研究金文。因此,提升大语言模型在金文研究领域的能力是十分必要的。OpenAI训练ChatGPT的经验表明,通过数量少但质量高的数据对大语言模型进行微调,可以显著提升大语言模型的表现能力。未来可以借助金文专家人工整理的高质量数据,微调现有的通用大语言模型,使之精通金文。另一种方法是给大语言模型外接一个包含金文领域专业数据的知识图谱,这同样可以弥补大语言模型在金文领域知识表现不足的问题。
包括金文在内的古文字学虽然属于小众学科,相关的研究人员并不多,但古文字学本身的价值极大,对探索中国古代文明、研究中华优秀传统文化有着重要作用。人工智能技术可以减轻研究人员的工作量、提升研究者的工作效率,也能更好地向公众普及古文字的知识,从而推动古文字学的发展。
本文系国家社科基金项目“基于金文资料的中国先秦语言文化研究”(23VRC033)阶段性成果
作者系吉林大学考古学院、古文字古文物人工智能重点实验室教授
来源:中国社会科学报
责任编辑:张云华
新媒体编辑:苏威豪
如需交流可联系我们
点个“在看”不失联