荷兰国家图书馆(KB)上月发布白皮书《探索自动生成元数据的可能性》,有英语和荷兰语版本:
KB News: KB explores artificial intelligence to generate metadata 荷兰国家图书馆探索人工智能以生成元数据
* White paper ‘Exploring possibilities Automated Generation of Metadata’ (English)
看报道以为是用人工智能代替(描述性)编目,实际KB在白皮书中介绍的是主题编目也就是标引。主要内容是2019年1月在ICT行业研讨会的一个案例研究,对学位论文自动分配关键词。介绍了过程中面临的问题,使用的多种方法及效果评估,以及发布的工具(Brinkeys)。
自动标引研究在图情界可谓历史悠久,但多见于文章标引,没有引入文献编目流程。主题标引其实是编目中很花时间的部分,在描述信息大多可以套录或转换得到的背景下,分类、主题在编目所花时间的占比会越来越大。看白皮书中所引参考文献,德国国家图书馆自2010年起探索自动分配主题,2017年起确定针对所有文献类型的主题编目政策“自动第一”,只在自动程序没有产生结果或质量不足时才进行人工标引(IFLA 2018年会文章)。
本白皮书的报道称,“KB的使命是利用书面文字的力量为更聪明、更熟练和更有创意的荷兰做出贡献。这就是为什么我们不仅在KB中分享我们的发现,而且还与正在研究或对类似开发感兴趣的每个人分享我们的发现。通过分享知识和共同努力,我们希望每个人都能阅读、学习和研究。”很赞赏这种使命感,以及分享精神。
白皮书第一部分概述媒体、文化遗产部分及其他图书馆在这方面已做的工作,结合最后的参考文献,对了解现状很有帮助:
【媒体】1福布斯:根据文章内容提示关键词。2盖蒂(Getty):根据故事找到合适的照片。3纽约时报:对存档照片数字化并生成自动描述。4荷兰RTL:使用语音和图像识别索引电视内容。5各种“推荐者”:根据不同算法向用户做相关推荐。
【文化遗产部门】1荷兰国家档案馆:电子邮件、文件自动分类。2 Naturalis生物多样性中心:昆虫图像自动分类。3 KB:历史报纸文章自动分配新闻体裁(Genre classifier),历史报纸图像区分为照片、绘图和漫画(CHRONReader),识别小说中实体关系(Narralyzer)。4荷兰媒体文化、声音和视觉研究所(Nederlands Instituut voor Beeld en Geluid):自动描述电视和广播节目,语音识别转换节目为文本,自动扬声器标签为文本指定名称,面部识别电视节目中的人物,最后按叙词表分配主题——2018年开始使用。
【图书馆】可上溯到1950年代,Robert David Stevens和Karen Spark Jones的文章。近年的出自IFLA、LIBER、DCMI和SWIB(会议文章),两种方法:
方法一根据受控词表自动分配关键词:1德国国家图书馆:自动第一:德国国家图书馆的主题编目政策。2荷兰Bookarang与NBD Biblion:从图书的PDF中生成资源描述,包括关键词和评论。3瑞典国家图书馆:联合目录使用DDC自动分类。4挪威国家图书馆:代码名称Nancy:挪威国家图书馆的AI经验。5芬兰国家图书馆:Annif——自动主题标引和分类工具。
方法二添加额外元数据(命名实体识别):1新加坡国家图书馆委员会:命名实体识别用于自动标引。2美国佛罗里达大学:特藏添加地理位置数据。3 KB:使用命名实体软件识别历史报纸中的名称和地点等实体,然后链接到DBpedia和Wikidata等数据库。4 JSTOR Text Analyzer工具:系统分析用户上传文本、提取实体,以此建议JSTOR数据库中相关文章。
附:荷兰国家图书馆实验室:KB Lab
包括数据集、工具、新闻、事件和KB研究部的Twitter。
数据集现列有10个,包括白皮书中提及的DBNL(荷兰文学数字图书馆)OCR数据集,共220册,经人工校对并转换为TEI-Lite (P4);还有一个荷兰华人社区网络特藏。
工具现列有19个,包括白皮书中主要介绍的Brinkeys(为学位论文提示Brinkman主题),以及第一部分概述中介绍的几个KB应用。
Via 图情招聘(微信公众号):荷兰国家图书馆利用AI自动建立Metadata(2019-8-28)