荷兰国家图书馆白皮书《探索自动生成元数据的可能性》

荷兰国家图书馆(KB)上月发布白皮书《探索自动生成元数据的可能性》,有英语和荷兰语版本:

KB News: KB explores artificial intelligence to generate metadata 荷兰国家图书馆探索人工智能以生成元数据

* White paper ‘Exploring possibilities Automated Generation of Metadata’ (English)

看报道以为是用人工智能代替(描述性)编目,实际KB在白皮书中介绍的是主题编目也就是标引。主要内容是2019年1月在ICT行业研讨会的一个案例研究,对学位论文自动分配关键词。介绍了过程中面临的问题,使用的多种方法及效果评估,以及发布的工具(Brinkeys)。

自动标引研究在图情界可谓历史悠久,但多见于文章标引,没有引入文献编目流程。主题标引其实是编目中很花时间的部分,在描述信息大多可以套录或转换得到的背景下,分类、主题在编目所花时间的占比会越来越大。看白皮书中所引参考文献,德国国家图书馆自2010年起探索自动分配主题,2017年起确定针对所有文献类型的主题编目政策“自动第一”,只在自动程序没有产生结果或质量不足时才进行人工标引(IFLA 2018年会文章)。

本白皮书的报道称,“KB的使命是利用书面文字的力量为更聪明、更熟练和更有创意的荷兰做出贡献。这就是为什么我们不仅在KB中分享我们的发现,而且还与正在研究或对类似开发感兴趣的每个人分享我们的发现。通过分享知识和共同努力,我们希望每个人都能阅读、学习和研究。”很赞赏这种使命感,以及分享精神。

白皮书第一部分概述媒体、文化遗产部分及其他图书馆在这方面已做的工作,结合最后的参考文献,对了解现状很有帮助:

【媒体】1福布斯:根据文章内容提示关键词。2盖蒂(Getty):根据故事找到合适的照片。3纽约时报:对存档照片数字化并生成自动描述。4荷兰RTL:使用语音和图像识别索引电视内容。5各种“推荐者”:根据不同算法向用户做相关推荐。

【文化遗产部门】1荷兰国家档案馆:电子邮件、文件自动分类。2 Naturalis生物多样性中心:昆虫图像自动分类。3 KB:历史报纸文章自动分配新闻体裁(Genre classifier),历史报纸图像区分为照片、绘图和漫画(CHRONReader),识别小说中实体关系(Narralyzer)。4荷兰媒体文化、声音和视觉研究所(Nederlands Instituut voor Beeld en Geluid):自动描述电视和广播节目,语音识别转换节目为文本,自动扬声器标签为文本指定名称,面部识别电视节目中的人物,最后按叙词表分配主题——2018年开始使用。

【图书馆】可上溯到1950年代,Robert David Stevens和Karen Spark Jones的文章。近年的出自IFLA、LIBER、DCMI和SWIB(会议文章),两种方法:

方法一根据受控词表自动分配关键词:1德国国家图书馆:自动第一:德国国家图书馆的主题编目政策。2荷兰Bookarang与NBD Biblion:从图书的PDF中生成资源描述,包括关键词和评论。3瑞典国家图书馆:联合目录使用DDC自动分类。4挪威国家图书馆:代码名称Nancy:挪威国家图书馆的AI经验。5芬兰国家图书馆:Annif——自动主题标引和分类工具。

方法二添加额外元数据(命名实体识别):1新加坡国家图书馆委员会:命名实体识别用于自动标引。2美国佛罗里达大学:特藏添加地理位置数据。3 KB:使用命名实体软件识别历史报纸中的名称和地点等实体,然后链接到DBpedia和Wikidata等数据库。4 JSTOR Text Analyzer工具:系统分析用户上传文本、提取实体,以此建议JSTOR数据库中相关文章。

附:荷兰国家图书馆实验室:KB Lab

包括数据集、工具、新闻、事件和KB研究部的Twitter。

数据集现列有10个,包括白皮书中提及的DBNL(荷兰文学数字图书馆)OCR数据集,共220册,经人工校对并转换为TEI-Lite (P4);还有一个荷兰华人社区网络特藏。

工具现列有19个,包括白皮书中主要介绍的Brinkeys(为学位论文提示Brinkman主题),以及第一部分概述中介绍的几个KB应用。

Via 图情招聘(微信公众号):荷兰国家图书馆利用AI自动建立Metadata(2019-8-28)

《荷兰国家图书馆白皮书《探索自动生成元数据的可能性》》上有3条评论

  1. 这个白皮书我看了,我觉得进展还很有限,确实只能称为探索。直接使用工具来进行NER或给主题,在未来可以看到的未来我感觉都不会是主流方法。对图书馆来说,希望能看到人工与工具判断相结合的业务流程尝试。

      1. 完全同意自动第一这个观点,我是说在目前可见的未来,元数据生产流程上是离不开人工介入的,图书馆的工作重心应该放在怎么让人和自动识别工具相结合的流程化管理上。想着怎么提高自动化的识别率这个方向还是太偏探索了,短时间我不看好。
        在大学等研究院所有很多人在这个方面上研究,图书馆并不占优势 。图书馆个人觉得应该多考虑在应用层面的问题。
        我其实纯抬杠哈,精灵师不要介意,工作累了换换脑子。

发表评论

电子邮件地址不会被公开。 必填项已用*标注