OCLC研究报告《过渡到下一代元数据》笔记

OCLC研究部每年都会发布一些报告。2020年的《过渡到下一代元数据》,是OCLC研究图书馆合作伙伴(Research Library Partners, RLP)下属元数据管理者焦点小组(Metadata Managers Focus Group)在2015-2020年间讨论的总结,由OCLC的Karen Smith-Yoshimura执笔:

Smith-Yoshimura, Karen. 2020. Transitioning to the Next Generation of Metadata. Dublin, OH: OCLC Research. https://doi.org/10.25333/rqgd-b343.

本报告以“下一代元数据”为标题,但并没有对“下一代元数据”给出一个定义。

小组的“坚定的信念是,无论其形式如何、无论现在还是将来,元数据都是所有发现的基础。”“然而元数据正在发生变化。只有图书馆系统才理解的、书目记录中基于格式文本字符串的、特定格式的元数据管理,从概念上和技术上都已接近过时。图书馆管理创新对元数据管理的实践施加了压力,要求其发展,因为需要图书馆员为更多类型的资源提供元数据,并以更少员工在机构或多机构项目中进行协作。”【更少的员工、面对更多类型资源】“过渡到下一代元数据是一个不断发展的过程,与不断变化的标准、基础架构和工具交织在一起。”

报告首先提出元数据变化三问:为什么会发生变化、创建过程如何改变、元数据本身如何变化:

  • 1、为什么元数据会发生变化?
  • 传统的图书馆元数据过去和现在都是由图书馆员、按照主要由图书馆员使用和理解的规则制定的。它以记录为中心,生产成本高,且有历史尺寸限制【原目录卡片】。元数据的覆盖范围有限,特别是不包括学术期刊或其他学术成果中的文章。基础设施不足以管理更正和增强,导致对完美的强调加剧了元数据创建的缓慢 【“完美”被吊打、已不合时宜】。简而言之,元数据可以更好,它是不够的,并且现存元数据在图书馆领域之外没有被广泛使用【注意力时代,不被需要会被抛弃】。
  • 2、元数据创建过程如何变化?
  • 元数据不再由图书馆工作人员单独创建。今天,出版商、作者和其他相关方同样参与元数据创建。元数据创建也在学术生命周期中得到推进,出版商比传统编目过程更早地创建元数据记录。现在可以通过机器或众包来增强或纠正元数据。【上游元数据、元数据自动增强、众包】
  • 3、元数据本身如何变化?
  • 机器可读编目 (MARC) 的创建是为了复制传统上在图书馆目录卡片上找到的元数据。我们正在从 MARC 记录过渡到编码良好、可共享、可链接的组件的组合,重点是参照,我们正在消除机器无法理解的不合时宜的缩写。与仅依赖图书馆词表(如主题标题表和代码表)不同,正在开发的组合可以容纳为特定领域创建的词表,从而扩展元数据的潜在受众。【不断变化的标准:抛弃MARC格式、采用开放关联数据,改变编目规则、取消卡片目录时代的缩写,不强制使用图书馆受控词表】

然后是报告的四个主要部分。前三部分延续元数据变化三问,大致描述了“下一代元数据”的图景。第四部分则是图书馆的应对:这些变化将对未来的人员配备产生什么影响、图书馆如何准备?

一、向关联数据和标识符过渡:作为从“规范控制”到“身份管理”转变的一部分,扩大永久标识符的使用

  • 1、扩大使用永久标识符:永久标识符被视为从当前元数据过渡到未来应用的关键。
  • 2、从“规范控制”走向“身份管理”。重点发生了变化,从在资源描述中提供检索点、到描述资源中的实体(工作、人员、团体、地点、事件)并在它们之间建立关系和链接。身份管理还可以弥合期刊文章、学术档案服务和图书馆目录中的名称变化,超越这些现在孤立的领域。这是实现关联数据承诺的必要条件。
  • 3、解决需要多词表和公平、多样性和包容性【EDI,政治正确】。
  • 4、关联数据挑战:良好的关联数据需要良好的元数据。【常常在需要重新利用遗留元数据时、发现各种问题,数据清洗必不可少】

二、描述“由内而外”和“促进”的馆藏:为机构以各种格式创建或策划、与联盟共享的独特资源创建和管理元数据的挑战

  • 由内而外:即支持机构资源的创建、管理和可发现性,向外提供内部资源——相对于“由外而内”即购买资料供内部使用;
  • 便利的:指围绕用户需求提供对更广泛的本地、外部和协作资源的访问。
  • 报告特别讨论5种特定格式的独有资源的元数据问题:1、档案馆藏;2、存档网站(归档具有学术或机构利益的网络资源,以确保它们的持续访问和长期生存);3、影音馆藏;4、图片馆藏;5、研究数据。

三、“元数据即服务”的演变:超越传统图书馆目录,更多地参与元数据创建;以及利用旧元数据和未来元数据的新服务。【更多元数据元素,在搜索以外更多元数据利用】

  • 1、指标:使用指标(如借阅、引用、下载或请求单件的频率)可用于构建广泛的图书馆服务和活动。……一些可能的服务:[1]有关剔除单件的馆藏管理决策和确定异地存储的资料;[2]评估订阅;[3]将研究人员出版物的引用与图书馆未购买的内容进行比较;……[4]学生使用高校图书馆与学业成绩之间的关系。【基于使用元数据评估馆藏】
  • 2、咨询服务:一个新兴趋势是数字人文部门向元数据专家征求有关元数据标准和如何使用受控词汇表的建议。这个元数据顾问角色的更多可见性出现在最近的图书馆职位发布中。
  • 3、新应用。MARC字段的共享和一致使用支持新的应用程序。[1]使用书目记录中的标识符来获取目录、摘要、评论和封面图像,并生成在特定分类范围内定位资源位置的楼层地图(例如在 OCLC 与 StackMap 的集成中)。[2]使用书目元数据填充数字资产管理系统和机构存储库,使用 Tableau 和 OpenRefine 等工具,可以对馆藏进行更丰富的分析和馆藏视图。[3]MARC元数据将学者与其项目的书目数据联系起来,并可以通过 Yewno 等应用程序生成与相关资源的关系。[4]MARC元数据还被用于为机构产出措施和隶属关系跟踪提供信息,并作为构建组织历史的来源。[5]机构书目元数据中隐含的出处已被证明有助于记录盗窃案件【?】。[6]通过数据挖掘分析目录数据也可用于丰富元数据,例如生成相关记录中缺失的语言代码或识别翻译作品的原始题名。[7]MARC数据还支持生成主题地图以发现编目元数据中其他不明确的关系。[8]澳大利亚国家书目数据库中作为“代码马拉松”活动结果标记的 465 种土著语言,以及一个让社区参与的示例增强书目元数据。 【现有元数据的深度挖掘/可视化——MARC数据以前未得到良好利用】
  • 4、书目计量:用于生成文献计量,统计方法来分析图书、文章和其他出版物。将图书馆元数据用于数字人文研究项目具有很大的潜力。[1]美国国会图书馆的研究人员使用书目元数据来追踪出版和版权的历史;[2]加州大学洛杉矶分校的研究人员使用编目元数据来跟踪胰岛素等发明的商业化。[3]英国第二大书商 Hachette UK 对编目元数据的一种新用途是委托 Graphic History Company 解锁所有九家 Hachette 出版社的历史,并通过要求大英图书馆提供跨越 250 年的九家出版社出版的每一个作者和书名。大英图书馆提供了一份超过 55,000 位作者的名单,从中选出了 5,000 位最杰出的人来创造可能是元数据使用最美丽的例子:一幅跨越八层楼的巨型壁画,按时间顺序展示了所有 5,000 位作者。【文献计量/可视化】
  • 5、语义索引:当受控词表和同义词表被转换为关联开放数据并公开共享时,它们促进馆藏浏览的传统作用将消失,但可以在基于网络的知识组织系统 (KOS) 中找到新用途。……焦点小组成员希望人工智能——或者至少是机器学习——能够减少当前在研究数据中链接名称和概念的人工工作量。也许算法可用于根据相关元数据或来源匹配名称,根据上下文将论题相互关联,根据其他可用元数据消除名称歧义,并分析数据集以识别馆藏中可能存在的偏差。一些研究图书馆合作伙伴参与图书馆、档案馆和博物馆的人工智能 (AI4LAM) ,这是一个“国际参与性社区,专注于推动人工智能在图书馆、档案馆和博物馆内部、为图书馆、档案馆和博物馆的使用。【期待AI、ML能够减少人工工作量】

四、为未来的人员配备需求做好准备:不断变化的环境需要新进入该领域的专业人员和经验丰富的编目员所需的新技能

  • 1、文化转变:从仅对制作感到自豪到重视学习、探索和尝试元数据工作新方法的机会。【改变态度】
  • 2、学习机会:分享见闻、跨团队小组讨论、阅读俱乐部、参与多机构项目……。【激发学习兴趣的各种方法】
  • 3、新工具和技能:图书馆员学习编程技能比聘请 IT 专家学习“技术服务思维”更容易(背后的真实原因:虽然“圣杯/必杀技”是招聘对元数据服务感兴趣的具有 IT 背景的人,但留住具有 IT 技能的员工很困难——他们需要私营部门的高薪工作)。工具:MarcEdit【强推】和/或其他如 OpenRefine、脚本(如 Python、Ruby 或 Perl)和用于元数据协商和批处理的宏。
  • 4、自学
  • 5、解决员工流动。需要创建有吸引力的职位描述。具有编程技能的新员工受到追捧,因为他们可以将批处理技术应用于可以弥补员工流失的元数据。元数据经理需要重新思考元数据专家在“传统”编目工作之外的角色。与可能无法很好地适应新环境工作的具有传统编目背景的潜在候选人相比,具有更灵活技能组合的潜在候选人变得更具吸引力。【一方面自然减员,因为人员退休或离职原职位难以保留;另一方面要吸引有技术能力的新人,所以新职位名称频现】

【关于编目员的思考:编目员对“完美”的追求是长期编目锻炼的结果。但现实中为编目效率普遍采用外包,“完美”得不到认可。从发展看,将是更少的员工、面对更多类型资源,因此编目员不能局限于传统编目、必须将视野扩大到独特馆藏资源,同时不拒绝学习新技术与新方法。】

维基数据与图书馆(IFLA Wikidata Working Group系列会议)

IFLA维基数据工作组(IFLA Wikidata Working Group)于2019年底成立,旨在探索和倡导图书馆和信息专业人士使用并贡献于Wikidata,将Wikidata和Wikibase与图书馆系统集成,以及将Wikidata本体与图书馆元数据格式(如BIBFRAME、RDA和MARC)对齐。其背景是:2016年IFLA白皮书《学术研究图书馆和维基百科的机会》(Opportunities for Academic and Research Libraries and Wikipedia)指出:“Wikidata潜在地将关联数据和关联数据规范一起跨世界的各种语言以及许多不同的本体和分类法吸引到全世界的研究人员。”许多图书馆越来越多地利用Wikidata的功能,但是,缺乏国际协调和交流阻碍了这种潜力。

工作组得到Wikimedia基金资助,原计划在2020年IFLA年会举办卫星会议。年会因新冠肺炎(COVID-19)大流行而取消,卫星会议则改为6-8月的6场线上报告/讨论,时长半到一小时不等。视频于2020-9-24在IFLA油管频道发布,其中3场有中文字幕。报告主要涉及维基项目中的Wikidata、Wikibase和Wikisource,也提到Wikicite、Wikimedia Commons等。主持人Stacy Allison-Cassin(IFLA维基数据工作组领导,加拿大约克大学)、多个主讲人本身是积极参与维基项目者。

会议介绍:IFLA releases 6 videos on Wikidata and Wikibase in Libraries (24 September 2020)

油管会议网页:Wikicite + Libraries Discussion Series

(部分报告视频中的标题与页面显示标题不同,以下所列为视频中标题)

1. Wikidata和图书馆的数字转型(Wikidata and Digital Transformation in Libraries / Jason Evans and Simon Cobb)

  • 威尔士国家图书馆介绍与Wikidata的合作项目:上传图片到Wikimedia Commons,作者、出版社数据可视化;最终希望Wikidata ID出现在图书馆目录中……。
  • Simon Cobb介绍Wikidata数据处理,提到其中的Wikicite有2500万文章,Wikidata有作者消歧工具。

2. 当德语规范库GND遇到Wikibase(GND meets Wikibase / Barbara Fischer and Sarah Hartman)

  • 德国国家图书馆介绍2019年开始的项目:使用Wikibase发布GND规范库,本地安装、可控、具有持久性,又可与外部连接。

3. Wikisource如何管理数据?(How do Wikisources manage data? / Nicolas Vigneron)

  • 从2004年项目开始即参与的报告人介绍维基的免费在线合作图书馆(https://en.wikisource.org/)。
  • 其中提到应用FRBR层次,但简化为三层——内容表达和载体表现合并为版本(与BIBFRAME异曲同工)。
  • 报告及问答阶段提到图书馆目录与规范的不完善。

4. 关注差距:Wikidata数据如何补充和完善元数据工作(Mind the Gap! How Wikidata complements and completes metadata work / Ahava Cohen)

  • 以色列国家图书馆介绍本馆项目如何使用Wikidata。
  • 最有激情的报告,前12分钟讲述自己为什么会参与Wikidata项目——因为以色列国家图书馆的多语言文字现状、以色列人名广泛重复……。
  • 具体介绍的6个项目:1)修改Wikidata非拉丁人物姓名(原拉丁字母拼写);2)WikiCommons照片库,3)IFLA匿名经典,希伯亚姓名,加上本馆/LC/VIAF/Wikidata的ID;4)本馆制作的以色列出版社数据库放到Wikidata;5)利用Wikidata为本馆规范档批添加ORCID;6)使用Wikidata连接Ben-Yehuda作者ID与本馆ID。
  • 问答阶段,提问涉及Wikidata的权威性,依赖它是否可靠?回答是该馆与作者接触紧密,有很多鲜活的例子可以说明没有什么机构的记录是权威的(比如作者本人都常不确定自己姓名的写法,因为离婚要求修改自己的规范名称……)。

5. 知识平等、图书馆元数据和Wikidata(Knowledge Equity, Library Metadata & Wikidata / Stacy Allison-Cassin and Karim Tharani)

  • 围绕Wikimedia运动战略中的“知识平等”展开讨论,涉及Wikidata的多语言支持、非西方中心论。
  • 知识平等(Knowledge equity):作为一项社会运动,我们将努力集中于权力和特权结构所遗漏的知识和社区。我们欢迎来自各个背景的人们建立强大而多样的社区。我们将打破阻止人们获取和贡献自由知识的社会、政治和技术障碍。(Strategy/Wikimedia movement/2018-20)】

6. 学术档案[学者身份]、Wikidata和学术图书馆(Scholarly Profiles, Wikidata and Academic Libraries / Meg Wacha)

  • 提到开源工具Scholia(https://github.com/fnielsen/scholia)使用Wikidata创建学者、机构、出版物等的档案。

科学数据管理的“FAIR原则”及其实施

【FAIR原则】https://www.go-fair.org/fair-principles/

2016年,Mark D. Wilkinson等在《Scientific Data》上发表 The FAIR Guiding Principles for scientific data management and stewardship( https://doi.org/10.1038/sdata.2016.18),提出科学数据管理的“FAIR指导原则”,即改善数字资产的可查找性(Findability)、可获取性/可访问性(Accessibility)、互操作性(Interoperability)和重用性(Reusability)。原则强调机器可操作性,即计算系统在没有或最少人为干预的情况下查找、获取、互操作和重用数据的能力。

FAIR原则涉及三种类型的实体:数据(或任何数字对象)、元数据(有关该数字对象的信息)和基础架构(如注册、搜索引擎)。原则如下:

  • F 可查找性
  • (重复)使用数据的第一步是找到它们。对人和计算机来说,元数据和数据都应该易于找到。机器可读的元数据对于自动发现数据集和服务至关重要,因此这是“FAIR化流程”的重要组成部分。
  • F1、(元)数据被分配一个全局唯一且持久的标识符
  • F2、用丰富的元数据(由下面的R1定义)描述数据
  • F3、元数据清晰明确地包含了它们描述的数据的标识符
  • F4、(元)数据在可搜索资源中注册或索引
  • A 可获取性
  • 一旦用户找到所需的数据,她/他就需要知道如何获取它们,可能包括身份验证和授权。
  • A1、(元)数据可使用标准化的通信协议通过其标识符进行检索
  • A1.1、协议是开放、免费的并且可以普遍实施
  • A1.2、协议允许在必要时进行身份验证和授权过程
  • A2、即使数据不再可用,也可以获取元数据
  • I 互操作性
  • 可互操作数据通常需要与其他数据集成。此外,数据需要与应用或工作流进行互操作,以进行分析、存储和处理。
  • I1、(元)数据使用一种形式化、可获取、共享和广泛适用的语言来表示知识。
  • I2、(元)数据使用符合FAIR原则的词表
  • I3、(元)数据包括对其他(元)数据的合格引用
  • R 重用性
  • FAIR的最终目标是优化数据的重用。为此,应详细描述元数据和数据,以便可以在不同的设置中复制和/或组合它们。
  • R1、(元)数据以多种准确且相关的属性进行丰富的描述
  • R1.1、(元)数据使用明确且可获取的数据使用许可证发布
  • R1.2、(元)数据与详细出处关联
  • R1.3、(元)数据符合领域相关的社区标准

走向FAIR社区https://www.go-fair.org/how-to-go-fair/

FAIR原则没有停留在学术论文中。自2018年以来,GO FAIR社区一直在努力实施FAIR指导原则。这种集体努力形成了一个三点框架,该框架制定了必不可少的步骤,为的是实现最终目标——一个全球性的“FAIR数据和服务互联网”,其中的数据可用于计算机的可查找、可获取、可互操作和可重用(FAIR)。

https://www.go-fair.org/wp-content/uploads/2020/07/3-point-framework_text_icon-background-1.png
三点框架指:M4M(用于机器的元数据)FIP(FAIR实施纲要)FDP(FAIR数据点)。自2020年4月以来,有3个相应的工作组在开发方法、工具和文档。

定义元数据需求:M4M研讨会https://www.go-fair.org/how-to-go-fair/metadata-for-machines/

没有机器可操作的元数据就没有FAIR数据。自2018年10月以来,已举办了6次M4M研讨会,由领域专家与元数据专家(数据管家)组成团队,定义满足特定领域的FAIR数据需求的元数据需求。

FAIR化流程https://www.go-fair.org/fair-principles/fairification-process/

对于非FAIR数据,走向FAIR社区采用7个步骤将之“FAIR化”:1检索非FAIR数据——2分析检索到的数据——3定义语义模型——4使数据可链接——5分配许可证——6定义数据集的元数据——7部署FAIR数据资源

https://www.go-fair.org/wp-content/uploads/2017/11/FAIRificationProcess-1.png