MARC与RDA对照表(对齐与映射)

新RDA已于2020-12-15切换为官方版。在新版工具包中,MARC与RDA对应的信息,分散在各RDA元素的开始部分“元素参考(Element Reference)”。元素参考还包含对都柏林核心术语和IFLA图书馆参考模型的实体关系表述的语义映射,并且计划在适当的时候添加BIBFRAME和UNIMARC映射。

上月有人在RDA-L邮件组中询问,新RDA中有没有与原版“MARC书目到RDA映射”等效的工具。有人回复可以使用“搜索”功能,搜索特定MARC字段或子字段。工具包页面右上的帮助——搜索(Searching RDA Toolkit)给出了例子:”264 *1 $b”(用引号括起,星号表示指示符为空,子字段用美元符号,字段、指示符、子字段之间用空格分开)。这个可以部分解决问题,但不是提问者想要的答案。

官方本月发博文,说明存在RDA元素与MARC21规范和书目格式之间的对齐。不过对照表不在工具包内,而是放在RDA注册(RDA Registry)。实际上新RDA“元素参考”下对应的MARC 21内容,就是由RDA注册中的“RDA元素到MARC 21对齐”生成的。

RDA注册中提供 2种形式下载,分别是RDA元素到MARC21编码的对齐(alignment)和基于对齐的机读映射(map):

  • 对齐(4栏):RDA元素(如abridged as expression),RDA记录方法(4种/结构化-非结构化-标识符-IRI),对齐(aligns with),MARC21书目/规范编码(如500 ** $a)
  • 映射(3栏):RDA元素(如rdaw:P10001),映射(rdakit:hasM21),MARC 21书目/规范编码串与记录方法(如100 0* $0 [identifier])
  • 对齐下载格式为CSV(电子表格),映射下载格式有CSV、N-Triples、Turtle和RDF/XML。

由于是RDA元素到MARC21的电子表格,如果想要MARC字段到RDA元素的对照,只需按MARC21栏重新排序。

对照工作由不列颠图书馆(针对MARC 21书目)和加拿大图书馆与档案馆(针对MARC 21规范)承担。目前基于RDA词表4.0.1版,规范格式有5124行,书目格式有16857行。——一对多的对照,真是够庞大的。

见:RDA and MARC 21 alignments (2020-12-10) https://www.rdatoolkit.org/node/233

TAP规范:表格式应用配置文件(DCMI开发中)

RDA测试版网站今晚(北京时间明早8点)将切换为官方正式版。新RDA的众多变化之一是取消核心元素,官方说明使用者可以使用应用配置文件/应用纲要(application profile,简称AP)作出规定。PCC成立了元数据应用配置文件(MAP)任务组,年初RDA官方的培训资料中给出了电子表格形式的LC/PCC应用配置文件的样例。未来各方都将制定自己的RDA应用配置文件。

正当此时,看到DCMI将在12月17日召开一个非正式的公开会议网会,讨论开发中的规范——表格式应用配置文件(Tabular Application Profile,简称TAP),即表格形式的AP。本规范目前包含12个元素,支持实体描述、属性列表、基数规则和值规则。12个元素【可分为三部分/与入门手册不尽一致】:

  • 一、形状【实体】shapeID,shapeLabel
  • 二、属性 propertyID、propertyLabel、mandatory(必备)、repeatable(可重复)、note(附注)
  • 三、取值【三元组的客体】 valueNodeType(节点类型:IRI或文字)、valueDataType(数据类型:通常为xsd:)、valueConstraint(取值限制/进行中)、valueConstraintType(取值限制类型/进行中)、valueShape【实体】

目前未解决的问题包括:单元格中多值表示、命名空间声明放在哪里、单元格中使用引号、开放图与闭合图。

via [BIBFRAME邮件组]:Open Meeting December 17 16:00 UTC, DC Application Profiles / Karen Coyle (2020-12-13) 

参见:新RDA培训资料摘要(2020-2-2)

LC/PCC应用纲要(电子表)7栏目:1标签定义域(WEMI等),2VES通用需求(必备性),3条件需求(有则必备),4可重复性,5记录方法(结构化、非结构化、ID、IRI,6SES(MARC书目:字段-子字段),7备注

关联数据编目走向现实——新项目LD4P3及LD4社区

梅隆基金资助的“图书馆关联数据”LD4系列项目始于2014年,每2年1-2个项目。2020年中,新项目LD4P3“闭环”得到批准(2020/7/1-2022/6/30,250万美元)。历经多年探索、关联数据编目似乎终于开始进入实际应用阶段。

项目名称“闭环”,指创建一个完整周期的工作模型,以进行图书馆元数据的创建、共享和重用。本项目伙伴(partner)即共同申请者为斯坦福、康奈尔和爱荷华大学图情学院,协作方包括Share-VDE(意大利厂商的托管编目环境)、美国国会图书馆(LC)、合作编目计划(PCC)以及OCLC。此外还有合伙人(cohort),即在LD4P2时已参加从MARC到关联数据编目的PCC成员馆。

主管此项目的斯坦福大学技术与访问服务副馆长Philip Schreur在新闻中称此项目的目的是“使图书馆资源超出图书馆目录的可访问性,并利用来自更广泛网络的相关信息来增强基于图书馆的发现,以及从现有但以前未链接的数据中创建新知识”。

七个主要目标:

  • (1)完成能够与多种环境(例如FOLIO)进行交互的开源关联数据编辑器【对Sinopia的功能要求1】
  • (2)扩大查问规范(QA)范围,以在各种传统(例如LCNAF)和非传统(例如Wikidata、Discogs)规范源中为规范和实体查找以及数据导入提供一流的支持【对QA的要求】
  • (3)通过将QA与OCLC提议的“实体主干”相集成来扩展实体管理【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
  • (4)以RDF创建所有PCC原始编目的连续馈送池,该池可在世界范围内免费开放使用【PCC数据池】
  • (5)扩大Sinopia与其他数据源(ILS、发现系统、PCC数据池和其他外部数据源)基于API的集成的能力,使RDF环境中的数据流闭环【对Sinopia的功能要求2】
  • (6)将PCC合伙人的管理和培训从LD4P转移到PCC【从项目试验走向实际应用?】
  • (7)可持续发展计划和建模,包括确定单个组件以及LD4P3主要利益相关者在业务、成员资格、服务、软件、数据和运营方面的几种长期选择

七个目标通过五个工作包实现:

  • (WP1)扩大Sinopia环境
  • (WP2)集成并完成生产就绪的关联数据规范支持服务(QA)
  • (WP3)在Blacklight中实现发现增强功能【那个历史悠久的?Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)】
  • (WP4)通过创建PCC数据池和扩展PCC合伙人来扩展PCC社区的参与
  • (WP5)环境关键部分的可持续性和社区发展

日前LD4社区也宣布成立:ld4.io。“新的LD4社区向任何人开放,供其探索、学习和协作以提高意识和知识,鼓励采用并建立可互操作的标准、工具和服务的生态系统,以将关联开放数据和其他技术从理论付诸实践并规模化。”目前网站汇集LD4年会资料(始于2017)、维基、slack(即时沟通和团队协作)、邮件组(可申请加入发现、Wikidata、非拉丁文字资料3个组)、油管频道、Github等。

  • 社区宪章:LD4是一个共同努力以促进图书馆实践的社区。 我们专注于链接和使用Web上的数据来推进图书馆的使命、宗旨和目标。/ LD4社区的参与对任何人开放——个人或机构、 非营利组织、政府组织或商业组织。通过直接参与,并通过其各种渠道、项目和活动,LD4聚集全球成千上万的个人。
  • 愿景:世界用图书馆数据丰富,图书馆用世界数据丰富。
  • 使命:通过建立一个开放、多样化、可持续和图书馆主导的社区来推进图书馆实践。我们将共同探索、学习和协作,以提高认识和诀窍,鼓励采用,并建立可互操作的标准、工具和服务的生态系统,以便将关联开放数据和其他技术从理论大规模地应用于实践。

参考资料:

LD4系列项目网关 ld4l.org

  • 2014-2016: LD4L (Linked Data for Libraries)
  • 2016-2018: LD4L Labs
  • 2016-2018: LD4P (Linked Data for Production)
  • 2018-2020: LD4P2: Pathway to Implementation
  • 2020-2022: LD4P3: Closing the Loop