关联数据编目走向现实——新项目LD4P3及LD4社区

梅隆基金资助的“图书馆关联数据”LD4系列项目始于2014年,每2年1-2个项目。2020年中,新项目LD4P3“闭环”得到批准(2020/7/1-2022/6/30,250万美元)。历经多年探索、关联数据编目似乎终于开始进入实际应用阶段。

项目名称“闭环”,指创建一个完整周期的工作模型,以进行图书馆元数据的创建、共享和重用。本项目伙伴(partner)即共同申请者为斯坦福、康奈尔和爱荷华大学图情学院,协作方包括Share-VDE(意大利厂商的托管编目环境)、美国国会图书馆(LC)、合作编目计划(PCC)以及OCLC。此外还有合伙人(cohort),即在LD4P2时已参加从MARC到关联数据编目的PCC成员馆。

主管此项目的斯坦福大学技术与访问服务副馆长Philip Schreur在新闻中称此项目的目的是“使图书馆资源超出图书馆目录的可访问性,并利用来自更广泛网络的相关信息来增强基于图书馆的发现,以及从现有但以前未链接的数据中创建新知识”。

七个主要目标:

  • (1)完成能够与多种环境(例如FOLIO)进行交互的开源关联数据编辑器【对Sinopia的功能要求1】
  • (2)扩大查问规范(QA)范围,以在各种传统(例如LCNAF)和非传统(例如Wikidata、Discogs)规范源中为规范和实体查找以及数据导入提供一流的支持【对QA的要求】
  • (3)通过将QA与OCLC提议的“实体主干”相集成来扩展实体管理【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
  • (4)以RDF创建所有PCC原始编目的连续馈送池,该池可在世界范围内免费开放使用【PCC数据池】
  • (5)扩大Sinopia与其他数据源(ILS、发现系统、PCC数据池和其他外部数据源)基于API的集成的能力,使RDF环境中的数据流闭环【对Sinopia的功能要求2】
  • (6)将PCC合伙人的管理和培训从LD4P转移到PCC【从项目试验走向实际应用?】
  • (7)可持续发展计划和建模,包括确定单个组件以及LD4P3主要利益相关者在业务、成员资格、服务、软件、数据和运营方面的几种长期选择

七个目标通过五个工作包实现:

  • (WP1)扩大Sinopia环境
  • (WP2)集成并完成生产就绪的关联数据规范支持服务(QA)
  • (WP3)在Blacklight中实现发现增强功能【那个历史悠久的?Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)】
  • (WP4)通过创建PCC数据池和扩展PCC合伙人来扩展PCC社区的参与
  • (WP5)环境关键部分的可持续性和社区发展

日前LD4社区也宣布成立:ld4.io。“新的LD4社区向任何人开放,供其探索、学习和协作以提高意识和知识,鼓励采用并建立可互操作的标准、工具和服务的生态系统,以将关联开放数据和其他技术从理论付诸实践并规模化。”目前网站汇集LD4年会资料(始于2017)、维基、slack(即时沟通和团队协作)、邮件组(可申请加入发现、Wikidata、非拉丁文字资料3个组)、油管频道、Github等。

  • 社区宪章:LD4是一个共同努力以促进图书馆实践的社区。 我们专注于链接和使用Web上的数据来推进图书馆的使命、宗旨和目标。/ LD4社区的参与对任何人开放——个人或机构、 非营利组织、政府组织或商业组织。通过直接参与,并通过其各种渠道、项目和活动,LD4聚集全球成千上万的个人。
  • 愿景:世界用图书馆数据丰富,图书馆用世界数据丰富。
  • 使命:通过建立一个开放、多样化、可持续和图书馆主导的社区来推进图书馆实践。我们将共同探索、学习和协作,以提高认识和诀窍,鼓励采用,并建立可互操作的标准、工具和服务的生态系统,以便将关联开放数据和其他技术从理论大规模地应用于实践。

参考资料:

LD4系列项目网关 ld4l.org

  • 2014-2016: LD4L (Linked Data for Libraries)
  • 2016-2018: LD4L Labs
  • 2016-2018: LD4P (Linked Data for Production)
  • 2018-2020: LD4P2: Pathway to Implementation
  • 2020-2022: LD4P3: Closing the Loop

LC打算如何在BIBFRAME中容纳新RDA?

美国国会图书馆(LC)在2019年8月IFLA年会的卫星会议“RDA:资源描述与检索2019”上作了一个报告,不但对BIBFRAME与RDA关系问题作出了解释,还涉及其他问题诸如:MARC的RDA更新LC、PCC与RDA的关系LC何时实施新RDA(RDA 3R)LC的下一代图书馆服务平台等。信息量很大。

以下翻译PPT中除RDA为MARC所作更新之外的所有内容【方括号中为本人附注】

LC打算如何在BIBFRAME中容纳RDA 3R?

How does LC within BIBFRAME intend to RDA 3R? (2019-8-21). Satellite Meeting, “RDA: Resource Description and Access 2019,” Thessaloniki, Greece / Susan R. Morris, Special Assistant to the Director, Acquisitions and Bibliographic Access, Library Services (Library of Congress)

问题:LC将如何通过设计在BIBFRAME中容纳RDA?

  • 回答:BIBFRAME设计为“与规则无关”。【对应地,RDA与格式无关】
  • BIBFRAME和RDA 3R均以RDF表示,以实现互操作性。
  • BIBFRAME可以与任何内容标准一起使用。
  • BIBFRAME作品可以记录RDA 3R作品和内容表达; BIBFRAME具有用于Agent,Subject和Event的类。
  • BIBFRAME允许进行非结构化描述、结构化描述以及基本和规范化的转录。【RDA的2种记录方式,后两者属于非结构化描述;RDA的另2种记录方法标识符、IRI不用说是没有问题的】

问题:LC如何在现实生活中在BIBFRAME中容纳RDA?

  • 回答:LC致力于BIBFRAME生产,可最大限度地利用RDA。
  • LC也兑现对MARC社区、合作编目项目(PCC)以及本馆自己的下一代图书馆服务平台的承诺。

LC对RDA和BIBFRAME的承诺

  • LC传统上开发了编码和交换协议,例如MARC,允许目录反映内容标准(例如RDA)的全部功能。
  • LC从2011年开始实施BIBFRAME倡议,以回应社区对实施RDA的关注。
  • LC希望只要对该格式有大量需求,就可以保留MARC。
  • LC在2011-2014年对MARC进行了广泛的更新,以容纳RDA。

MARC更新以容纳RDA(略)

LC对PCC的承诺

  • PCC是一个由700多个机构组成的国际联盟,它们按照共同商定的标准进行编目。
  • PCC提供培训并为元数据标准的开发做出贡献。
  • LC为PCC提供秘书处。
  • LC就所有重大政策变更咨询PCC。
  • LC与大多数PCC成员一起于2013年3月31日实施了RDA。

RDA 3R与PCC

  • RDA工具包中包含LC-PCC联合政策声明。
  • PCC秘书处(LC政策、培训和合作计划部)与PCC成员协商后,将审查和更新RDA工具包的所有LC-PCC政策声明,以反映RDA 3R的变化。
  • 约有1,000份文件需要审查。
  • PCC组成了四个任务组以进一步开展这项工作:合集、历时作品、出处数据、元素标签。

国会图书馆对新平台的承诺

  • LC于1999年8月16日(即20年前的这个月)实施了它的第一个商业集成图书馆系统(ILS)。
  • LC正在寻求用一种现代系统代替其当前的ILS,该系统支持在整个图书馆中的集成搜索和检索,包括其在线目录,并符合美国联邦政府对会计、IT安全性和可访问性的要求。
  • 新平台的业务需求/功能要求指定它可以接受BIBFRAME中的元数据。LC希望在今年[2019年]秋天向潜在的系统供应商发出信息请求。【不知道目前进展如何?哪家系统有希望入选?】

LC对BIBFRAME社区的承诺

  • 在2020财年(2019年10月至2020年9月),LC将:
  • 继续使用100名编目人员进行BIBFRAME试点,以证明BIBFRAME元数据可以大规模生产
  • 在BIBFRAME计划的6个LC海外办事处中包括编目人员,以便为来自发展中经济体国家(尤其是那些使用非罗马文字的国家)的材料提供BIBFRAME目录数据
  • 进一步将非罗马文字集成到BIBFRAME数据库中
  • 使BIBFRAME数据可用于图书馆社区,动态更新数据
  • 实施BIBFRAME到MARC的转换工具,以便原生BIBFRAME描述可以与具有基于MARC的目录的图书馆共享
  • 继续就关联开放数据的实施,咨询美国国家医学图书馆和其他20多个研究机构

LC在BIBFRAME中容纳RDA 3R的承诺

  • 2019年6月,RDA指导委员会的代表以及包括国会图书馆在内的欧洲年度BIBFRAME研讨会的组织者组织了一次会议,探讨了RDA 3R与BIBFRAME之间的关系和互操作性。 探索仍在继续。
  • 在随后的财政年度中,国会图书馆将:
  • 改进BIBFRAME编辑器
  • 考虑BIBFRAME如何支持连续出版物描述
  • 为国会图书馆的300名编目人员准备全面实施BIBFRAME
  • 实施RDA 3R

LC实施RDA 3R计划

  • LC打算在RDA理事会发布最终版本后实施RDA 3R。
  • LC将在RDA 3R工具包发布大约一年后实施RDA 3R。【新RDA计划2020年底正式切换,则LC预计2021年底/2022年初实施】
  • 鉴于LC非常庞大的工作人员和一系列的承诺,因此需要一年:
  • 培训200名非BIBFRAME试验参与者的LC编目人员
  • http://www.loc.gov上更新数百个网页
  • 与PCC协调实施RDA 3R
  • LC预计不会有受控的美国RDA 3R测试,类似导致RDA在2013年实施的美国RDA测试。PCC已经讨论了进行这种测试,但在2019年8月15日,PCC主席Xiao Li表示:“我们同意现在不是测试的最佳时间。”LC工作人员探索了3R测试版,图书馆将45页的评论转发给了开发人员。

参见:

BIBFRAME+RDA全新亮相:bfe 0.2.0发布(2015-11-7)

2015年LC官方的BIBFRAME编辑器(BFE),以RDA条款作为各录入项的提示语,并链接到RDA工具包的相应条款,显示BIBFRAME和RDA的紧密联系。在BIBFRAME词表升级到2.0后,目前的BFE(http://bibframe.org/bfe/index.html)仍然如此。由于RDA 3R在形式上有很大变化,不知今后是否仍然会提供链接。

2018 EBW:就RDA与BIBFRAME致信RDA指导委员会(2019-4-2)

欧洲BIBFRAME研讨会(EBW)在2018年12月发出给RDA指导委员会(RSC)的信,希望解决欧洲BIBFRAME社区的疑问:如何在原生BIBFRAME环境中实施RDA?

RDA与BIBFRAME对话(2019-7-18)

作为对上述信件的回应,2019年ALA年会上,RSC与EBW组委会进行了对话,内容未见公布。本博文介绍的LC报告也提到此次对话,本报告应该在很大程度上对EBW的上述疑问作出了解释。

《PCC最少标点MARC书目记录指南》的弃用ISBD标点规定

与UNIMARC不同,MARC21记录中有大量ISBD标点。在有字段、子字段标识符的情况下,这些标点并无实际意义,却常白白消耗编目员的脑力。比如300字段末尾要不要加句点,要看是不是存在490字段,因为这个句点是表示丛编项的分隔符。最新提出的《PCC最少标点MARC书目记录指南》(以下简称《指南》),给编目机构提供了弃用ISBD标点的选项,有助于减少编目员的无效劳动。

1、背景

PCC即合作编目计划(Program for Cooperative Cataloging),是美国最重要的合作编目组织。我们现在套录到的很多书目记录,都有042$apcc,即表明是PCC认证的记录。早在2011年,PCC即成立“PCC ISBD和MARC任务组”,研究MARC21记录中的ISBD标点问题。2018年初,PCC公开测试在书目记录中停止使用字段末尾句点、停止使用与MARC 21编码相对应的分隔标点。2019年4月PCC把实施范围限定在了描述字段(不包括检索点),并将实施分成2个阶段:第1阶段省略字段末标点(头标第18位=i),2019年4月8日开始实施;第2阶段省略字段末标点和子字段间标点(头标第18位=c)。本《指南》即为第2阶段实施而编制,于2019年9月完成草案,经批准后公布,2020年1月生效(见 New policy regarding limited use of ISBD punctuation in bibliographic records. 2019-10-18.)。

2、实施选择

《指南》正式版已于2020年初在网上发布:PCC Guidelines for Minimally Punctuated MARC Bibliographic Records / Prepared by PCC Standing Committee on Applications ; Approved by PCC Policy Committee, Sept. 2019. Policy effective January 2020.

《指南》规定了省略ISBD标点的规则,同时仍接受保留ISBD标点的做法。具体来说,编目机构有3个选项:

(1)省略字段末标点(头标第18位=i);

(2)省略字段末和中间标点(头标第18位=c,不采用ISBD标点);

(3)继续采用全部ISBD标点(头标第18位=i或a)。

《指南》同时规定,编目人员不应将现有经过认证的PCC记录(即有042$apcc)从完全标点转换为最少标点或反之。

实际上选项(1)自2019年4月起已经实施。《指南》的全面生效即选项(2)的实施,意味着2020年开始,编目员可能会套录到更多少用或不用ISBD标点的记录。编目机构应关注此一变化,确定自己的实施政策

3、最少标点规定

所谓“最少标点”,指尽可能省略由字段、子字段分隔的标点(包括非ISBD标点),《指南》对描述字段和检索点字段有不同规定;另外还有不能省略ISBD标点的情况。因此,《指南》有如下3方面的规定。需要说明的是,自然语言中正常的标点符号(包括缩略符等)不在讨论范围

(1)描述字段:仅应省略RDA记录的:1字段末尾标点,或:2子字段之间位置的标点。应保留:出现在子字段内部且没有相应MARC子字段标签的标点。

例:其他题名信息与并列其他题名
(原来)245 14 $a Les Ballets jazz de Montréal : $b au gré des rencontres depuis 40 ans = encounters in motion 40 years on.
(头标18位=c)245 14 $a Les Ballets jazz de Montréal $b au gré des rencontres depuis 40 ans = encounters in motion 40 years on
说明:省略:$b前冒号,字段末句点;保留:$b内部表示并列其他题名信息的等号。

(2)检索点字段:标点是检索点本身一部分的,不在本指南的范围之内;仅应省略:1字段末尾标点,或:2将检索点与关系说明语分隔开的标点。

《指南》只针对书目记录,未涉及规范记录。书目记录中的规范检索点,都以与规范记录形式一致为准,因而大量保留相应子字段标识的标点,即所谓“不在本指南范围之内”,如:姓名与生卒年间的逗号,会议的届次、日期、地点,以及名称-题名形式中间的句点等。
例:
(原来)700 12 $i Container of (work) $a Lo, Malinda, $d 1840-1897. $t Meet cute
(头标18位=c)700 12 $i Container of (work) $a Lo, Malinda, $d 1840-1897. $t Meet cute
说明:保留:$d前逗号,$t前句点;省略:关系说明语后冒号,字段末尾句点。另:姓和名间的标点不属于讨论范围。 

(3)标点重新定位:头标18位采用c后(不采用ISBD标点),在需要保留标点时,将标点移到子字段内(换言之,由前一子字段末,移到本子字段前),同时空格由标点前移到标点后。

保留标点主要由于MARC21子字段区分度问题,典型情况如245字段$b的多义性,如果省略标点则无法区分$b是其他题名信息、并列题名还是合订题名等。如(1)例,$b为其他题名信息时省略,为其他时则需保留。
例:并列题名
(原来)245 10 $a Histoire de La Digue = $b History of La Digue / $c Julien Dunrup
(头标18位=c)245 10 $a Histoire de La Digue $b = History of La Digue $c Julien Dunrup
说明:并列题名=由$b前移至$b首;省略责任说明/
例:附件
(原来)300  $a 271 pages : $b illustrations ; $c 21 cm + $e 1 atlas (37 pages, 19 leaves : color maps ; 37 cm)(头标18位=i)
(头标18位=c)300  $a 271 pages $b illustrations $c 21 cm $e + 1 atlas (37 pages, 19 leaves : color maps ; 37 cm)
说明:附件标点+由$e前移至$e首;保留:附件说明中括号及其内部的载体说明,按照(1)的规定。
参见:
MARC21准备弃用ISBD标点(2018-3-3)
《PCC最少标点MARC书目记录指南》:弃用ISBD标点(2019-10-20)