关联数据编目走向现实——新项目LD4P3及LD4社区

梅隆基金资助的“图书馆关联数据”LD4系列项目始于2014年,每2年1-2个项目。2020年中,新项目LD4P3“闭环”得到批准(2020/7/1-2022/6/30,250万美元)。历经多年探索、关联数据编目似乎终于开始进入实际应用阶段。

项目名称“闭环”,指创建一个完整周期的工作模型,以进行图书馆元数据的创建、共享和重用。本项目伙伴(partner)即共同申请者为斯坦福、康奈尔和爱荷华大学图情学院,协作方包括Share-VDE(意大利厂商的托管编目环境)、美国国会图书馆(LC)、合作编目计划(PCC)以及OCLC。此外还有合伙人(cohort),即在LD4P2时已参加从MARC到关联数据编目的PCC成员馆。

主管此项目的斯坦福大学技术与访问服务副馆长Philip Schreur在新闻中称此项目的目的是“使图书馆资源超出图书馆目录的可访问性,并利用来自更广泛网络的相关信息来增强基于图书馆的发现,以及从现有但以前未链接的数据中创建新知识”。

七个主要目标:

  • (1)完成能够与多种环境(例如FOLIO)进行交互的开源关联数据编辑器【对Sinopia的功能要求1】
  • (2)扩大查问规范(QA)范围,以在各种传统(例如LCNAF)和非传统(例如Wikidata、Discogs)规范源中为规范和实体查找以及数据导入提供一流的支持【对QA的要求】
  • (3)通过将QA与OCLC提议的“实体主干”相集成来扩展实体管理【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
  • (4)以RDF创建所有PCC原始编目的连续馈送池,该池可在世界范围内免费开放使用【PCC数据池】
  • (5)扩大Sinopia与其他数据源(ILS、发现系统、PCC数据池和其他外部数据源)基于API的集成的能力,使RDF环境中的数据流闭环【对Sinopia的功能要求2】
  • (6)将PCC合伙人的管理和培训从LD4P转移到PCC【从项目试验走向实际应用?】
  • (7)可持续发展计划和建模,包括确定单个组件以及LD4P3主要利益相关者在业务、成员资格、服务、软件、数据和运营方面的几种长期选择

七个目标通过五个工作包实现:

  • (WP1)扩大Sinopia环境
  • (WP2)集成并完成生产就绪的关联数据规范支持服务(QA)
  • (WP3)在Blacklight中实现发现增强功能【那个历史悠久的?Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)】
  • (WP4)通过创建PCC数据池和扩展PCC合伙人来扩展PCC社区的参与
  • (WP5)环境关键部分的可持续性和社区发展

日前LD4社区也宣布成立:ld4.io。“新的LD4社区向任何人开放,供其探索、学习和协作以提高意识和知识,鼓励采用并建立可互操作的标准、工具和服务的生态系统,以将关联开放数据和其他技术从理论付诸实践并规模化。”目前网站汇集LD4年会资料(始于2017)、维基、slack(即时沟通和团队协作)、邮件组(可申请加入发现、Wikidata、非拉丁文字资料3个组)、油管频道、Github等。

  • 社区宪章:LD4是一个共同努力以促进图书馆实践的社区。 我们专注于链接和使用Web上的数据来推进图书馆的使命、宗旨和目标。/ LD4社区的参与对任何人开放——个人或机构、 非营利组织、政府组织或商业组织。通过直接参与,并通过其各种渠道、项目和活动,LD4聚集全球成千上万的个人。
  • 愿景:世界用图书馆数据丰富,图书馆用世界数据丰富。
  • 使命:通过建立一个开放、多样化、可持续和图书馆主导的社区来推进图书馆实践。我们将共同探索、学习和协作,以提高认识和诀窍,鼓励采用,并建立可互操作的标准、工具和服务的生态系统,以便将关联开放数据和其他技术从理论大规模地应用于实践。

参考资料:

LD4系列项目网关 ld4l.org

  • 2014-2016: LD4L (Linked Data for Libraries)
  • 2016-2018: LD4L Labs
  • 2016-2018: LD4P (Linked Data for Production)
  • 2018-2020: LD4P2: Pathway to Implementation
  • 2020-2022: LD4P3: Closing the Loop

2020居家办公时期的BIBFRAME更新论坛

新冠肺炎全球横行,工作仍要继续,于是很多时候变成了居家办公。BIBFRAME开发几乎没有中断,原本在ALA年会期间召开的BIBFRAME更新论坛,如期举办但改为线上会议——BIBFRAME from home于2020-6-24举办,PPT日前已上网。

5个报告,美国国会图书馆(LC)3个,分别介绍进展概况、新的BF编辑器和BF到MARC转换;另外2个介绍梅隆基金资助项目,也是延续先前的LD4P系列和OCLC。

BIBFRAME Update Forum – June 2020(2020-6-24)

一、BIBFRAME from home / Beacher Wiggins,LC采访与书目获取部主任

介绍会议日程,概述BF试验进展(由另2位报告人详述)。

二、Cataloger’s editor / Matt Miller, LC网络开发与MARC标准办公室(NDMSO)

BIBFRAME编辑器(BFE)重构,主要重点放在用户(编目员)界面与体验,NDMSO委托SAMHAENG做UX咨询与设计。

新的编辑器界面设计(截屏)见BF官网:BIBFRAME Implementation, Tools, and Downloads 之Editor interface design

当前编辑器见:BIBFRAME Editor(正常显示需架梯)

五、BIBFRAME to MARC refined / Sally McCallum, LC NDMSO主任

2020-5-1,LC宣布提供新的BIBFRAME 2.0组件,用于将BIBFRAME数据转换为MARC。

特别说明与半年前ALA仲冬会议BIBFRAME更新论坛上Jodi报告中的2个变化(更新):

  • 没有007字段 -> 007字段添加007/00(资料类别)和007/01(特定资料标识)
  • 仅通用008字段 -> 添加特定媒介008数据
参见:
LC发布BIBFRAME到MARC转换(2020-5-6)
2020ALA仲冬会议BIBFRAME更新论坛(2020-2-11)

三、LD4P, LD4P2, LD4P3, and community / Philip Schreur, Stanford University

概述2016-2018年的LD4P和LD4L-Labs,2018-2020年的LD4P2(实施之路),以及最新的2020-2022年LD4P3(闭环 CLOSING THE LOOP)

LD4P3目标:发现;合作编目项目PCC的自维持数据池;扩展Sinopia;扩展质询规范;扩展合伙人培训计划。

参见:LD4系列

四、Shared Entity Management Infrastructure Project update / Chelsea Dalgord, OCLC元数据服务部产品分析师

共享实体管理基础设施项目的进展。基本情况可参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)

项目计划交付:实体主干:数百万实体、永久URI;生产规模;生产基础设施;通过API访问搜索、读取、创建、更新;基本的用户界面。

对图书馆有什么好处:基于Web的发现结果;丰富的背景、联系材料和馆藏;数据品质;数据的机器可操作性和使用;跨馆藏和资料类型的元数据工作流程的一致性和效率。

2020ALA仲冬会议BIBFRAME更新论坛

2020年了,ALA仲冬会议照例有BIBFRAME更新论坛。此次仍是5个报告:第1个按惯例是LC介绍BIBFRAME进展;第2个是加拿大Alberta大学作为LD4P2合伙人的实施报告;第3个是合作编目项目PCC,讨论其在LD4P2中的作用;第4个是一直不曾缺席的OCLC;第5个是LC的BIBFRAME到MARC转换。与历年不同的是,本次没有厂商报告。

从报告内容看,多个报告涉及LD4P2项目及其关联数据编辑器Sinopia,延续了半年前的更新论坛(当时有2个报告)。

参见:
LD4P2走向实施之路:目标与工作(附LD4系列)(2019-1-8)
2019 ALA年会BIBFRAME更新论坛(2019-8-30)

BIBFRAME Update Forum at the ALA Midwinter Meeting 2020 (2020-1-26)

报告一、(LC)Introduction and Library of Congress 2020 Goals (PPT, 457 KB;3页) / Sally H. McCallum, Library of Congress

内容仅2页PPT。其一列近期BIBFRAME活动(4项),除EBW外当天均有报告:
[1] 斯坦福领导合伙人(Cohort)项目(梅隆基金):合伙人创建描述
[2] PCC参与活动
[3] OCLC的新梅隆项目【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
[4] 斯德哥尔摩的欧洲BIBFRAME研讨会(EBW)【内容丰富,PPT见会议网站:European BIBFRAME Workshop 2019 (2019-9-17/18)】
其二列LC的2020年目标,未涉及真正实施话题,仍是准备状态:
[1] 把系统移到云并稳定化:a、用改进算法重新转换文件;b、稳定模型问题,涉及题名规范、非拉丁文字、与MARC关系;c、稳定MARC到BF和BF到MARC转换
[2] 编辑器再开发【不知道与Sinopia是什么关系?】
[3] LC分类法用ID【URI?】
[4] 完善名称规范模型
[5] 审核并改进文档

报告二、(LD4P2)BIBFRAME Implementation at the University of Alberta Library: Canadian Cohort of LD4P2 (PPT, 2.76 MB;18页) / Abigail Sparling and Ian Bigelow, University of Alberta Library

  • 分享UAL如何从组织上加以支持,参与BIBFRAME相关活动,包括:PCC URI in MARC委员会/PCC URI试验;加拿大BIBFRAME准备工作小组(BIBFRAME Readiness Task Force & Linked Data Initiative);Share VDE;LD4P2等。
  • UAL参加LD4P2合伙人项目概要(略)

报告三、(PCC)PCC roles and files (PPT, 3.87 MB;12页) / Jennifer Baxmeyer, Princeton University

  • PCC在LD4P2中的2个职能:创建与维护PCC批准的应用配置文件(目前尚未启动);开发与提供持续的培训(围绕Sinopia编辑器)。
  • 另外将与LD4P、OCLC合作,创建PCC数据池:将包含所有PCC编目(BIBCO和CONSER)的BIBFRAME表达,无论是过去、现在还是将来。以MARC表示的PCC编目以及对该编目的任何更新,将通过OCLC建立的新管道提供给LD4P,以转换为BIBFRAME。

报告四、(OCLC)Update from OCLC (PPT, 13.56 MB;19页) / Nathan Putnam, Director of Metadata Quality, OCLC 

报告五、(LC)BIBFRAME to MARC data conversion (PPT, 920 KB;14页) / Jodi Williamschen, Library of Congress

  • 1、由BIBFRAME转换的MARC数据,与原MARC数据有什么不同?
  • $0更多URI:MARC到BF转换添加很多URI,尽可能保留(例:336、650、655、710)
  • 无007但更多3XX:MARC到BF转换,007的特定位被赋予BF属性或类并给予URI;对BF到MARC转换,数据元素被赋予一个匹配的3XX字段+子字段(例:338、340、344)
  • 通用008:00-17,35-37【未看出不同】
  • 所有体裁/形式术语在655
  • 无880:原文字放在对应字段(例:245,246,264,500)
  • 241归来(罗马化题名):原文字题名在245
  • 某些数据清理:更多数据一致(例:020用$q,260用264)
  • 更少ISBD标点【参见:《PCC最少标点MARC书目记录指南》的弃用ISBD标点规定(2020-1-18)】
  • 2、对MARC到BF转换的影响及调整(略)