LC关联数据批下载更新

美国国会图书馆(LC)2009年上线id.loc.gov网站,陆续以关联数据形式提供该馆维护的各类词表和书目、规范数据,后来又开始陆续提供数据的批下载。发布的数据可以查询或关联使用,下载的数据还可以整合到自己的应用中。

今天在BIBFRAME邮件组中看到消息,称其中的LCSH(国会图书馆标题表)和LCNAF(名称规范档)已更新,并将持续定期更新:

  • LCSH:每周三更新(如果有变化)
  • LCNAF:每月15日更新
  • 二者均以JSON-LD、N-Triple和XML序列化。

The Library of Congress > Linked Data Service > Download

目前LC关联数据服务的批下载页面有各种主题词表、名称规范、代码表(编目条例、国别、地理区域、语种、体裁、关系词等)数十种,序列化为RDF/XML、Turtle或N-triples。文件大小从数KB到十数GB不等,通常为压缩文件,解压后可能增大10倍。每个文件都显示更新日期。相关背景信息见LC关联数据服务的技术中心(Technical Center),包括:下载数据处理方法、元数据结构标准、搜索使用与SPARQL查询方法、支持的RDF MIME类型和序列化格式。

参见:

关联数据编目走向现实——新项目LD4P3及LD4社区

梅隆基金资助的“图书馆关联数据”LD4系列项目始于2014年,每2年1-2个项目。2020年中,新项目LD4P3“闭环”得到批准(2020/7/1-2022/6/30,250万美元)。历经多年探索、关联数据编目似乎终于开始进入实际应用阶段。

项目名称“闭环”,指创建一个完整周期的工作模型,以进行图书馆元数据的创建、共享和重用。本项目伙伴(partner)即共同申请者为斯坦福、康奈尔和爱荷华大学图情学院,协作方包括Share-VDE(意大利厂商的托管编目环境)、美国国会图书馆(LC)、合作编目计划(PCC)以及OCLC。此外还有合伙人(cohort),即在LD4P2时已参加从MARC到关联数据编目的PCC成员馆。

主管此项目的斯坦福大学技术与访问服务副馆长Philip Schreur在新闻中称此项目的目的是“使图书馆资源超出图书馆目录的可访问性,并利用来自更广泛网络的相关信息来增强基于图书馆的发现,以及从现有但以前未链接的数据中创建新知识”。

七个主要目标:

  • (1)完成能够与多种环境(例如FOLIO)进行交互的开源关联数据编辑器【对Sinopia的功能要求1】
  • (2)扩大查问规范(QA)范围,以在各种传统(例如LCNAF)和非传统(例如Wikidata、Discogs)规范源中为规范和实体查找以及数据导入提供一流的支持【对QA的要求】
  • (3)通过将QA与OCLC提议的“实体主干”相集成来扩展实体管理【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
  • (4)以RDF创建所有PCC原始编目的连续馈送池,该池可在世界范围内免费开放使用【PCC数据池】
  • (5)扩大Sinopia与其他数据源(ILS、发现系统、PCC数据池和其他外部数据源)基于API的集成的能力,使RDF环境中的数据流闭环【对Sinopia的功能要求2】
  • (6)将PCC合伙人的管理和培训从LD4P转移到PCC【从项目试验走向实际应用?】
  • (7)可持续发展计划和建模,包括确定单个组件以及LD4P3主要利益相关者在业务、成员资格、服务、软件、数据和运营方面的几种长期选择

七个目标通过五个工作包实现:

  • (WP1)扩大Sinopia环境
  • (WP2)集成并完成生产就绪的关联数据规范支持服务(QA)
  • (WP3)在Blacklight中实现发现增强功能【那个历史悠久的?Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)】
  • (WP4)通过创建PCC数据池和扩展PCC合伙人来扩展PCC社区的参与
  • (WP5)环境关键部分的可持续性和社区发展

日前LD4社区也宣布成立:ld4.io。“新的LD4社区向任何人开放,供其探索、学习和协作以提高意识和知识,鼓励采用并建立可互操作的标准、工具和服务的生态系统,以将关联开放数据和其他技术从理论付诸实践并规模化。”目前网站汇集LD4年会资料(始于2017)、维基、slack(即时沟通和团队协作)、邮件组(可申请加入发现、Wikidata、非拉丁文字资料3个组)、油管频道、Github等。

  • 社区宪章:LD4是一个共同努力以促进图书馆实践的社区。 我们专注于链接和使用Web上的数据来推进图书馆的使命、宗旨和目标。/ LD4社区的参与对任何人开放——个人或机构、 非营利组织、政府组织或商业组织。通过直接参与,并通过其各种渠道、项目和活动,LD4聚集全球成千上万的个人。
  • 愿景:世界用图书馆数据丰富,图书馆用世界数据丰富。
  • 使命:通过建立一个开放、多样化、可持续和图书馆主导的社区来推进图书馆实践。我们将共同探索、学习和协作,以提高认识和诀窍,鼓励采用,并建立可互操作的标准、工具和服务的生态系统,以便将关联开放数据和其他技术从理论大规模地应用于实践。

参考资料:

LD4系列项目网关 ld4l.org

  • 2014-2016: LD4L (Linked Data for Libraries)
  • 2016-2018: LD4L Labs
  • 2016-2018: LD4P (Linked Data for Production)
  • 2018-2020: LD4P2: Pathway to Implementation
  • 2020-2022: LD4P3: Closing the Loop

EDTF:扩展日期时间格式

如果在元数据中看到日期为2020-41,会不会感到很晕?是不是弄错了?并没有!这个日期表示的就是当下:2020年下半年。

编目或元数据描述中涉及时间的,通常推荐采用国际标准的日期时间格式ISO 8601,MARC21中常使用美国国会图书馆的扩展日期时间格式(EDTF)。EDTF基于ISO 8601,在2012年发布草案,当前版本发布于2019-2-4。

制定EDTF的背景(EDTF – Background),首先是当时的ISO 8601-2004不足以表达很多应用需要的语义限定与概念,需要加以扩展,例如大致年份(如可能是1984年)。其次是ISO 8601作为国际标准,在很多情况下提供多种格式供选择,实际使用时需要选定、即限制到一个更小的支持集。

ISO 8601-2019基本集成了EDTF扩展的功能,但由于后一原因,现在编目中仍使用EDTF而不是直接使用 8601。换言之,在8601有多个选项时使用EDTF的选项,基本上可以认为现在的EDTF是8601的子集。

Extended Date/Time Format (EDTF) Specification

EDTF采用8601的“扩展格式”(而非“基本格式”)。扩展格式的基本形式是:日期以-分隔,时间以:分隔。(不用分隔符的是基本格式)

日期时间是一个不带空格的字符串。以下概述用到的其他符号、摘取某些数字代码以及常用样例,完整的可查EDTF规范本身。

(一)T 连接日期和时间;Z 世界标准时间(UTC);+或- 比UTC早或晚

1985(年);1985-04(月);1985-04-12(日)。
1985-04-12T23:20:30(本地时间);1985-04-12T23:20:30Z(世界标准时间);1985-04-12T23:20:30+04:30(比UTC早4个半小时)。

(二)表示一年中时间段的数字,除1-12表示月份,21-41分别表示4个季节、4个季度、3个四月期、上下半年。常用的如下:

21-24 春夏秋冬;33-36 第1-4季度;40-41 上下半年
2001-21(2001年春天);2001-34(2001年第2季度)

(三)时间不确定

(1)? 与年连用,~ 与月连用,% 与日连用(符号在数字右边,表示之前整个串不确定;符号在数字左边,表示本段不确定)

1984?(年不确定);2004-06~(年月不确定);2004-06-11%(年月日不确定);
2004-06~-11(年月不确定、日确定);2004?-06-11(年不确定、月日确定);
?2004-06-~11(年日不确定、月确定);2004-%06-11(月不确定、年日确定)。

(2)X 任何年、月、日值的末若干位(不能是单个值的中间位)

201X(2010年代);20XX(21世纪);2004-XX(2004年某月);1985-04-XX(1985年4月某日);1985-XX-XX(1985年某天);
156X-12-25(1560年代某个耶诞日);XXXX-12-XX(某年12月的一天);1XXX-12(11世纪后某个12月);1984-1X(1984年10-12月)

(四)/ 起讫时间;空或.. 时间未知或不确定。起始或结束时间可以用以上(一)(二)(三)表示:

1964/2008(起讫年);2004-02-01/2005(起始日/结束年)
1985-04-12/.. 或 1985-04-12/(结束日期未知或不确定);../1985-04 或 /1985-04(开始月份未知或不确定)
2004-06-~01/2004-06-~20(大约2004年6月1-20日);2004-06-XX/2004-07-03(2004年6月某日到7月3日)