LC关联数据批下载更新

美国国会图书馆(LC)2009年上线id.loc.gov网站,陆续以关联数据形式提供该馆维护的各类词表和书目、规范数据,后来又开始陆续提供数据的批下载。发布的数据可以查询或关联使用,下载的数据还可以整合到自己的应用中。

今天在BIBFRAME邮件组中看到消息,称其中的LCSH(国会图书馆标题表)和LCNAF(名称规范档)已更新,并将持续定期更新:

  • LCSH:每周三更新(如果有变化)
  • LCNAF:每月15日更新
  • 二者均以JSON-LD、N-Triple和XML序列化。

The Library of Congress > Linked Data Service > Download

目前LC关联数据服务的批下载页面有各种主题词表、名称规范、代码表(编目条例、国别、地理区域、语种、体裁、关系词等)数十种,序列化为RDF/XML、Turtle或N-triples。文件大小从数KB到十数GB不等,通常为压缩文件,解压后可能增大10倍。每个文件都显示更新日期。相关背景信息见LC关联数据服务的技术中心(Technical Center),包括:下载数据处理方法、元数据结构标准、搜索使用与SPARQL查询方法、支持的RDF MIME类型和序列化格式。

参见:

MARC与RDA对照表(对齐与映射)

新RDA已于2020-12-15切换为官方版。在新版工具包中,MARC与RDA对应的信息,分散在各RDA元素的开始部分“元素参考(Element Reference)”。元素参考还包含对都柏林核心术语和IFLA图书馆参考模型的实体关系表述的语义映射,并且计划在适当的时候添加BIBFRAME和UNIMARC映射。

上月有人在RDA-L邮件组中询问,新RDA中有没有与原版“MARC书目到RDA映射”等效的工具。有人回复可以使用“搜索”功能,搜索特定MARC字段或子字段。工具包页面右上的帮助——搜索(Searching RDA Toolkit)给出了例子:”264 *1 $b”(用引号括起,星号表示指示符为空,子字段用美元符号,字段、指示符、子字段之间用空格分开)。这个可以部分解决问题,但不是提问者想要的答案。

官方本月发博文,说明存在RDA元素与MARC21规范和书目格式之间的对齐。不过对照表不在工具包内,而是放在RDA注册(RDA Registry)。实际上新RDA“元素参考”下对应的MARC 21内容,就是由RDA注册中的“RDA元素到MARC 21对齐”生成的。

RDA注册中提供 2种形式下载,分别是RDA元素到MARC21编码的对齐(alignment)和基于对齐的机读映射(map):

  • 对齐(4栏):RDA元素(如abridged as expression),RDA记录方法(4种/结构化-非结构化-标识符-IRI),对齐(aligns with),MARC21书目/规范编码(如500 ** $a)
  • 映射(3栏):RDA元素(如rdaw:P10001),映射(rdakit:hasM21),MARC 21书目/规范编码串与记录方法(如100 0* $0 [identifier])
  • 对齐下载格式为CSV(电子表格),映射下载格式有CSV、N-Triples、Turtle和RDF/XML。

由于是RDA元素到MARC21的电子表格,如果想要MARC字段到RDA元素的对照,只需按MARC21栏重新排序。

对照工作由不列颠图书馆(针对MARC 21书目)和加拿大图书馆与档案馆(针对MARC 21规范)承担。目前基于RDA词表4.0.1版,规范格式有5124行,书目格式有16857行。——一对多的对照,真是够庞大的。

见:RDA and MARC 21 alignments (2020-12-10) https://www.rdatoolkit.org/node/233

TAP规范:表格式应用配置文件(DCMI开发中)

RDA测试版网站今晚(北京时间明早8点)将切换为官方正式版。新RDA的众多变化之一是取消核心元素,官方说明使用者可以使用应用配置文件/应用纲要(application profile,简称AP)作出规定。PCC成立了元数据应用配置文件(MAP)任务组,年初RDA官方的培训资料中给出了电子表格形式的LC/PCC应用配置文件的样例。未来各方都将制定自己的RDA应用配置文件。

正当此时,看到DCMI将在12月17日召开一个非正式的公开会议网会,讨论开发中的规范——表格式应用配置文件(Tabular Application Profile,简称TAP),即表格形式的AP。本规范目前包含12个元素,支持实体描述、属性列表、基数规则和值规则。12个元素【可分为三部分/与入门手册不尽一致】:

  • 一、形状【实体】shapeID,shapeLabel
  • 二、属性 propertyID、propertyLabel、mandatory(必备)、repeatable(可重复)、note(附注)
  • 三、取值【三元组的客体】 valueNodeType(节点类型:IRI或文字)、valueDataType(数据类型:通常为xsd:)、valueConstraint(取值限制/进行中)、valueConstraintType(取值限制类型/进行中)、valueShape【实体】

目前未解决的问题包括:单元格中多值表示、命名空间声明放在哪里、单元格中使用引号、开放图与闭合图。

via [BIBFRAME邮件组]:Open Meeting December 17 16:00 UTC, DC Application Profiles / Karen Coyle (2020-12-13) 

参见:新RDA培训资料摘要(2020-2-2)

LC/PCC应用纲要(电子表)7栏目:1标签定义域(WEMI等),2VES通用需求(必备性),3条件需求(有则必备),4可重复性,5记录方法(结构化、非结构化、ID、IRI,6SES(MARC书目:字段-子字段),7备注