创制和获取URI的常用词表和参考源指南

应用关联数据,并不是简单地把数据以三元组形式发布。要能使发布的数据相互关联,在数据中采用或关联已有URI/IRI是很重要的工作。美国合作编目项目(PCC)MARC中URI工作组在2018年2月14日发布了一份文档《创制和获取URI:常用词表和参考源指南》,总结了40个图博档领域常用的词表和参考源的信息。自然以英语为主,但从图示看有些有中文(如《艺术和建筑叙词表》AAT、联合国粮农组织《多语种农业叙词表》AGROVOC)。中文开放资源总体上不多,如果也能参照总结一个,会是很有益的工作。

创制和获取URI:常用词表和参考源指南 FORMULATING AND OBTAINING URIs: A GUIDE TO COMMONLY USED VOCABULARIES AND REFERENCE SOURCES / Prepared by the Program for Cooperative Cataloging Task Group on URIs in MARC. Version Date: 2018-02-14

文档称,“MARC最近开发了一种机器可操作的方式,指定规范URI或规范所描述事物URI(https://www.loc.gov/marc/mac/2017/2017-08.html),但填充这些子字段的实践是新生的”。所说的机器可操作的方式,指MARC21分别为实体描述和实体本身(真实世界对象,RWO)定义了不同的子字段:
$0 Authority record control number or standard number
$1 Real World Object URI (R)(新增)
参见:600字段含$t时,$0代表作品还是个人?(附:MARC21新增$1子字段)(2017-12-4)
其中实体描述通常是各种书目和规范记录,当然还有图书馆界之外的描述记录;而实体本身及其URI,对编目而言完全是新概念,如何获取更是新挑战。

本文档把数据源分为2类,第1类是关联数据资源,共28项;第2类是具有控制号或其他标准标识符但未发布为RDF的数据源,共12项。不知道是不是因为这些资源太过有名,所有40个资源都没有介绍收录内容或范围。
每个资源列出的具体信息,第2类比较简单,基本只有名称、最后查看日期和主页(网址),仅其中的IMDb还列出了联系信息、使用限制及图示。第1类则有与使用有关的详细信息,除前述IMDb所列各项外,还包括:建模(基于SKOS的较多),存放URI的MARC子字段($0记录、$1实体、$4关系词),创建或获取URI方法与样例、截屏图示、API或Web Services或批下载、查询获取URI样例等,数据版本/更新频率、使用者(多为空)、工具(多为空),其他(相关资源,偶有)。
以下按大致内容对2类资源重新排列(有$0 $1 $4的为关联数据资源):

艺术
AAT – Art & Architecture Thesaurus($0)
TGM – Thesaurus for Graphic Materials($0)

音乐
AllMusic 音乐
Discogs 唱片
LCMPT – Library of Congress Medium of Performance Thesaurus($0)
MusicBrainz – The Open Music Encyclopedia($1)

影视戏剧
AllMovie
BFI – British Film Institute
IBDB – Internet Broadway Database
IMDb – Internet Movie Database

游戏
GAMECIP Computer Game Media Format Vocabulary($0)
GAMECIP Computer Game Platform Controlled Vocabulary($0)

地理
Canadian Geographical Names
GNIS – Geographic Names Information System,GeoNames($1)
TGN – Getty Thesaurus of Geographic Names($0,$1)

个人团体
ISNI – International Standard Name Identifier($1)
Legal Entity Identifier 企业标识号
ORCID($1)
ResearcherID
Scholar Universe
ULAN – Union List of Artist Names($0,$1)
VIAF – Virtual International Authority File($1)

农业:AGROVOC($0)
医学:MeSH RDF- Medical Subject Headings RDF($0)

综合
BBC Things($1)
CERL Thesaurus($1)欧洲1450-1830年间地名、人名
DBpedia($1)
GND – Gemeinsame Normdatei (Integrated Authority File) 德国国家图书馆规范档($0主题,$1会议或事件、团体、家族、个人、地点或地理名称、作品)
LC/NACO Authorities($0规范,$1 RWO)
Library of Congress Authorities
Wikidata($1)

综合(主题词表/元数据词表)
FAST – Faceted Application of Subject Terminology($0),
LCSH – Library of Congress Subject Headings($0)
LC Children’s Subject Headings($0)
LCDGT – Library of Congress Demographic Group Terms($0)
LCGFT – Library of Congress Genre/Form Terms($0)
MARC Relator Terms and Codes($4)
RDA Vocabularies($0取值,$4元素)
RBMS Controlled Vocabularies($0)珍本与特藏编目用受控词表

RDA到BIBFRAME的映射报告

PCC下属BIBCO(单行出版物)和CONSER(连续性资源)分别提出了各自的“标准记录”到BIBFRAME的映射表,同时两个映射任务组也提交了最终报告,总结映射结论及问题。9月时PCC BIBFRAME任务组曾在PCC邮件组公开征求反馈。

PCC的“标准记录”,实际就是目前的完整级记录,作为RDA应用纲要,有RDA条款(元素)与MARC21字段子字段的映射,最新版目前见各自项目的首页
BIBCO Standard Record (BSR) RDA Metadata Application Profile (September 6, 2017 revision)
CONSER Standard Record (CSR) RDA Metadata Application Profile (September 6, 2017 revision)
参见:BIBCO标准记录(BSR)及解读(2016-3-6)

此次标准记录到BIBFRAME的映射,实际上就是RDA到BIBFRAME的映射,即在原应用纲要(前4项)基础上增加6个栏目,包括:
RDA条款与元素、RDA条款号、注释、MARC字段子字段
RDA-RDF(RDA注册属性)、环境(三元组)、LC BF 2.0(属性)、期望值、任务组对BF2.0注释、问题

BIBCO的映射基于CONSER,报告也基本上认同后者观点,因此看CONSER报告就可以获取绝大部分信息。两个报告目前在PCC首页的“What’s New, Decisions, Policies, and Guidelines”部分。
CONSER报告中看到的几个特别关注点:
1、强调机器可执行性(actionable),这方面RDA和BIBFRAME都有需要改进的地方。内容散见于报告各个部分,如下:
– BIBFRAME的date属性推荐值是文字,我们建议使用机器可执行的“类型文字”
– 建议PCC最佳实践应该在可行的情况下,除当前RDA规则要求的转录数据外,鼓励提供可执行数据(如出版、生产、发行、制作)
– BIBFRAME的连续出版物首期、末期属性期望值是文字……记录为机器可操作数据会强化连续出版物描述信息的可用性
– RDA载体特征变化:数量尺寸变化,以往用附注,关联数据环境中建议再用1个带与日期相关的数量属性
– BIBFRAME中使用RDA注册的取值词表,包括:内容、媒介和载体类型,频率,附注类型,职能(关系说明语),体裁形式(作品形式)
– BIBFRAME用空节点+ISSN作为文字。当ISSN有LOD时,推荐链接到ISSN URI

2、关于FRBR四层WEMI与BIBFRAME三层WII,以及FRBR对连续出版物的适用性(“建模与关系”部分)
BIBFRAME关系属性只比RDA关系说明语省略了2个:augmented by (work),complemented by (work)(报告最后建议BIBFRAME增加)。
顺序关系如先前、后续在FRBR模型中为作品-作品关系,在BIBFRAME模型中仍为作品-作品关系,在BIBFRAME中表达相对简单。
垂直或水平关系(如语言版本、补编、部分)因FRBR作品/内容表达合为BF作品而成为很大挑战。
更大的挑战来自IFLA-LRM,建议每个连续出版物作品只有1个内容表达、1个载体表现,导致连续出版物的每个版本和格式作为1个独特的作品,其关系为作品层关系【!】……如果连续出版物的每个新实例也作为单独作品,作品到实例的属性不再需要……

3、管理元数据
如果已经没有记录结构,(基于记录的)描述级管理元数据在关联数据环境中过时了。

——— CONSER报告摘录 ———
Report to the PCC BIBFRAME Task Group: Final Report of the CONSER CSR to BIBFRAME Mapping Task Group

概要
总的来说, 小组发现BIBFRAME可以容纳描述连续出版物资源所需的信息,主要以静态文本字符串。我们还发现,BIBFRAME提供了比MARC环境更大的潜力来揭示连续出版物之间的关系。然而,我们发现,在我们的讨论中出现了一些常见的问题,包括:考虑描述/著录的变更,表示编号和年代信息,以及解决使用机器可执行的URI和使用静态文本字符串间的矛盾。我们还反复讨论了表达连续出版物间关系的复杂性,并有很多关于FRBR和BIBFRAME模型之间差异的对话, 以及在何种程度上实际的连续出版物符合那些模型。我们认为,BIBFRAME的进一步开发可以解决我们在映射工作中遇到的这些挑战。

对CONSER/PCC的建议
1、建议CONSER探索技术与基础结构相关方法,顺应更改连续出版物描述数据的需求
2、建议PCC馆日期尽可能使用类型文字
3、建议PCC最佳实践鼓励在当前RDA条款要求的转录数据之外,尽可能提供可操作数据
4、建议CONSER和BIBFRAME开发界一起开发共同结构,表达可用于连续出版物描述的各种环境的编号和年代信息
5、对变更书目信息或编号和年代信息,PRESSoo和其他关联数据词表的建模可能更详细或健壮。建议CONSER为此目的探索PRESSoo和其他关联数据词表
6、建议PCC建立工作组,承担继续监控(连续出版物前景)活动
7、建议PCC和BIBFRAME界一起识别必要的管理和起源元数据,开发在断言层简单易用记录的方法与最佳实践
8、建议PCC馆对内容、媒介和载体类型,频率,附注,使用RDA注册的取值词表

对BIBFRAME开发的建议
1、明确建模描述性元素的起始与终止日期
2、同前4
3、同前7
4、增加对应RDA关系 augmented by (work) 和 complemented by (work)的属性

[RDA记录样例] 按需印刷品:PCC的POD规定

RDA关于摹真和复制品的规则很简单:
RDA 1.11 摹真与复制:著录摹真和复制品时,在适当元素中记录与摹真或复制品有关的数据。适当记录与原始载体表现相关的任何数据为相关作品或相关载体表现。
也就是说,应当按摹真或复制品本身著录,所依据的原本只能作为相关资源。

尽管RDA 1.11没有交替规则,仍有三家设置了本地政策(美国LC-PCC、德语国家D-A-CH、加拿大LAC)。LC-PCC的政策分别对缩微、按需印刷复制品和影印件(Print on Demand (POD) Reproductions and Photocopies)作出了规定。本博文只论后者。
在LC-PCC PS 1.11“摹真与复制”中,PCC对POD采用的方法是“provider-neutral”(提供者中立),或者说不考虑提供者:同一原始载体表现的所有POD制品只做一条记录(比如图书A的影印本,和图书A数字化副本的HathiTrust的POD复制品)。

具体字段说明如下(* 为记录POD特征字段):
008/06:日期类型不使用 r 重印
008/07-10, 11-14:记录原印刷资源的日期
008/15-17:记录原印刷资源的出版地代码
* 008/23(图书) | 008/29(地图):记录单件形式(Form of item)为 r,表明是印刷复制品【MARC标准网站尚无此值】
* 020:如果商业POD服务提供者提供ISBN,记录在$a;原资源如果有ISBN,记录在$z;限定信息入$q。必要时重复020字段。
* 037:如果需要,记录商业POD服务提供者为采购来源。必要时重复037字段。
* 040:$e pn,代码表示提供者中立(provider neutral)【著录规则来源代码显示,此代码原为电子资源设置】。$e可重复,如果符合RDA标准,可同时做 $e rda
245-300:按原印刷资源提供所有载体表现元素如题名、版本说明、出版说明、资源数量等
* 33X:记录适用于复制品的内容类型、媒介类型和载体类型 ,无论采用什么编目规则(即AACR2记录也需提供)
* 533:创建单个复制附注,内容为:$a Print reproduction.
* 775/776 相关载体表现(可选):记录复制品与原件关系,使用775字段(物理格式相同)或776字段(物理格式不同,如PDF与打印件)。$i 使用关系说明语如:Reproduction of (manifestation): ,或者非结构化的其他关系信息如:Print version.

由上可知,PCC的规定也是按照复制品著录、原件作为相关资源著录在775/776字段,与RDA条款似不冲突。但是,此规定在生产出版发行制作说明上完全不考虑POD。由于按需印刷并不修改内容,今年印和明年印是一样的,所以这个规定是合理的,对于合作编目尤其如此。
如果同一原始资源,由不同POD服务提供者制作,该如何处理?从以上字段说明看,重复037及020字段即可。

说明:本规定所指的“按需印刷复制品”与“影印件”都是在提出要求后印制、与原件相同的复制品(包括文本材料、乐谱、地图),无论是内部制作还是向服务提供者订购。差别仅在于前者通常由数字文件打印,而后者通常由实物文献复印。
此法不适合一般的印刷出版、再版、重印、摹真复制等或者缩微复制(如国内较常见的授权影印书不在此列)。
特别注意:当不确定时,不采用此政策。(现在有些专门从事电子书打印的出版社,其出版物是否也应参照POD做,值得考虑)

另外,在LC-PCC PS 1.11“摹真与复制”的最后,也提供了非PCC的交替做法(应该是完全符合RDA条款的做法):基于复制品的著录
机构如愿意基于照相复印、缩微复制或POD复制本身进行著录(而非原件),可以这样做,但这种记录不应当在MARC字段042标记为pcc。同时,原始资源细节可放在MARC字段534。