创制和获取URI的常用词表和参考源指南

应用关联数据,并不是简单地把数据以三元组形式发布。要能使发布的数据相互关联,在数据中采用或关联已有URI/IRI是很重要的工作。美国合作编目项目(PCC)MARC中URI工作组在2018年2月14日发布了一份文档《创制和获取URI:常用词表和参考源指南》,总结了40个图博档领域常用的词表和参考源的信息。自然以英语为主,但从图示看有些有中文(如《艺术和建筑叙词表》AAT、联合国粮农组织《多语种农业叙词表》AGROVOC)。中文开放资源总体上不多,如果也能参照总结一个,会是很有益的工作。

创制和获取URI:常用词表和参考源指南 FORMULATING AND OBTAINING URIs: A GUIDE TO COMMONLY USED VOCABULARIES AND REFERENCE SOURCES / Prepared by the Program for Cooperative Cataloging Task Group on URIs in MARC. Version Date: 2018-02-14

文档称,“MARC最近开发了一种机器可操作的方式,指定规范URI或规范所描述事物URI(https://www.loc.gov/marc/mac/2017/2017-08.html),但填充这些子字段的实践是新生的”。所说的机器可操作的方式,指MARC21分别为实体描述和实体本身(真实世界对象,RWO)定义了不同的子字段:
$0 Authority record control number or standard number
$1 Real World Object URI (R)(新增)
参见:600字段含$t时,$0代表作品还是个人?(附:MARC21新增$1子字段)(2017-12-4)
其中实体描述通常是各种书目和规范记录,当然还有图书馆界之外的描述记录;而实体本身及其URI,对编目而言完全是新概念,如何获取更是新挑战。

本文档把数据源分为2类,第1类是关联数据资源,共28项;第2类是具有控制号或其他标准标识符但未发布为RDF的数据源,共12项。不知道是不是因为这些资源太过有名,所有40个资源都没有介绍收录内容或范围。
每个资源列出的具体信息,第2类比较简单,基本只有名称、最后查看日期和主页(网址),仅其中的IMDb还列出了联系信息、使用限制及图示。第1类则有与使用有关的详细信息,除前述IMDb所列各项外,还包括:建模(基于SKOS的较多),存放URI的MARC子字段($0记录、$1实体、$4关系词),创建或获取URI方法与样例、截屏图示、API或Web Services或批下载、查询获取URI样例等,数据版本/更新频率、使用者(多为空)、工具(多为空),其他(相关资源,偶有)。
以下按大致内容对2类资源重新排列(有$0 $1 $4的为关联数据资源):

艺术
AAT – Art & Architecture Thesaurus($0)
TGM – Thesaurus for Graphic Materials($0)

音乐
AllMusic 音乐
Discogs 唱片
LCMPT – Library of Congress Medium of Performance Thesaurus($0)
MusicBrainz – The Open Music Encyclopedia($1)

影视戏剧
AllMovie
BFI – British Film Institute
IBDB – Internet Broadway Database
IMDb – Internet Movie Database

游戏
GAMECIP Computer Game Media Format Vocabulary($0)
GAMECIP Computer Game Platform Controlled Vocabulary($0)

地理
Canadian Geographical Names
GNIS – Geographic Names Information System,GeoNames($1)
TGN – Getty Thesaurus of Geographic Names($0,$1)

个人团体
ISNI – International Standard Name Identifier($1)
Legal Entity Identifier 企业标识号
ORCID($1)
ResearcherID
Scholar Universe
ULAN – Union List of Artist Names($0,$1)
VIAF – Virtual International Authority File($1)

农业:AGROVOC($0)
医学:MeSH RDF- Medical Subject Headings RDF($0)

综合
BBC Things($1)
CERL Thesaurus($1)欧洲1450-1830年间地名、人名
DBpedia($1)
GND – Gemeinsame Normdatei (Integrated Authority File) 德国国家图书馆规范档($0主题,$1会议或事件、团体、家族、个人、地点或地理名称、作品)
LC/NACO Authorities($0规范,$1 RWO)
Library of Congress Authorities
Wikidata($1)

综合(主题词表/元数据词表)
FAST – Faceted Application of Subject Terminology($0),
LCSH – Library of Congress Subject Headings($0)
LC Children’s Subject Headings($0)
LCDGT – Library of Congress Demographic Group Terms($0)
LCGFT – Library of Congress Genre/Form Terms($0)
MARC Relator Terms and Codes($4)
RDA Vocabularies($0取值,$4元素)
RBMS Controlled Vocabularies($0)珍本与特藏编目用受控词表

面向机器应用的RDA(2018ALA仲冬会议上的RDA-续)

《资源描述和检索》(RDA)通常是被当作编目规则而存在的,但在它以联机版工具包(RDA Toolkit)发布之后,对元数据注册方面的重视逐渐增强。随着3R计划对工具包网站的重新设计和对RDA本身的重构,它进一步强化了编目规则以外的职能。尽管对这方面的进展有所关注,2014年时还写了篇文章《RDA:从内容标准到元数据标准》(图书馆论坛,2014(7):1-7),但看到Kathy Glennan在2018 ALA仲冬会议PCC成员会上的报告,还是给震住了:供编目员使用的工具包(RDA及辅助资料),只是RDA体系中一小部分、也是唯一收费内容,其他大部分是提供给应用开发者和机器使用的免费内容。

Kathy Glennan. RDA, Linked Data, and the 3R Project(RDA、关联数据和3R计划)

– RDA正在更多地变为数据字典,不同部分提供给不同类型用户【PPT第5张】
RDA Reference 参考 –> 开发者
RDA Vocabularies 词表 –> 开发者
RDA Registry 注册 –> 应用开发者
RDA Vocabulay Server 词表服务器 –> 开发者【根据第11张和下图补】
RDA Toolkit 工具包 –>编目员
RIMMF –> 培训者
– 核心部分在“RDA参考”【PPT第6张】
所有RDA元素及其定义和相关范围注释,所有取值词表术语及定义,包含翻译
以RDF关联数据格式存储在“开放元数据注册”(Open Metadata Registry, OMR)网站
RDA工具包内容的主要来源
– RDA参考数据工作流【PPT第14张】

RDA Ref Data Workflow

可以感觉到RDA雄心勃勃。然后问题来了:有了RDA词表,还需要BIBFRAME吗?刚完成一篇国际编目标准现状与进展的文章,结尾是“群雄逐鹿、未知鹿死谁手?”[update 2018-2-26将在《图书馆论坛》发表、中国知网优先数字出版]

在2018 ALA仲冬会议RDA关联数据论坛上,康奈尔大学Steven Folsom的报告,介绍梅隆基金资助的LD4L-Labs和LD4P项目对BIBFRAME的扩展(bibliotek-o),很重要的部分是重用RDAu(即不限定WEMI的RDA元素)。对于BIBFRAME和RDA,他最后的设问是:[一起]向前走,还是再次分道扬镳?

Steven Folsom. non-RDA is the new non-MARC: bibliotek-o and RDA
bibliotek-o: a BIBFRAME Ontology Extension

参见:
Diane Hillmann谈书目框架转换行动(2012-7-7)
图书馆从传统数据观走向关联数据及语义网:五周年(2012-5-16)
Diane谈RDA元数据注册的设计(2012-11-18)
JSC会议有关RDA注册的讨论与决定(2012-11-18)
RDA注册元素集终于正式发布(2014-1-23)
JSC主席Gordon Dunsire论《RDA和语义网》(2014-3-17)
RIMMF:多元数据格式中的RDA(附广告:《RDA:从内容标准到元数据标准》)(2014-8-20)
Christine Frodl和RDA注册前史(2018-2-12)

600字段含$t时,$0代表作品还是个人?(附:MARC21新增$1子字段)

MARC21中$0子字段是控制子字段,在很多字段中出现,其定义为“规范记录控制号或标准号”(可重复)
MARC 21 Bibliographic: Appendix A – Control Subfields
$0 – Authority record control number or standard number (R)
在字段开始先用括号加代码说明来源(规范记录的机构代码、标准号的标识符),如:
100 1#$aBach, Johann Sebastian.$4aut$0(DE-101c)310008891
100 1#$aTrollope, Anthony,$d1815-1882.$0(isni)0000000121358464
但是,(uri)目前省略(原因后述),如:
710 2#$aCalifornia Poets in the Schools (Project),$eissuing body,$epublisher.$0http://id.loc.gov/authorities/names/n85319780

BIBFRAME邮件组中,芬兰国家图书馆的Osma Suominen询问:600字段含$t时,$0代表什么?
600 field with $t: what does the $0 represent? (2017-11-27)
事情的起源是:有条MARC记录,有作品(名称-题名)作为主题(600$a$t),其中含有作者规范控制号($0),当用marc2bibfram2转换时,$0被当作了作品ID。因此Osma Suominen问,600字段含$t时,$0代表个人还是作品?
康奈尔大学的Steven Michael Folsom回复是:如果没有$t(名称)则$0关于“作者”;如果有$t(名称-题名)则$0指代“作品”,如果没有作品URI,字段中不应该有$0。700等也如此。

实际上更确切地说,以上$0子字段代表的是个人或作品的“(规范)记录”,而非个人或作品“本身”,后者由MARC21新定义的$1子字段表示。见MARC建议No. 2017-08,建议已于2017.8.7获批,不过MARC21标准网站中各字段尚未更新。

——— MARC建议No. 2017-08:用子字段$0和$1捕获URI ———
MARC PROPOSAL NO. 2017-08: Use of Subfields $0 and $1 to Capture Uniform Resource Identifiers (URIs) in the MARC 21 Formats

“转换MARC21到关联数据的实验建议,在MARC21中存储URI有很大好处。……对指代不同实体类型的URI使用不同MARC21子字段,是与关联数据对话的重要前提,建议细化$0定义,并新定义$1”:
$0原来的定义是:规范记录控制号或标准号。如果是URI,则用前缀(uri)表示。为更简便解引HTTP格式URI,现去除前缀(uri)(但其他号码仍然保留,样例见前)。
建议新定义$1作为真实世界对象(RWO,Real-World Object)URI,即$0为规范(记录)URI,而$1为Thing URI。涉及所有格式(书目、规范、分类、馆藏、社区信息)中大量与规范形式相关的字段。例子如:
600 00 $a Zeus $c (Greek deity)
$0http://id.loc.gov/authorities/names/no2014048635
$1 http://viaf.org/viaf/308237987

650 #0 $a Kindness
$0 http://id.loc.gov/authorities/subjects/sh85072376
$1 http://dbpedia.org/resource/Kindness
$1 http://www.wikidata.org/entity/Q488085

830 #0 $a Oxford history of art.
$0 http://id.loc.gov/authorities/names/n96099923
$1 http://viaf.org/viaf/184384669
$1 http://www.wikidata.org/entity/Q24039213