应用关联数据,并不是简单地把数据以三元组形式发布。要能使发布的数据相互关联,在数据中采用或关联已有URI/IRI是很重要的工作。美国合作编目项目(PCC)MARC中URI工作组在2018年2月14日发布了一份文档《创制和获取URI:常用词表和参考源指南》,总结了40个图博档领域常用的词表和参考源的信息。自然以英语为主,但从图示看有些有中文(如《艺术和建筑叙词表》AAT、联合国粮农组织《多语种农业叙词表》AGROVOC)。中文开放资源总体上不多,如果也能参照总结一个,会是很有益的工作。
创制和获取URI:常用词表和参考源指南 FORMULATING AND OBTAINING URIs: A GUIDE TO COMMONLY USED VOCABULARIES AND REFERENCE SOURCES / Prepared by the Program for Cooperative Cataloging Task Group on URIs in MARC. Version Date: 2018-02-14
文档称,“MARC最近开发了一种机器可操作的方式,指定规范URI或规范所描述事物URI(https://www.loc.gov/marc/mac/2017/2017-08.html),但填充这些子字段的实践是新生的”。所说的机器可操作的方式,指MARC21分别为实体描述和实体本身(真实世界对象,RWO)定义了不同的子字段:
$0 Authority record control number or standard number
$1 Real World Object URI (R)(新增)
参见:600字段含$t时,$0代表作品还是个人?(附:MARC21新增$1子字段)(2017-12-4)
其中实体描述通常是各种书目和规范记录,当然还有图书馆界之外的描述记录;而实体本身及其URI,对编目而言完全是新概念,如何获取更是新挑战。
本文档把数据源分为2类,第1类是关联数据资源,共28项;第2类是具有控制号或其他标准标识符但未发布为RDF的数据源,共12项。不知道是不是因为这些资源太过有名,所有40个资源都没有介绍收录内容或范围。
每个资源列出的具体信息,第2类比较简单,基本只有名称、最后查看日期和主页(网址),仅其中的IMDb还列出了联系信息、使用限制及图示。第1类则有与使用有关的详细信息,除前述IMDb所列各项外,还包括:建模(基于SKOS的较多),存放URI的MARC子字段($0记录、$1实体、$4关系词),创建或获取URI方法与样例、截屏图示、API或Web Services或批下载、查询获取URI样例等,数据版本/更新频率、使用者(多为空)、工具(多为空),其他(相关资源,偶有)。
以下按大致内容对2类资源重新排列(有$0 $1 $4的为关联数据资源):
艺术:
AAT – Art & Architecture Thesaurus($0)
TGM – Thesaurus for Graphic Materials($0)
音乐:
AllMusic 音乐
Discogs 唱片
LCMPT – Library of Congress Medium of Performance Thesaurus($0)
MusicBrainz – The Open Music Encyclopedia($1)
影视戏剧:
AllMovie
BFI – British Film Institute
IBDB – Internet Broadway Database
IMDb – Internet Movie Database
游戏:
GAMECIP Computer Game Media Format Vocabulary($0)
GAMECIP Computer Game Platform Controlled Vocabulary($0)
地理:
Canadian Geographical Names
GNIS – Geographic Names Information System,GeoNames($1)
TGN – Getty Thesaurus of Geographic Names($0,$1)
个人团体:
ISNI – International Standard Name Identifier($1)
Legal Entity Identifier 企业标识号
ORCID($1)
ResearcherID
Scholar Universe
ULAN – Union List of Artist Names($0,$1)
VIAF – Virtual International Authority File($1)
农业:AGROVOC($0)
医学:MeSH RDF- Medical Subject Headings RDF($0)
综合:
BBC Things($1)
CERL Thesaurus($1)欧洲1450-1830年间地名、人名
DBpedia($1)
GND – Gemeinsame Normdatei (Integrated Authority File) 德国国家图书馆规范档($0主题,$1会议或事件、团体、家族、个人、地点或地理名称、作品)
LC/NACO Authorities($0规范,$1 RWO)
Library of Congress Authorities
Wikidata($1)
综合(主题词表/元数据词表):
FAST – Faceted Application of Subject Terminology($0),
LCSH – Library of Congress Subject Headings($0)
LC Children’s Subject Headings($0)
LCDGT – Library of Congress Demographic Group Terms($0)
LCGFT – Library of Congress Genre/Form Terms($0)
MARC Relator Terms and Codes($4)
RDA Vocabularies($0取值,$4元素)
RBMS Controlled Vocabularies($0)珍本与特藏编目用受控词表