美国数字公共图书馆《元数据应用纲要》为关联数据更新

美国数字公共图书馆(DPLA)是集成美国文化遗产机构联机资源的门户。元数据来自参与机构或服务中心(Hubs)、采用不同的元数据标准,经过DPLA依其《元数据应用纲要》(DPLA Metadata Application Profile (MAP))映射集成,并以关联开放数据(LOD)加以强化,在呈现与共享元数据的同时,提供一站式的资源发现与获取服务。

MAP基于Europeana数据模型(EDM),并结合DPLA集成美国文化遗产机构元数据的经验与特定需求[1]。EDM主要使用来自其他命名空间的属性、加上少数独特的本地开发属性,为集成来自欧盟不同机构的多样化数字对象的元数据而开发。DPLA功能与之类似,采用该模型,既不必“重新发明轮子”,又能提高数据的互操作性,自在情理之中。MAP起草于2012年,当年公开征求元数据专家的意见,2013年初发布为v3.0。2014年7月略作更新为v3.1,最新版本为2015年3月发布的v4.0 [2]。目前DPLA门户及API仍采用v3.1,有待全面更新。

DPLA MAP v4.0为应用关联数据做了大量更新,诚如其导言所说,“MAP 4版的变化表达了在DPLA框架内,与关联开放数据结合的重大飞跃……特征为更新地理类,增加概念和代理类,均利用LOD。另外,在附录A中描述了注释类。”[3]
DPLA Domain Model v4.0
DPLA领域模型4.0版(蓝色为核心类,无色为情景类),未包括附录A的注释类(Annotation)。类(Class)及属性(Property)仍主要采用EDM、都柏林核心(DC),加上少量其他命名空间元素。
主要变化
1、类由v3.1的6个增至8个。新增的代理(Agent)和概念(Concept)将强化责任者、主题相关URI资源。
2、地点类中原来的属性是行政区划名称/代码如国家、州、县、市等,现在改用地理信息属性经度、纬度、海拔、几何形状(地理边界坐标组),以及(行政区/地理)上级特性URI、国家代码。原数据中的行政区划名称/代码,可以经地理LOD词表匹配得到地理信息,用于生成地理浏览功能。
3、属性尽可能由DCTERMS代替DC命名空间(除非不能满足对值类型的限制),取值要求尽可能采用参引(URI)代替文字(Literal)。
据此,DPLA应用MAP v4.0后,元数据将由众多的关联数据服务得到更多、更普遍的强化。未来其门户也可以提供更丰富的信息与功能。

来源:
[1] Metadata Application Profile
[2] An Introduction to the DPLA Metadata Model (March 5, 2015)
[3] Metadata Application Profile, version 4.0 (Release date: 3/4/2015)

参见:《Europeana数据模型入门》笔记(2014年1月25日)

LC关联数据服务:数据集现状(2015)

两年前曾记录了美国国会图书馆关联数据服务提供的数据集(LC关联数据服务现状(2013年7月27日))。这个数据集已有所扩大,特别是增加了很多取值词表与代码表(Schemes and smaller codelists)。再作备记如下。
页面及子页面均有检索框,可以一站或分类查找数据集中的术语。

– 规范部分(主题、名称、分类)【由6种增加到10种】
LC Subject Headings(LC主题词表)
LC Name Authority File(LC名称规范档)
LC Classification(LC分类法)
LC Children’s Subject Headings(LC儿童主题词表)
LC Genre/Form Terms(LC体裁/形式术语表)
LC Medium of Performance Thesaurus for Music(LC音乐演奏媒介叙词表)【新增】
LC Demographic Group Terms(LC人口组别术语表)【新增;参见小河尘日志:LCDGT简介
Thesaurus for Graphic Materials(图像资料叙词表)
AFS Ethnographic Thesaurus(美国民俗学会人种学叙词表)【新增】
Cultural Heritage Organizations(文化遗产组织表)【新增】

– 保存词汇表(Preservation Vocabularies)【由15种增加到25种】
Preservation Vocabs (all)
Actions Granted
Agent Type
Content Location Type
Copyright Status
……

– MARC代码部分【8种不变】
MARC Relators(包含来自12种RDA和2种BIBFRAME的关系词)
MARC Countries
MARC Geographic Areas
MARC Languages
ISO639-1 Languages
ISO639-2 Languages
ISO639-5 Languages
Extended Date/Time Format

– 取值词表与代码表(Schemes and smaller codelists)【新增,来自MARC文档,共11种】
Identifiers(标识符:标准号或代码体系)
Carriers(载体类型,RDA用)
Content Types(内容类型,RDA用)
Media Types(媒介类型,RDA用)
Resource Types(资源类型,MARC21书目数据格式及MODS用)
MARC Genre/Form Schemes(体裁/形式表)
MARC Subject Schemes(主题法)
Classification Schemes(分类法)
Description Convention Schemes(著录法)
Publication Frequencies(出版频率,MARC21书目数据格式字段008/18)
Resource Components(资源组成部分,MARC21书目数据格式字段041【指041语种子字段区分依据】)

暑假偷师上图:“URI设计”专题分享与讨论

上海图书馆夏MM的国家社科基金课题,结合上图的关联数据项目,基本上每周一次相关专题分享与研讨。参与者来自多个机构,看着他们不断前进的步伐,很羡慕那种氛围。
本周他们讨论URI规则等,是我感兴趣的主题。正巧昨天开始正式放暑假,于是今天在37度的烧烤模式下,去上图蹭听学习。感谢他们的接纳。
首先由许磊主讲《URI设计原则》,从爱尔兰国立大学两位研究员对URI类型及设计模式等的研究开始,以所述URI类型,分析各国图书馆界关联数据和政府开放数据的URI模式。
三十分钟报告结束,进入讨论阶段,夏MM主持探讨前已发布的家谱系统URI是否需要更改,哪些需要改。Keven并进一步提出上图的URI政策问题,为今后更多项目做准备。尽管现场没有定论,但确定会后据此提出方案。至此不过四十五分钟,真是相当务实高效的会议。

今天的报告让我对URI类型和模式有了比较清晰的认识,至少区分Thing、Concept、Resource和Onto四种URI是我比较明白的,Hierarchical URI也可理解,Representation URI就不明所以了。期待许磊写出文章。

———-小河尘的分割线———-
许磊在书社会发了不少博文,主要涉及编目与关联数据。关于MARC、RDA、FRBR、BIBFRAME等等的学习笔记,信息量相当大。比如BIBFRAME方面有:
【学习笔记】BF规范(2015-06-07)
Bibflow简介(2015-05-08)
[学习笔记]RDA注册元素与BF属性–题名篇(2014-08-29)
[续]catwizard老师的博文–Bibframe.org的类与属性发布(2014-04-30)[此文刚才查时才发现,估计一年多前还没加上书社会好友,因此先前没注意到]