PRISM与都柏林核心元数据

都柏林核心(DC)不但得到很多数字图书馆或近年的关联数据项目采用,还被很多元数据规范复用,PRISM(出版需求行业标准元数据,Publishing Requirements for Industry Standard Metadata)更是有一个子规范:都柏林核心元数据子集。
参见:PRISM:出版需求行业标准元数据

PRISM3.0版共有6个子规范,基本元数据(90个元素和特性)、都柏林核心元数据子集和使用权利元数据是通用的元数据规范。其DC子集复用23个属性,使用时可配合prism等特性(Attribute)进行细化(扩展)。

PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
3.4 PRISM Subset of Dublin Core Element and Attribute Models
3.4.1 dc:contributor
3.4.2 dc:creator
3.4.3 dc:description
3.4.4 dc:format
3.4.5 dcterms:hasFormat 格式|载体关系(反向3.4.9)
3.4.6 dcterms:hasPart 整体/部分关系(反向3.4.10)
3.4.7 dcterms:hasVersion 版本关系(反向3.4.12)
3.4.8 dc:identifier
3.4.9 dcterms:isFormatOf 格式|载体关系(反向3.4.5)
3.4.10 dcterms:isPartOf 整体/部分关系(反向3.4.6)
3.4.11 dcterms:isRequiredBy 伴随关系(反向3.4.16)
3.4.12 dcterms:isVersionOf 版本关系(反向3.4.7)
3.4.13 dc:language
3.4.14 dc:publisher
3.4.15 dc:relation
3.4.16 dcterms:requires 伴随关系(反向3.4.11)
3.4.17 dc:rights
3.4.18 dc:source
3.4.19 dcterms:source
3.4.20 dc:subject
3.4.21 dcterms:subject
3.4.22 dc:title
3.4.23 dc:type

备注(兼及DC与PRISM基本元数据的简单对照)
1、DC基本元素集(dc:),15个中缺以下2个:
(1)dc:coverage 空间或时间(当属主题范畴,见下)
(2)dc:date 日期
dcterms:有很多细化日期,比如:接收日期(dateAccepted)、递交日期(dateSubmitted)、可获得日期(available)生效日期(valid),与PRISM基本元数据中的细化日期不尽相同。
PRISM比较特别的是包括若干数据类型分别为“日期”/文本(显示)的成对日期:
4.2.12 prism:copyrightYear (图书)版权年(=dcterms:dateCopyrighted)
4.2.14 prism:coverDate 覆盖日期(期刊的日期期号,“日期”数据类型)
4.2.15 prism:coverDisplayDate 覆盖显示日期(期刊的日期期号,文本串)
4.2.16 prism:creationDate 创建日期(编辑流程内部使用)(=dcterms:created)
4.2.17 prism:dateReceived 收到日期(接收者告知出版者何时收到)
4.2.40 prism:killDate (网站)移除日期
4.2.43 prism:modificationDate 修改日期(通常内部应用)(=dcterms:modified)
4.2.47 prism:onSaleDate 销售日期(用于“日期时间”数据类型)
4.2.48 prism:onSaleDay 销售日(出版物新一期通常零售日-星期几)
4.2.49 prism:offSaleDate (期刊零售)下架日(格式:ccyy-mm-dd)
4.2.59 prism:publicationDate 出版日期(印刷出版物截止日期、数字内容贴出日期,“日期”数据类型)(=dcterms:issued)
4.2.60 prism:publicationDisplayDate 出版显示日期(印刷出版物截止日期、数字内容贴出日期,文本串)

2、DC元数据术语(dcterms),55个中复用10个:
(1)来源:dc:source + dcterms:source
未来将用dcterms:取代dc:

(2-9)关系(dc:relation的细化),4种双向8个:整体/部分、伴随、版本、格式|载体(如上)
dcterms另有3组不属于PRISM子集的关系:替代(replaces/isReplacedBy)、参照(references/isReferencedBy)和需求(requires/isRequiredBy)。
而PRISM基本元数据中也有另外2组不同的关系:
4.2.26 prism:hasAlternative 有交替(资源)(dcterms:hasFormat,dcterms:hasVersion的上位属性)
4.2.30 prism:isAlternativeOf 是交替(资源)(反向hasAlternative:dcterms:isFormatOf,dcterms:isVersionOf的上位属性)
4.2.28 prism:hasTranslation 有译本
4.2.38 prism:isTranslationOf 是译本

(10)主题:dc:subject + dcterms:subject
与“来源”将以dcterms:取代dc:不同:dcterms:取值为URI;而dc:则建议由受控词表取值,另可用作多个主题的容器。建议优先使用PRISM基本元数据中针对特定类型主题的元素。
经查特定主题元素如下,共11个:
4.2.1 prism:academicField 学术领域
4.2.24 prism:event 事件
4.2.29 prism:industry 行业
4.2.42 prism:location (地理)位置(=dcterms:spatial 空间)
4.2.46 prism:object 对象(如产品)
4.2.50 prism:organization 团体
4.2.55 prism:person 个人
4.2.58 prism:profession 专业
4.2.69 prism:sport 运动
4.2.83 prism:ticker 投票代号
4.2.84 prism:timePeriod 时间段(=dcterms:temporal 时间)

3、dc:/dcterm:有相应元素,prism:重新定义的例子还有如:
4.2.4 prism:alternateTitle 交替题名(=dcterms:alternative)
4.2.13 prism:corporateEntity (出版)团体实体(=dc:publisher子属性;不用于文章中提及团体即主题=prism:organization)

—– 附:PRISM使用权利元数据 —–
PRISM Usage Rights Metadata Specification, October 4, 2012
“PRISM使用权利元数据”更为专业,相比而言DC就过于宽泛了(当然DC的特征就是宽泛):

4.4 PRISM Usage Rights Elements and Attributes
4.4.1 pur:adultContentWarning 成人内容警示
4.4.2 pur:agreement 协议(近似dcterms:license)
4.4.3 pur:copyright 版权(近似dcterms:rights)
4.4.4 pur:creditLine 新闻出处(近似dcterms:source)
4.4.5 pur:embargoDate 禁止日期
4.4.6 pur:exclusivityEndDate 独占终止日期
4.4.7 pur:expirationDate 失效日期(对比dcterms:valid)
4.4.8 pur:imageSizeRestriction 图像尺寸限制
4.4.9 pur:optionEndDate 期权终止日期
4.4.10 pur:permissions 许可(近似dcterms:license)
4.4.11 pur:restrictions 限制(近似dcterms:accessRights)
4.4.12 pur:reuseProhibited 重用禁止
4.4.13 pur:rightsAgent 权利代理者
4.4.14 pur:rightsOwner 权利所有者(=dcterms:rightsHolder)

DCMI和RDF学习记录

因为摘译《BIBFRAME纲要草案》(2014-8-24),感到自己以往道听途说的多,看过原文、真正了解的少。于是顺藤摸瓜,在暑假的最后一段日子里恶补了DCMI和RDF相关标准。

———- DCMI文档(Documents) ———-
– BIBFRAME纲要基于《DCMI描述集纲要》(DCMI Description Set Profiles, DSP,2008)
– DSP的主要用途之一《DC应用纲要》(Dublin Core Application Profiles, DCAP,指南2009),BIBFRAME纲要类似于此
– DSP相关概念出自《DCMI抽象模型》(DCMI Abstract Model, DCAM,2007)
– DCAM建立在RDF基础上:《以资源描述框架(RDF)表达DC元数据》(Expressing Dublin Core metadata using the Resource Description Framework (RDF),2008)
这样一圈下来,看了不少DCMI文档。
体会:看到“以RDF表达DC”附录A样例,感觉DC抽象模型的表达要比RDF复杂、不直观,不如直接用RDF?

看得差不多了,才在不经意间发现DCMI文档的翻译页面:Translations of DCMI Documents,由其中的中文版链接到上海图书馆的都柏林核心元数据网站。以前自然是访问过的,但这次没想到先查下。
上图DC网站上有张MM和夏MM译的DCAM,2004版PDF,订正了自己的几个译名——如果先看,先前看原文时就不至于为中译名词纠结了。两个版本在结构上变化不大,粗略看2007版的变化:
1、新增literal(文字/字面)和value surrogate概念(后一概念在RDF中也未见到,不知有何渊源)
2、不再有refine(限定)和qualifier(修饰词)概念 [更正 2014-9-24:仍有refines,说明子属性关系;上位/下位则说明超类/子类]
3、DCMI资源模型、描述模型中没有了Class(类)
2007版的2.4附注称:“DCMI描述集模型不提供明确机制指明被描述资源的类。被描述资源的类可以用该描述中的一个或多个陈述明确指明,也可以由用于该描述的属性的领域推断”。

DCAM (2007) Figure 1 – the DCMI resource model
DCAM (2004) Figure 1 – the DCMI resource model
DCAM (2007) Figure 2 – the DCMI description set model
DCAM (2004) Figure 2 – the DCMI description model

DCAM (2004) 图出自:DCMI Abstract Model (2004-12-08)
DCAM (2007) 图出自:DCMI Abstract Model (2007-06-04)

– 顺便对照了《DCMI元数据术语》(DCMI Metadata Terms,2012),比2006版多了两个类型:
1、Classes(22个):作为术语的范围(has range)或领域(has domain)
2、Terms related to the DCMI Abstract Model(2个:memberOf , VocabularyEncodingScheme):用于词表引用
为什么“类(Class)”在DCAM和DCT这两个标准中有这样的一增一减,要请教高人了。

DCAM (2007) Figure 3 – the DCMI vocabulary model

 

———- RDF标准(RDF Current Status) ———-
BIBFRAME纲要符合RDF,而DC也有RDF表达。语义网、关联数据,都离不开RDF。

从RDF入门开始。发现中文的W3学校内容在三年中已经大大丰富了,找到RDF,很轻松地看完了——因为太初级了。(参见:学网站制作,上W3学校,2011年9月15日)

入门显然是不够的。要了解所有词汇,看标准原文是个好选择,于是找到W3C,发现RDF标准在2014年初更新了,包括了更多序列化格式(Turtle、N-Quads、N-Triples、TriG、JSON)。随便浏览,发现URI现在被IRI(Internationalized Resource Indicator)取代了。(见:RDF 1.1新变化

W3C标准不少有其他语言译本,包括简体中文和/或繁体中文,RDF方面有2004年的《资源描述框架(RDF):概念与抽象语法》《RDF入门》。虽然不是今年的标准、而且十年间变化不小,但看原文时有中文版可参考,会轻松不少。对中文版译者心存敬意。
本想先看中文版学习,但看不下去——因为从目录看,新旧文件变化还是很大的,怕纠结半天的内容现在已经没有了,白白浪费脑细胞。最终只认真看了RDF新变化RDFS入门和“抽象模型”只浏览一过。非技术人员,看时完全没有体会,只能说头脑中有了一个初步印象。

SUSHI协议成为NISO正式标准Z39.93-2013

SUSHI全称Standardized Usage Statistics Harvesting Initiative,是为收割COUNTER格式的电子资源使用统计数据而制订的标准。SUSHI曾作为标准草案发布,于2006.9.20-2007.5.20间试用征求意见,[成为正式标准Z39.93-2007]。事隔五年,SUSHI在经重新审阅、做了两处小修改后,日前[2013.2.26]作为正式标准[第2版ANSI/NISO ]Z39.93-2013发布。

尽管当初是针对COUNT报告而开发的,但SUSHI是一个通用协议,也适用于定制的非COUNTER使用报告

NISO的SUSHI网站:http://www.niso.org/workrooms/sushi
有标准文本下载,[有开源的收割工具介绍……]

[update 2013-3-8]
via NISO news: NISO Publishes Maintenance Revisions of Dublin Core and SUSHI Standards (05 Mar 2013)
同时,DC元数据基本集也小做修改,更新为Z39.85-2012:Dublin Core Metadata Element Set (ANSI/NISO Z39.85-2012)
癔测:所谓“维护修订”,大概就是标准每隔比如5年要修订一次,以说明此标准仍在维护中,并未废弃吧。

———-附:COUNTER———-
COUNTER(Counting Online Usage of Networked Electronic Resources)网站:http://www.projectcounter.org/(有目前使用标准的文本下载)
COUNTER始于2002.3,2003年首次发布COUNTER Code of Practice,针对联机期刊和数据库。
最新为Release 4:COUNTER Code of Practice for e-Resources (2012.4出版),包含各类电子资源(期刊、数据库、图书和参考作品、多媒体等),取代COUNTER Code of Practice for Journals and Databases(Release 3,2008.8出版)和COUNTER Code of Practice for Books and Reference Works(Release 1,2006.3出版)。最迟实施日为2013.12.31,之后如不符合Release 4标准的,将不视为与COUNTER兼容。
为配合SUSHI收割利用,[和Release 3一样,]Release 4在原电子表格格式的基础上,要求COUNTER报告必须提供XML格式(详见Release 4, 3. SUSHI)。