BNB用RDF词表《不列颠图书馆术语》

小河尘在书社会中详细介绍英国国家书目关联数据的方方面面([学习笔记]关联书目数据系列之BNB Free Data,2015-1-6),文后参考文献又提供了进一步信息。

博文开首是BNB的数据模型与词汇表。BNB复用了很多已有词表和本体,大致可分为四个方面:
(书目描述)DC、BIBO、ISBD
(名称规范)FOAF、Bio、Org、RDA第2组元素(OMG版)
(主题规范等)SKOS、Event Ontology、WGS84 Geo Positioning
(基础标准)OWL、RDFS
对上述词表没有覆盖的部分,不列颠图书馆发布了自己的“不列颠图书馆术语”(British Library Terms,blt:)。顺博文链接去Schemas at the British Library,把其中的blt:细细看了一篇。

British Library Terms RDF schema v.1.4.1 (2013-10-03)
和其他书目词表/本体不同的是,把出版作为一个事件(类),而不是资源的一个属性。

类(概念、事件、组、词表)
– Concept 概念(分类/主题)
— TopicDDC(DDC号)
— TopicLCSH
— PersonConcept(个人概念)
— FamilyConcept(家族概念)
— OrganizationConcept(机构概念)
— PlaceConcept(地点概念)
– Event 事件(事件本体 event:)
— PublicationEvent(出版)
— PublicationEventEnd
— PublicationEventStart
– Group 组(FOAF)
— Family(家族)
– Vocabulary 词表

对象属性(创作/贡献、出版开始/结束)
– hasContributedTo(反向dct:contributor)
– hasCreated(反向dct:creator)
– publication
— publicationEnd
— publicationStart

数据属性(BNB号)
– identifier(dct:identifier)
— bnb(BNB号)

PRISM与都柏林核心元数据

都柏林核心(DC)不但得到很多数字图书馆或近年的关联数据项目采用,还被很多元数据规范复用,PRISM(出版需求行业标准元数据,Publishing Requirements for Industry Standard Metadata)更是有一个子规范:都柏林核心元数据子集。
参见:PRISM:出版需求行业标准元数据

PRISM3.0版共有6个子规范,基本元数据(90个元素和特性)、都柏林核心元数据子集和使用权利元数据是通用的元数据规范。其DC子集复用23个属性,使用时可配合prism等特性(Attribute)进行细化(扩展)。

PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
3.4 PRISM Subset of Dublin Core Element and Attribute Models
3.4.1 dc:contributor
3.4.2 dc:creator
3.4.3 dc:description
3.4.4 dc:format
3.4.5 dcterms:hasFormat 格式|载体关系(反向3.4.9)
3.4.6 dcterms:hasPart 整体/部分关系(反向3.4.10)
3.4.7 dcterms:hasVersion 版本关系(反向3.4.12)
3.4.8 dc:identifier
3.4.9 dcterms:isFormatOf 格式|载体关系(反向3.4.5)
3.4.10 dcterms:isPartOf 整体/部分关系(反向3.4.6)
3.4.11 dcterms:isRequiredBy 伴随关系(反向3.4.16)
3.4.12 dcterms:isVersionOf 版本关系(反向3.4.7)
3.4.13 dc:language
3.4.14 dc:publisher
3.4.15 dc:relation
3.4.16 dcterms:requires 伴随关系(反向3.4.11)
3.4.17 dc:rights
3.4.18 dc:source
3.4.19 dcterms:source
3.4.20 dc:subject
3.4.21 dcterms:subject
3.4.22 dc:title
3.4.23 dc:type

备注(兼及DC与PRISM基本元数据的简单对照)
1、DC基本元素集(dc:),15个中缺以下2个:
(1)dc:coverage 空间或时间(当属主题范畴,见下)
(2)dc:date 日期
dcterms:有很多细化日期,比如:接收日期(dateAccepted)、递交日期(dateSubmitted)、可获得日期(available)生效日期(valid),与PRISM基本元数据中的细化日期不尽相同。
PRISM比较特别的是包括若干数据类型分别为“日期”/文本(显示)的成对日期:
4.2.12 prism:copyrightYear (图书)版权年(=dcterms:dateCopyrighted)
4.2.14 prism:coverDate 覆盖日期(期刊的日期期号,“日期”数据类型)
4.2.15 prism:coverDisplayDate 覆盖显示日期(期刊的日期期号,文本串)
4.2.16 prism:creationDate 创建日期(编辑流程内部使用)(=dcterms:created)
4.2.17 prism:dateReceived 收到日期(接收者告知出版者何时收到)
4.2.40 prism:killDate (网站)移除日期
4.2.43 prism:modificationDate 修改日期(通常内部应用)(=dcterms:modified)
4.2.47 prism:onSaleDate 销售日期(用于“日期时间”数据类型)
4.2.48 prism:onSaleDay 销售日(出版物新一期通常零售日-星期几)
4.2.49 prism:offSaleDate (期刊零售)下架日(格式:ccyy-mm-dd)
4.2.59 prism:publicationDate 出版日期(印刷出版物截止日期、数字内容贴出日期,“日期”数据类型)(=dcterms:issued)
4.2.60 prism:publicationDisplayDate 出版显示日期(印刷出版物截止日期、数字内容贴出日期,文本串)

2、DC元数据术语(dcterms),55个中复用10个:
(1)来源:dc:source + dcterms:source
未来将用dcterms:取代dc:

(2-9)关系(dc:relation的细化),4种双向8个:整体/部分、伴随、版本、格式|载体(如上)
dcterms另有3组不属于PRISM子集的关系:替代(replaces/isReplacedBy)、参照(references/isReferencedBy)和需求(requires/isRequiredBy)。
而PRISM基本元数据中也有另外2组不同的关系:
4.2.26 prism:hasAlternative 有交替(资源)(dcterms:hasFormat,dcterms:hasVersion的上位属性)
4.2.30 prism:isAlternativeOf 是交替(资源)(反向hasAlternative:dcterms:isFormatOf,dcterms:isVersionOf的上位属性)
4.2.28 prism:hasTranslation 有译本
4.2.38 prism:isTranslationOf 是译本

(10)主题:dc:subject + dcterms:subject
与“来源”将以dcterms:取代dc:不同:dcterms:取值为URI;而dc:则建议由受控词表取值,另可用作多个主题的容器。建议优先使用PRISM基本元数据中针对特定类型主题的元素。
经查特定主题元素如下,共11个:
4.2.1 prism:academicField 学术领域
4.2.24 prism:event 事件
4.2.29 prism:industry 行业
4.2.42 prism:location (地理)位置(=dcterms:spatial 空间)
4.2.46 prism:object 对象(如产品)
4.2.50 prism:organization 团体
4.2.55 prism:person 个人
4.2.58 prism:profession 专业
4.2.69 prism:sport 运动
4.2.83 prism:ticker 投票代号
4.2.84 prism:timePeriod 时间段(=dcterms:temporal 时间)

3、dc:/dcterm:有相应元素,prism:重新定义的例子还有如:
4.2.4 prism:alternateTitle 交替题名(=dcterms:alternative)
4.2.13 prism:corporateEntity (出版)团体实体(=dc:publisher子属性;不用于文章中提及团体即主题=prism:organization)

—– 附:PRISM使用权利元数据 —–
PRISM Usage Rights Metadata Specification, October 4, 2012
“PRISM使用权利元数据”更为专业,相比而言DC就过于宽泛了(当然DC的特征就是宽泛):

4.4 PRISM Usage Rights Elements and Attributes
4.4.1 pur:adultContentWarning 成人内容警示
4.4.2 pur:agreement 协议(近似dcterms:license)
4.4.3 pur:copyright 版权(近似dcterms:rights)
4.4.4 pur:creditLine 新闻出处(近似dcterms:source)
4.4.5 pur:embargoDate 禁止日期
4.4.6 pur:exclusivityEndDate 独占终止日期
4.4.7 pur:expirationDate 失效日期(对比dcterms:valid)
4.4.8 pur:imageSizeRestriction 图像尺寸限制
4.4.9 pur:optionEndDate 期权终止日期
4.4.10 pur:permissions 许可(近似dcterms:license)
4.4.11 pur:restrictions 限制(近似dcterms:accessRights)
4.4.12 pur:reuseProhibited 重用禁止
4.4.13 pur:rightsAgent 权利代理者
4.4.14 pur:rightsOwner 权利所有者(=dcterms:rightsHolder)

PRISM:出版需求行业标准元数据

出版需求行业标准元数据(PRISM, Publishing Requirements for Industry Standard Metadata)相关信息摘译。

—– 维基百科:Publishing Requirements for Industry Standard Metadata —–

行业出版需求标准元数据(PRISM)规范一套XML元数据词表,用于联合、聚集、后处理和多用途内容。PRISM提供一个框架用于交换和保存内容与元数据,一个元素集合用于描述内容,一套受控词表列出用于这些元素的值。PRISM可以是XML、RDF/XML或XMP,可与都柏林核心元素结合。PRISM可视为一套XML标签,用于包含文章元数据,甚至可以标签文章内容。
PRISM符合WWW命名空间标准。PRISM命名空间是PRISM(prism:)、PRISM使用权利(pur:)、都柏林核心(dc:和dcterms:)、PRISM集成信息(pam:)和PRISM受控词表(pcv:)。PRISM结合现有行业标准如都柏林核心和XHTML以借助在出版业已有工作。只在需要时创建新元素,赋予PRISM特定命名空间。

概述:
PRISM由三个规范组成。PRISM规范本身提供对所有PRISM框架的定义;第2个规范是PRISM集成信息(PAM)方案/DTD,是供出版者用于传递内容至网站、集成者、组合者的标准格式。PAM有XML DTD和XSD,二种PAM格式均提供一个简单灵活的模型,用于传递内容和PRISM元数据。第3个、也是最新的规范,提供XML规范(XSD)用于抓取内容使用权利元数据,即“PRISM使用权利指引”,使用PRISM的使用权利命名空间中的元素,允许使用者综合抓取与转播文本与媒体内容的权利元数据。

背景:
始于1999年,IDEAlliance联盟与Linda Burman签约成立PRISM工作组,表达新兴出版者对于元数据标准的需求,方便“灵活的”内容用于搜索、数字资产管理、内容集成。自此,来自50多个IDEAlliance成员公司的个人参与该规范的开发。
PRISM工作组向所有IDEAlliance联盟成员开放,包括:Adobe Systems, Hachette Filipacchi Media, Hearst, L.A. Burman Associates, LexisNexis, The McGraw-Hill Companies, Reader’s Digest, Source Interlink Media Companies, Time Inc., The Nature Publishing Group, U.S. News & World Report。

使用与应用:
PRISM描述印刷品、联机、移动及多媒体内容的任何组成部分,包括:【注重:权利】
– 谁对内容创建、贡献、拥有权利?
– 覆盖什么位置、机构、论题、人们和/或事件,包含什么媒介,可以在什么条件下复制?
– 什么时候发布的?(覆盖日期、发帖日期、卷、期),什么时候撤消?
– 什么时候可以再发布,它出现在什么原平台?
– 如何复用?

—– IDEAlliance官方信息:PRISM Metadata Initiative —–
什么是PRISM:
PRISM是一个行业标准元数据,可用于建立有效的多频道发布解决方案。采用PRISM,出版者可创建、管理、聚合、生产、发布和重用内容。

关于PRISM元数据规范:
工作始于1999年,PRISM 1.0发布于2001年,跨媒体平台发布的PRISM 2.0发布于2008年。如今PRISM规范是三个XML发布解决方案的基础:
– PRISM聚合信息(PAM):XML标签集,开发于2004年,设计用于封装文章供传递给内容聚合者。PAM建立于PRISM元数据字段,以XHTML编码文本。
– PRISM的Web内容聚合信息(PAMW):XML标签集,开发于2014年,设计用于自动抓取联机文章以存档、复用及传递给内容聚合者。PAMW建立于PRISM元数据字段,以XHTML 4编码文本。
– PRISM源词表(PSV):XML标签集,开发于2011年,设计用于编码广泛的内容,从文章到广告到图书章节。PSV基于PRISM 3.0元数据,以HTML5编码文本和富媒体内容。

—– Specifications: PRISM —–
PRISM的范围由出版者需求驱动,在于接收、追踪和传递多部分内容。其关注在于内容的附加使用,因此有关内容的外观的元数据超出了PRISM的范围。【与书目元数据的重要不同】

PRISM关注以下方面的元数据:
– 资源作为一个整体的通用描述
– 资源与其他资源的特定关系
– 依平台和分发渠道定义使用权利和许可
– 表达内嵌元数据(即在资源本身标记)

2012年后期发布3.0版,表达的出版物除文章外扩大到包括图书、博客、书刊和网站,平台除印刷品外还包括万维网、移动、平板和智能手机。增加了三个新类别(广告、图像和食谱)。

—– PRISM: Publishing Requirements for Industry Standard Metadata, Version 3.0 —–
包括6个元数据规范,后3个为Version 3.0新增

– PRISM Basic Metadata Specification, October 4, 2012
PRISM基本元数据。90个元素和特性。命名空间:prism:

– PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
都柏林核心元数据PRISM子集。复用DC/DCTerms属性23个,加prism等特性(Attribute)细化(扩展)

– PRISM Usage Rights Metadata Specification, October 4, 2012
PRISM使用权利元数据。14个元素和特性。命名空间:pur: + dc:rights

– PRISM Advertising Metadata Specification, October 4, 2012
PRISM广告元数据。命名空间:prism-ad: + 复用:
adsml-at: (AdsML Working Group,http://www.adsml.org)
gwg-at: (Ghent Work Group,http://www.gwg.org)

– The PRISM Metadata for Images Specification, October 4, 2012
PRISM图像元数据。命名空间:pmi: + 复用:
dc:
photoshop: IPTC也采用Adobe的photoshop:命名空间
Iptc4XmpExt: IPTC image specifications

– PRISM Recipe Metadata Specification, October 4, 2012
PRISM食谱元数据。命名空间:prm: