PRISM与都柏林核心元数据

都柏林核心(DC)不但得到很多数字图书馆或近年的关联数据项目采用,还被很多元数据规范复用,PRISM(出版需求行业标准元数据,Publishing Requirements for Industry Standard Metadata)更是有一个子规范:都柏林核心元数据子集。
参见:PRISM:出版需求行业标准元数据

PRISM3.0版共有6个子规范,基本元数据(90个元素和特性)、都柏林核心元数据子集和使用权利元数据是通用的元数据规范。其DC子集复用23个属性,使用时可配合prism等特性(Attribute)进行细化(扩展)。

PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
3.4 PRISM Subset of Dublin Core Element and Attribute Models
3.4.1 dc:contributor
3.4.2 dc:creator
3.4.3 dc:description
3.4.4 dc:format
3.4.5 dcterms:hasFormat 格式|载体关系(反向3.4.9)
3.4.6 dcterms:hasPart 整体/部分关系(反向3.4.10)
3.4.7 dcterms:hasVersion 版本关系(反向3.4.12)
3.4.8 dc:identifier
3.4.9 dcterms:isFormatOf 格式|载体关系(反向3.4.5)
3.4.10 dcterms:isPartOf 整体/部分关系(反向3.4.6)
3.4.11 dcterms:isRequiredBy 伴随关系(反向3.4.16)
3.4.12 dcterms:isVersionOf 版本关系(反向3.4.7)
3.4.13 dc:language
3.4.14 dc:publisher
3.4.15 dc:relation
3.4.16 dcterms:requires 伴随关系(反向3.4.11)
3.4.17 dc:rights
3.4.18 dc:source
3.4.19 dcterms:source
3.4.20 dc:subject
3.4.21 dcterms:subject
3.4.22 dc:title
3.4.23 dc:type

备注(兼及DC与PRISM基本元数据的简单对照)
1、DC基本元素集(dc:),15个中缺以下2个:
(1)dc:coverage 空间或时间(当属主题范畴,见下)
(2)dc:date 日期
dcterms:有很多细化日期,比如:接收日期(dateAccepted)、递交日期(dateSubmitted)、可获得日期(available)生效日期(valid),与PRISM基本元数据中的细化日期不尽相同。
PRISM比较特别的是包括若干数据类型分别为“日期”/文本(显示)的成对日期:
4.2.12 prism:copyrightYear (图书)版权年(=dcterms:dateCopyrighted)
4.2.14 prism:coverDate 覆盖日期(期刊的日期期号,“日期”数据类型)
4.2.15 prism:coverDisplayDate 覆盖显示日期(期刊的日期期号,文本串)
4.2.16 prism:creationDate 创建日期(编辑流程内部使用)(=dcterms:created)
4.2.17 prism:dateReceived 收到日期(接收者告知出版者何时收到)
4.2.40 prism:killDate (网站)移除日期
4.2.43 prism:modificationDate 修改日期(通常内部应用)(=dcterms:modified)
4.2.47 prism:onSaleDate 销售日期(用于“日期时间”数据类型)
4.2.48 prism:onSaleDay 销售日(出版物新一期通常零售日-星期几)
4.2.49 prism:offSaleDate (期刊零售)下架日(格式:ccyy-mm-dd)
4.2.59 prism:publicationDate 出版日期(印刷出版物截止日期、数字内容贴出日期,“日期”数据类型)(=dcterms:issued)
4.2.60 prism:publicationDisplayDate 出版显示日期(印刷出版物截止日期、数字内容贴出日期,文本串)

2、DC元数据术语(dcterms),55个中复用10个:
(1)来源:dc:source + dcterms:source
未来将用dcterms:取代dc:

(2-9)关系(dc:relation的细化),4种双向8个:整体/部分、伴随、版本、格式|载体(如上)
dcterms另有3组不属于PRISM子集的关系:替代(replaces/isReplacedBy)、参照(references/isReferencedBy)和需求(requires/isRequiredBy)。
而PRISM基本元数据中也有另外2组不同的关系:
4.2.26 prism:hasAlternative 有交替(资源)(dcterms:hasFormat,dcterms:hasVersion的上位属性)
4.2.30 prism:isAlternativeOf 是交替(资源)(反向hasAlternative:dcterms:isFormatOf,dcterms:isVersionOf的上位属性)
4.2.28 prism:hasTranslation 有译本
4.2.38 prism:isTranslationOf 是译本

(10)主题:dc:subject + dcterms:subject
与“来源”将以dcterms:取代dc:不同:dcterms:取值为URI;而dc:则建议由受控词表取值,另可用作多个主题的容器。建议优先使用PRISM基本元数据中针对特定类型主题的元素。
经查特定主题元素如下,共11个:
4.2.1 prism:academicField 学术领域
4.2.24 prism:event 事件
4.2.29 prism:industry 行业
4.2.42 prism:location (地理)位置(=dcterms:spatial 空间)
4.2.46 prism:object 对象(如产品)
4.2.50 prism:organization 团体
4.2.55 prism:person 个人
4.2.58 prism:profession 专业
4.2.69 prism:sport 运动
4.2.83 prism:ticker 投票代号
4.2.84 prism:timePeriod 时间段(=dcterms:temporal 时间)

3、dc:/dcterm:有相应元素,prism:重新定义的例子还有如:
4.2.4 prism:alternateTitle 交替题名(=dcterms:alternative)
4.2.13 prism:corporateEntity (出版)团体实体(=dc:publisher子属性;不用于文章中提及团体即主题=prism:organization)

—– 附:PRISM使用权利元数据 —–
PRISM Usage Rights Metadata Specification, October 4, 2012
“PRISM使用权利元数据”更为专业,相比而言DC就过于宽泛了(当然DC的特征就是宽泛):

4.4 PRISM Usage Rights Elements and Attributes
4.4.1 pur:adultContentWarning 成人内容警示
4.4.2 pur:agreement 协议(近似dcterms:license)
4.4.3 pur:copyright 版权(近似dcterms:rights)
4.4.4 pur:creditLine 新闻出处(近似dcterms:source)
4.4.5 pur:embargoDate 禁止日期
4.4.6 pur:exclusivityEndDate 独占终止日期
4.4.7 pur:expirationDate 失效日期(对比dcterms:valid)
4.4.8 pur:imageSizeRestriction 图像尺寸限制
4.4.9 pur:optionEndDate 期权终止日期
4.4.10 pur:permissions 许可(近似dcterms:license)
4.4.11 pur:restrictions 限制(近似dcterms:accessRights)
4.4.12 pur:reuseProhibited 重用禁止
4.4.13 pur:rightsAgent 权利代理者
4.4.14 pur:rightsOwner 权利所有者(=dcterms:rightsHolder)

PRISM:出版需求行业标准元数据

出版需求行业标准元数据(PRISM, Publishing Requirements for Industry Standard Metadata)相关信息摘译。

—– 维基百科:Publishing Requirements for Industry Standard Metadata —–

行业出版需求标准元数据(PRISM)规范一套XML元数据词表,用于联合、聚集、后处理和多用途内容。PRISM提供一个框架用于交换和保存内容与元数据,一个元素集合用于描述内容,一套受控词表列出用于这些元素的值。PRISM可以是XML、RDF/XML或XMP,可与都柏林核心元素结合。PRISM可视为一套XML标签,用于包含文章元数据,甚至可以标签文章内容。
PRISM符合WWW命名空间标准。PRISM命名空间是PRISM(prism:)、PRISM使用权利(pur:)、都柏林核心(dc:和dcterms:)、PRISM集成信息(pam:)和PRISM受控词表(pcv:)。PRISM结合现有行业标准如都柏林核心和XHTML以借助在出版业已有工作。只在需要时创建新元素,赋予PRISM特定命名空间。

概述:
PRISM由三个规范组成。PRISM规范本身提供对所有PRISM框架的定义;第2个规范是PRISM集成信息(PAM)方案/DTD,是供出版者用于传递内容至网站、集成者、组合者的标准格式。PAM有XML DTD和XSD,二种PAM格式均提供一个简单灵活的模型,用于传递内容和PRISM元数据。第3个、也是最新的规范,提供XML规范(XSD)用于抓取内容使用权利元数据,即“PRISM使用权利指引”,使用PRISM的使用权利命名空间中的元素,允许使用者综合抓取与转播文本与媒体内容的权利元数据。

背景:
始于1999年,IDEAlliance联盟与Linda Burman签约成立PRISM工作组,表达新兴出版者对于元数据标准的需求,方便“灵活的”内容用于搜索、数字资产管理、内容集成。自此,来自50多个IDEAlliance成员公司的个人参与该规范的开发。
PRISM工作组向所有IDEAlliance联盟成员开放,包括:Adobe Systems, Hachette Filipacchi Media, Hearst, L.A. Burman Associates, LexisNexis, The McGraw-Hill Companies, Reader’s Digest, Source Interlink Media Companies, Time Inc., The Nature Publishing Group, U.S. News & World Report。

使用与应用:
PRISM描述印刷品、联机、移动及多媒体内容的任何组成部分,包括:【注重:权利】
– 谁对内容创建、贡献、拥有权利?
– 覆盖什么位置、机构、论题、人们和/或事件,包含什么媒介,可以在什么条件下复制?
– 什么时候发布的?(覆盖日期、发帖日期、卷、期),什么时候撤消?
– 什么时候可以再发布,它出现在什么原平台?
– 如何复用?

—– IDEAlliance官方信息:PRISM Metadata Initiative —–
什么是PRISM:
PRISM是一个行业标准元数据,可用于建立有效的多频道发布解决方案。采用PRISM,出版者可创建、管理、聚合、生产、发布和重用内容。

关于PRISM元数据规范:
工作始于1999年,PRISM 1.0发布于2001年,跨媒体平台发布的PRISM 2.0发布于2008年。如今PRISM规范是三个XML发布解决方案的基础:
– PRISM聚合信息(PAM):XML标签集,开发于2004年,设计用于封装文章供传递给内容聚合者。PAM建立于PRISM元数据字段,以XHTML编码文本。
– PRISM的Web内容聚合信息(PAMW):XML标签集,开发于2014年,设计用于自动抓取联机文章以存档、复用及传递给内容聚合者。PAMW建立于PRISM元数据字段,以XHTML 4编码文本。
– PRISM源词表(PSV):XML标签集,开发于2011年,设计用于编码广泛的内容,从文章到广告到图书章节。PSV基于PRISM 3.0元数据,以HTML5编码文本和富媒体内容。

—– Specifications: PRISM —–
PRISM的范围由出版者需求驱动,在于接收、追踪和传递多部分内容。其关注在于内容的附加使用,因此有关内容的外观的元数据超出了PRISM的范围。【与书目元数据的重要不同】

PRISM关注以下方面的元数据:
– 资源作为一个整体的通用描述
– 资源与其他资源的特定关系
– 依平台和分发渠道定义使用权利和许可
– 表达内嵌元数据(即在资源本身标记)

2012年后期发布3.0版,表达的出版物除文章外扩大到包括图书、博客、书刊和网站,平台除印刷品外还包括万维网、移动、平板和智能手机。增加了三个新类别(广告、图像和食谱)。

—– PRISM: Publishing Requirements for Industry Standard Metadata, Version 3.0 —–
包括6个元数据规范,后3个为Version 3.0新增

– PRISM Basic Metadata Specification, October 4, 2012
PRISM基本元数据。90个元素和特性。命名空间:prism:

– PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
都柏林核心元数据PRISM子集。复用DC/DCTerms属性23个,加prism等特性(Attribute)细化(扩展)

– PRISM Usage Rights Metadata Specification, October 4, 2012
PRISM使用权利元数据。14个元素和特性。命名空间:pur: + dc:rights

– PRISM Advertising Metadata Specification, October 4, 2012
PRISM广告元数据。命名空间:prism-ad: + 复用:
adsml-at: (AdsML Working Group,http://www.adsml.org)
gwg-at: (Ghent Work Group,http://www.gwg.org)

– The PRISM Metadata for Images Specification, October 4, 2012
PRISM图像元数据。命名空间:pmi: + 复用:
dc:
photoshop: IPTC也采用Adobe的photoshop:命名空间
Iptc4XmpExt: IPTC image specifications

– PRISM Recipe Metadata Specification, October 4, 2012
PRISM食谱元数据。命名空间:prm:

年终学术:上图学会2014年12月双月讲座

年末会议接二连三,今天上午是上海市图书馆学会2014年12月双月学术讲座。会议通知星期二下午才上网,而且用主持人Keven的说法,年会也才开过,不料人气还是很高,报名人数超过预期的50人,因此换了一个略大的会场——事实上还有没在网上报名直接就来的,所以会场坐得比较满。报告时间每人一小时,可以讲得比较从容。

秦健教授讲《数据与数据服务:图书馆服务的延伸》,认为数据服务已是美国图书馆的新常态。
– 数据服务到底可以做什么?印象中近年谈得较多的就是data curation,国内也有图书馆开始尝试,今年上图学会年会主旨报告之一殷沈琴讲的就是复旦经验《高校科学数据监护的探索与实践》。
本报告的数据服务范围更宽些,涉及服务的变化:从数据管理到数据服务、从呈现到分析、从馆藏(collection)到产品(production)。换言之,让数据“活”起来。作为实例之一,介绍Peter Leonard,耶鲁大学图书馆专职做数字人文研究的图书馆员,利用现有的工具(包括Google的Book Ngram Viewer等),为人文科学挖掘大数据集(原文链接见下)。
– 一直很困惑图书馆未来到底能做什么,如果仍停留在提供馆藏上,在去中介化的趋势下未来真的不乐观。近年逐渐升温的学科馆员、嵌入式服务等等,也是为了应对这种现状。然而,学科馆员定位似乎很尴尬,在能做什么和用户需要什么之间很难找准位置。耶鲁的例子确属于“数字人文”领域,但看起来也是图书馆员(学科馆员)能做的。
当然,要做延伸服务,最重要的是人员,还需要接受培训。就国内而言,不说图书馆领导是不是有这方面的眼光,提供培训者恐怕也难以寻觅。
– 报告谈到数据资源领域一些术语的变化,指出术语变化显示观念改变,比如从数字馆藏(digital collection)到数字数据(digital data)——雪城大学的“数字图书馆”课程已改名“数字数据基础”。如我这般原来看这些术语没有什么感觉的,现在有了另外的视角,或者也可以用Google Book Ngram分析一下这些词的变化趋势——这是有墙的。秦教授每年回国,切身感受“墙”对做研究的损害,报告中另一个例子是纽约时报关联数据,也是有墙的。

戴着Google眼镜的张甲馆长讲《大数据再定义图书馆服务导向》,从他乘坐没有方向盘的Google无人驾驶汽车的体验开始,直观说明大数据分析。
张馆长身为图书信息中心主任,报告例子中不少是高校信息办或者信息网络中心做的数据分析,很有启发。图书馆长有双重身份者还有不少(比如以前的重大、现在的厦大),为图书馆与网络中心合作提供不少方便。报告中也有图书馆的例子——解放军医学图书馆案例。
不过听完报告,对于图书馆有没有大数据,或者对现在能够获取到的数据到底能做什么,还是未能了了(抱歉,悟性不够)。

秦健教授的数据服务,张甲馆长的大数据,针对的都是新形势(或者新常态)下的图书馆服务,对大家比较有吸引力。我的《书目用RDF词表与本体概况》则比较小众,原是为上图设想把CNMARC数据发布为RDF而准备的。虽然针对的是对该主题已经有所了解的人,但自己对这个主题的知识积累不足,原来假定是小范围交流,有些问题是想共同探讨的,没想到变成了公开讲座,要面对那么多人,心里还是有点发毛。最终一个人自说自话讲得还算顺利,希望现场听众也有所收获。
PPT已经上网,请移步上图学会网站“资源”,注册登录后下载

参见:
耶鲁的例子见今年IFLA年会文章:Peter Leonard. Mining large datasets for the humanities. IFLA WLIC : (2014).
早年黑Google的博文:Google实验室新品Books Ngram Viewer:数据的可靠性(2010年12月18日)