元数据 – 第 7 页 – 编目精灵III

PRISM与都柏林核心元数据

都柏林核心（DC）不但得到很多数字图书馆或近年的关联数据项目采用，还被很多元数据规范复用，PRISM（出版需求行业标准元数据，Publishing Requirements for Industry Standard Metadata）更是有一个子规范：都柏林核心元数据子集。
参见：PRISM：出版需求行业标准元数据

PRISM3.0版共有6个子规范，基本元数据（90个元素和特性）、都柏林核心元数据子集和使用权利元数据是通用的元数据规范。其DC子集复用23个属性，使用时可配合prism等特性(Attribute)进行细化（扩展）。

PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
3.4 PRISM Subset of Dublin Core Element and Attribute Models
3.4.1 dc:contributor
3.4.2 dc:creator
3.4.3 dc:description
3.4.4 dc:format
3.4.5 dcterms:hasFormat 格式|载体关系（反向3.4.9）
3.4.6 dcterms:hasPart 整体/部分关系（反向3.4.10）
3.4.7 dcterms:hasVersion 版本关系（反向3.4.12）
3.4.8 dc:identifier
3.4.9 dcterms:isFormatOf 格式|载体关系（反向3.4.5）
3.4.10 dcterms:isPartOf 整体/部分关系（反向3.4.6）
3.4.11 dcterms:isRequiredBy 伴随关系（反向3.4.16）
3.4.12 dcterms:isVersionOf 版本关系（反向3.4.7）
3.4.13 dc:language
3.4.14 dc:publisher
3.4.15 dc:relation
3.4.16 dcterms:requires 伴随关系（反向3.4.11）
3.4.17 dc:rights
3.4.18 dc:source
3.4.19 dcterms:source
3.4.20 dc:subject
3.4.21 dcterms:subject
3.4.22 dc:title
3.4.23 dc:type

备注（兼及DC与PRISM基本元数据的简单对照）：
1、DC基本元素集（dc:），15个中缺以下2个：
（1）dc:coverage 空间或时间（当属主题范畴，见下）
（2）dc:date 日期
dcterms:有很多细化日期，比如：接收日期（dateAccepted）、递交日期（dateSubmitted）、可获得日期（available）生效日期（valid），与PRISM基本元数据中的细化日期不尽相同。
PRISM比较特别的是包括若干数据类型分别为“日期”/文本（显示）的成对日期：
4.2.12 prism:copyrightYear （图书）版权年（=dcterms:dateCopyrighted）
4.2.14 prism:coverDate 覆盖日期（期刊的日期期号，“日期”数据类型）
4.2.15 prism:coverDisplayDate 覆盖显示日期（期刊的日期期号，文本串）
4.2.16 prism:creationDate 创建日期（编辑流程内部使用）（=dcterms:created）
4.2.17 prism:dateReceived 收到日期（接收者告知出版者何时收到）
4.2.40 prism:killDate （网站）移除日期
4.2.43 prism:modificationDate 修改日期（通常内部应用）（=dcterms:modified）
4.2.47 prism:onSaleDate 销售日期（用于“日期时间”数据类型）
4.2.48 prism:onSaleDay 销售日（出版物新一期通常零售日-星期几）
4.2.49 prism:offSaleDate （期刊零售）下架日（格式：ccyy-mm-dd）
4.2.59 prism:publicationDate 出版日期（印刷出版物截止日期、数字内容贴出日期，“日期”数据类型）（=dcterms:issued）
4.2.60 prism:publicationDisplayDate 出版显示日期（印刷出版物截止日期、数字内容贴出日期，文本串）

2、DC元数据术语（dcterms），55个中复用10个：
（1）来源：dc:source + dcterms:source
未来将用dcterms:取代dc:

（2-9）关系（dc:relation的细化），4种双向8个：整体/部分、伴随、版本、格式|载体（如上）
dcterms另有3组不属于PRISM子集的关系：替代（replaces/isReplacedBy）、参照（references/isReferencedBy）和需求（requires/isRequiredBy）。
而PRISM基本元数据中也有另外2组不同的关系：
4.2.26 prism:hasAlternative 有交替（资源）（dcterms:hasFormat，dcterms:hasVersion的上位属性）
4.2.30 prism:isAlternativeOf 是交替（资源）（反向hasAlternative：dcterms:isFormatOf，dcterms:isVersionOf的上位属性）
4.2.28 prism:hasTranslation 有译本
4.2.38 prism:isTranslationOf 是译本

（10）主题：dc:subject + dcterms:subject
与“来源”将以dcterms:取代dc:不同：dcterms:取值为URI；而dc:则建议由受控词表取值，另可用作多个主题的容器。建议优先使用PRISM基本元数据中针对特定类型主题的元素。
经查特定主题元素如下，共11个：
4.2.1 prism:academicField 学术领域
4.2.24 prism:event 事件
4.2.29 prism:industry 行业
4.2.42 prism:location （地理）位置（=dcterms:spatial 空间）
4.2.46 prism:object 对象（如产品）
4.2.50 prism:organization 团体
4.2.55 prism:person 个人
4.2.58 prism:profession 专业
4.2.69 prism:sport 运动
4.2.83 prism:ticker 投票代号
4.2.84 prism:timePeriod 时间段（=dcterms:temporal 时间）

3、dc:/dcterm:有相应元素，prism:重新定义的例子还有如：
4.2.4 prism:alternateTitle 交替题名（=dcterms:alternative）
4.2.13 prism:corporateEntity （出版）团体实体（=dc:publisher子属性；不用于文章中提及团体即主题=prism:organization）

—– 附：PRISM使用权利元数据 —–
PRISM Usage Rights Metadata Specification, October 4, 2012
“PRISM使用权利元数据”更为专业，相比而言DC就过于宽泛了（当然DC的特征就是宽泛）：

4.4 PRISM Usage Rights Elements and Attributes
4.4.1 pur:adultContentWarning 成人内容警示
4.4.2 pur:agreement 协议（近似dcterms:license）
4.4.3 pur:copyright 版权（近似dcterms:rights）
4.4.4 pur:creditLine 新闻出处（近似dcterms:source）
4.4.5 pur:embargoDate 禁止日期
4.4.6 pur:exclusivityEndDate 独占终止日期
4.4.7 pur:expirationDate 失效日期（对比dcterms:valid）
4.4.8 pur:imageSizeRestriction 图像尺寸限制
4.4.9 pur:optionEndDate 期权终止日期
4.4.10 pur:permissions 许可（近似dcterms:license）
4.4.11 pur:restrictions 限制（近似dcterms:accessRights）
4.4.12 pur:reuseProhibited 重用禁止
4.4.13 pur:rightsAgent 权利代理者
4.4.14 pur:rightsOwner 权利所有者（=dcterms:rightsHolder）

PRISM：出版需求行业标准元数据

出版需求行业标准元数据（PRISM, Publishing Requirements for Industry Standard Metadata）相关信息摘译。

—– 维基百科：Publishing Requirements for Industry Standard Metadata —–

行业出版需求标准元数据（PRISM）规范一套XML元数据词表，用于联合、聚集、后处理和多用途内容。PRISM提供一个框架用于交换和保存内容与元数据，一个元素集合用于描述内容，一套受控词表列出用于这些元素的值。PRISM可以是XML、RDF/XML或XMP，可与都柏林核心元素结合。PRISM可视为一套XML标签，用于包含文章元数据，甚至可以标签文章内容。
PRISM符合WWW命名空间标准。PRISM命名空间是PRISM（prism:）、PRISM使用权利（pur:）、都柏林核心（dc:和dcterms:）、PRISM集成信息（pam:）和PRISM受控词表（pcv:）。PRISM结合现有行业标准如都柏林核心和XHTML以借助在出版业已有工作。只在需要时创建新元素，赋予PRISM特定命名空间。

概述：
PRISM由三个规范组成。PRISM规范本身提供对所有PRISM框架的定义；第2个规范是PRISM集成信息（PAM）方案/DTD，是供出版者用于传递内容至网站、集成者、组合者的标准格式。PAM有XML DTD和XSD，二种PAM格式均提供一个简单灵活的模型，用于传递内容和PRISM元数据。第3个、也是最新的规范，提供XML规范（XSD）用于抓取内容使用权利元数据，即“PRISM使用权利指引”，使用PRISM的使用权利命名空间中的元素，允许使用者综合抓取与转播文本与媒体内容的权利元数据。

背景：
始于1999年，IDEAlliance联盟与Linda Burman签约成立PRISM工作组，表达新兴出版者对于元数据标准的需求，方便“灵活的”内容用于搜索、数字资产管理、内容集成。自此，来自50多个IDEAlliance成员公司的个人参与该规范的开发。
PRISM工作组向所有IDEAlliance联盟成员开放，包括：Adobe Systems, Hachette Filipacchi Media, Hearst, L.A. Burman Associates, LexisNexis, The McGraw-Hill Companies, Reader’s Digest, Source Interlink Media Companies, Time Inc., The Nature Publishing Group, U.S. News & World Report。

使用与应用：
PRISM描述印刷品、联机、移动及多媒体内容的任何组成部分，包括：【注重：权利】
– 谁对内容创建、贡献、拥有权利？
– 覆盖什么位置、机构、论题、人们和/或事件，包含什么媒介，可以在什么条件下复制？
– 什么时候发布的？（覆盖日期、发帖日期、卷、期），什么时候撤消？
– 什么时候可以再发布，它出现在什么原平台？
– 如何复用？

—– IDEAlliance官方信息：PRISM Metadata Initiative —–
什么是PRISM：
PRISM是一个行业标准元数据，可用于建立有效的多频道发布解决方案。采用PRISM，出版者可创建、管理、聚合、生产、发布和重用内容。

关于PRISM元数据规范：
工作始于1999年，PRISM 1.0发布于2001年，跨媒体平台发布的PRISM 2.0发布于2008年。如今PRISM规范是三个XML发布解决方案的基础：
– PRISM聚合信息（PAM）：XML标签集，开发于2004年，设计用于封装文章供传递给内容聚合者。PAM建立于PRISM元数据字段，以XHTML编码文本。
– PRISM的Web内容聚合信息（PAMW）：XML标签集，开发于2014年，设计用于自动抓取联机文章以存档、复用及传递给内容聚合者。PAMW建立于PRISM元数据字段，以XHTML 4编码文本。
– PRISM源词表（PSV）：XML标签集，开发于2011年，设计用于编码广泛的内容，从文章到广告到图书章节。PSV基于PRISM 3.0元数据，以HTML5编码文本和富媒体内容。

—– Specifications: PRISM —–
PRISM的范围由出版者需求驱动，在于接收、追踪和传递多部分内容。其关注在于内容的附加使用，因此有关内容的外观的元数据超出了PRISM的范围。【与书目元数据的重要不同】

PRISM关注以下方面的元数据：
– 资源作为一个整体的通用描述
– 资源与其他资源的特定关系
– 依平台和分发渠道定义使用权利和许可
– 表达内嵌元数据（即在资源本身标记）

2012年后期发布3.0版，表达的出版物除文章外扩大到包括图书、博客、书刊和网站，平台除印刷品外还包括万维网、移动、平板和智能手机。增加了三个新类别（广告、图像和食谱）。

—– PRISM: Publishing Requirements for Industry Standard Metadata, Version 3.0 —–
包括6个元数据规范，后3个为Version 3.0新增

– PRISM Basic Metadata Specification, October 4, 2012
PRISM基本元数据。90个元素和特性。命名空间：prism:

– PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
都柏林核心元数据PRISM子集。复用DC/DCTerms属性23个，加prism等特性(Attribute)细化（扩展）

– PRISM Usage Rights Metadata Specification, October 4, 2012
PRISM使用权利元数据。14个元素和特性。命名空间：pur: + dc:rights

– PRISM Advertising Metadata Specification, October 4, 2012
PRISM广告元数据。命名空间：prism-ad: + 复用：
adsml-at: （AdsML Working Group，http://www.adsml.org)
gwg-at: （Ghent Work Group，http://www.gwg.org)

– The PRISM Metadata for Images Specification, October 4, 2012
PRISM图像元数据。命名空间：pmi: + 复用：
dc:
photoshop: IPTC也采用Adobe的photoshop:命名空间
Iptc4XmpExt: IPTC image specifications

– PRISM Recipe Metadata Specification, October 4, 2012
PRISM食谱元数据。命名空间：prm:

年终学术：上图学会2014年12月双月讲座

年末会议接二连三，今天上午是上海市图书馆学会2014年12月双月学术讲座。会议通知星期二下午才上网，而且用主持人Keven的说法，年会也才开过，不料人气还是很高，报名人数超过预期的50人，因此换了一个略大的会场——事实上还有没在网上报名直接就来的，所以会场坐得比较满。报告时间每人一小时，可以讲得比较从容。

秦健教授讲《数据与数据服务：图书馆服务的延伸》，认为数据服务已是美国图书馆的新常态。
– 数据服务到底可以做什么？印象中近年谈得较多的就是data curation，国内也有图书馆开始尝试，今年上图学会年会主旨报告之一殷沈琴讲的就是复旦经验《高校科学数据监护的探索与实践》。
本报告的数据服务范围更宽些，涉及服务的变化：从数据管理到数据服务、从呈现到分析、从馆藏（collection）到产品（production）。换言之，让数据“活”起来。作为实例之一，介绍Peter Leonard，耶鲁大学图书馆专职做数字人文研究的图书馆员，利用现有的工具（包括Google的Book Ngram Viewer等），为人文科学挖掘大数据集（原文链接见下）。
– 一直很困惑图书馆未来到底能做什么，如果仍停留在提供馆藏上，在去中介化的趋势下未来真的不乐观。近年逐渐升温的学科馆员、嵌入式服务等等，也是为了应对这种现状。然而，学科馆员定位似乎很尴尬，在能做什么和用户需要什么之间很难找准位置。耶鲁的例子确属于“数字人文”领域，但看起来也是图书馆员（学科馆员）能做的。
当然，要做延伸服务，最重要的是人员，还需要接受培训。就国内而言，不说图书馆领导是不是有这方面的眼光，提供培训者恐怕也难以寻觅。
– 报告谈到数据资源领域一些术语的变化，指出术语变化显示观念改变，比如从数字馆藏（digital collection）到数字数据（digital data）——雪城大学的“数字图书馆”课程已改名“数字数据基础”。如我这般原来看这些术语没有什么感觉的，现在有了另外的视角，或者也可以用Google Book Ngram分析一下这些词的变化趋势——这是有墙的。秦教授每年回国，切身感受“墙”对做研究的损害，报告中另一个例子是纽约时报关联数据，也是有墙的。

戴着Google眼镜的张甲馆长讲《大数据再定义图书馆服务导向》，从他乘坐没有方向盘的Google无人驾驶汽车的体验开始，直观说明大数据分析。
张馆长身为图书信息中心主任，报告例子中不少是高校信息办或者信息网络中心做的数据分析，很有启发。图书馆长有双重身份者还有不少（比如以前的重大、现在的厦大），为图书馆与网络中心合作提供不少方便。报告中也有图书馆的例子——解放军医学图书馆案例。
不过听完报告，对于图书馆有没有大数据，或者对现在能够获取到的数据到底能做什么，还是未能了了（抱歉，悟性不够）。

秦健教授的数据服务，张甲馆长的大数据，针对的都是新形势（或者新常态）下的图书馆服务，对大家比较有吸引力。我的《书目用RDF词表与本体概况》则比较小众，原是为上图设想把CNMARC数据发布为RDF而准备的。虽然针对的是对该主题已经有所了解的人，但自己对这个主题的知识积累不足，原来假定是小范围交流，有些问题是想共同探讨的，没想到变成了公开讲座，要面对那么多人，心里还是有点发毛。最终一个人自说自话讲得还算顺利，希望现场听众也有所收获。
PPT已经上网，请移步上图学会网站“资源”，注册登录后下载。

参见：
耶鲁的例子见今年IFLA年会文章：Peter Leonard. Mining large datasets for the humanities. IFLA WLIC : (2014).
早年黑Google的博文：Google实验室新品Books Ngram Viewer：数据的可靠性（2010年12月18日）