PRISM:出版需求行业标准元数据

出版需求行业标准元数据(PRISM, Publishing Requirements for Industry Standard Metadata)相关信息摘译。

—– 维基百科:Publishing Requirements for Industry Standard Metadata —–

行业出版需求标准元数据(PRISM)规范一套XML元数据词表,用于联合、聚集、后处理和多用途内容。PRISM提供一个框架用于交换和保存内容与元数据,一个元素集合用于描述内容,一套受控词表列出用于这些元素的值。PRISM可以是XML、RDF/XML或XMP,可与都柏林核心元素结合。PRISM可视为一套XML标签,用于包含文章元数据,甚至可以标签文章内容。
PRISM符合WWW命名空间标准。PRISM命名空间是PRISM(prism:)、PRISM使用权利(pur:)、都柏林核心(dc:和dcterms:)、PRISM集成信息(pam:)和PRISM受控词表(pcv:)。PRISM结合现有行业标准如都柏林核心和XHTML以借助在出版业已有工作。只在需要时创建新元素,赋予PRISM特定命名空间。

概述:
PRISM由三个规范组成。PRISM规范本身提供对所有PRISM框架的定义;第2个规范是PRISM集成信息(PAM)方案/DTD,是供出版者用于传递内容至网站、集成者、组合者的标准格式。PAM有XML DTD和XSD,二种PAM格式均提供一个简单灵活的模型,用于传递内容和PRISM元数据。第3个、也是最新的规范,提供XML规范(XSD)用于抓取内容使用权利元数据,即“PRISM使用权利指引”,使用PRISM的使用权利命名空间中的元素,允许使用者综合抓取与转播文本与媒体内容的权利元数据。

背景:
始于1999年,IDEAlliance联盟与Linda Burman签约成立PRISM工作组,表达新兴出版者对于元数据标准的需求,方便“灵活的”内容用于搜索、数字资产管理、内容集成。自此,来自50多个IDEAlliance成员公司的个人参与该规范的开发。
PRISM工作组向所有IDEAlliance联盟成员开放,包括:Adobe Systems, Hachette Filipacchi Media, Hearst, L.A. Burman Associates, LexisNexis, The McGraw-Hill Companies, Reader’s Digest, Source Interlink Media Companies, Time Inc., The Nature Publishing Group, U.S. News & World Report。

使用与应用:
PRISM描述印刷品、联机、移动及多媒体内容的任何组成部分,包括:【注重:权利】
– 谁对内容创建、贡献、拥有权利?
– 覆盖什么位置、机构、论题、人们和/或事件,包含什么媒介,可以在什么条件下复制?
– 什么时候发布的?(覆盖日期、发帖日期、卷、期),什么时候撤消?
– 什么时候可以再发布,它出现在什么原平台?
– 如何复用?

—– IDEAlliance官方信息:PRISM Metadata Initiative —–
什么是PRISM:
PRISM是一个行业标准元数据,可用于建立有效的多频道发布解决方案。采用PRISM,出版者可创建、管理、聚合、生产、发布和重用内容。

关于PRISM元数据规范:
工作始于1999年,PRISM 1.0发布于2001年,跨媒体平台发布的PRISM 2.0发布于2008年。如今PRISM规范是三个XML发布解决方案的基础:
– PRISM聚合信息(PAM):XML标签集,开发于2004年,设计用于封装文章供传递给内容聚合者。PAM建立于PRISM元数据字段,以XHTML编码文本。
– PRISM的Web内容聚合信息(PAMW):XML标签集,开发于2014年,设计用于自动抓取联机文章以存档、复用及传递给内容聚合者。PAMW建立于PRISM元数据字段,以XHTML 4编码文本。
– PRISM源词表(PSV):XML标签集,开发于2011年,设计用于编码广泛的内容,从文章到广告到图书章节。PSV基于PRISM 3.0元数据,以HTML5编码文本和富媒体内容。

—– Specifications: PRISM —–
PRISM的范围由出版者需求驱动,在于接收、追踪和传递多部分内容。其关注在于内容的附加使用,因此有关内容的外观的元数据超出了PRISM的范围。【与书目元数据的重要不同】

PRISM关注以下方面的元数据:
– 资源作为一个整体的通用描述
– 资源与其他资源的特定关系
– 依平台和分发渠道定义使用权利和许可
– 表达内嵌元数据(即在资源本身标记)

2012年后期发布3.0版,表达的出版物除文章外扩大到包括图书、博客、书刊和网站,平台除印刷品外还包括万维网、移动、平板和智能手机。增加了三个新类别(广告、图像和食谱)。

—– PRISM: Publishing Requirements for Industry Standard Metadata, Version 3.0 —–
包括6个元数据规范,后3个为Version 3.0新增

– PRISM Basic Metadata Specification, October 4, 2012
PRISM基本元数据。90个元素和特性。命名空间:prism:

– PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
都柏林核心元数据PRISM子集。复用DC/DCTerms属性23个,加prism等特性(Attribute)细化(扩展)

– PRISM Usage Rights Metadata Specification, October 4, 2012
PRISM使用权利元数据。14个元素和特性。命名空间:pur: + dc:rights

– PRISM Advertising Metadata Specification, October 4, 2012
PRISM广告元数据。命名空间:prism-ad: + 复用:
adsml-at: (AdsML Working Group,http://www.adsml.org)
gwg-at: (Ghent Work Group,http://www.gwg.org)

– The PRISM Metadata for Images Specification, October 4, 2012
PRISM图像元数据。命名空间:pmi: + 复用:
dc:
photoshop: IPTC也采用Adobe的photoshop:命名空间
Iptc4XmpExt: IPTC image specifications

– PRISM Recipe Metadata Specification, October 4, 2012
PRISM食谱元数据。命名空间:prm:

美国国会图书馆推荐格式规范(2014-2015)

美国国会图书馆(LC)日前推出《美国国会图书馆推荐格式规范(2014-2015)》(Library of Congress Recommended Format Specifications 2014-2015)。看标题直觉这类规范是针对数字资源的,没有想到竟然也包含印刷形式。看后觉得对印制品(书刊与照片)确实也有必要作出规定,LC或也由此表明对传统与数字的同等重视。图书馆在收藏保存或自建内容需确定格式时,本规范可以提供很好的指引。

LC的数字保存博客The Signal就此规范访谈了LC美国连续出版物采编部主任Ted Westervelt,对不少问题作了说明,见:
Recommended Format Specifications from the Library of Congress: An Interview with Ted Westervelt (June 23, 2014) by Trevor Owens

看规范导言,很深切地感受到LC的使命感:“本馆作为美国致力于国内外创作作品保存与提供访问的最重要机构,具有独特的地位;其基本目标之一是以其专业与知识,在其他机构实现其使命时提供支持与帮助”。因之此规范有两个主要目的:“其一,向LC提供内部指引,帮助馆藏资料的采访;其二,告知创作与图书馆界,确保保存与长期访问国内外创作作品的最佳实践”。
本规范从2011年开始制订。由于格式处于动态发展中,该规范将每年作评估,以与时俱进。

本规范分六个大类,其下再有若干细分:
1. Textual Works and Musical Compositions 文本和音乐作品
(1) Textual Works – Print 文本作品-印制
(2) Textual Works – Digital 文本作品-数字
(3) Textual Works – Electronic Serials 文本作品-电子连续出版物
(4) Digital Musical Compositions (score-based representations) 数字音乐作品(乐谱表示)
2. Still Image Works 静态图像作品
(1) Photographs – Print 照片-印制
(2) Photographs – Digital 照片-数码
(3) Other Graphic Images – Print 其他图像-印制
(4) Other Graphic Images – Digital 其他图像-数码
(5) Microforms 缩微品
3. Audio Works 音频作品
(1) Audio – On Tangible Medium (digital or analog) 音频-有形媒介(数字或模拟)
(2) Audio – Media-independent (digital) 音频-不依赖媒介(数字)
4. Moving Image Works 动态图像作品
(1) Motion Pictures – Digital and Physical Media 电影-数字与物理媒介
(2) Video – File-Based and Physical Media 视频-文件与物理媒介
5. Software and Electronic Gaming and Learning 软件和电子游戏与学习
6. Datasets/Databases 数据集/数据库
(1) Datasets 数据集
(2) Geospatial Data 地理空间数据
(3) Databases 数据库

择其要点笔记如下:
– 每种类型都分“首选”和“可接受”两种情况;同一内容或格式有多种选择时,再规定优先级。
– 对于文本印刷品,规定了用纸、印刷过程(优先度降序:平版印刷、数字印刷、喷墨打印)、装订、尺寸、版本(限量版、最多特性版本、彩色插图版)、完整性。——值得注意的是,“限量版”只在文本作品时优先,其他类型则以最广泛发行版本为先。
– 除文本印刷品外,都规定了元数据,通常包括:题名、创作者、创作日期、出版地、出版者/生产者/发行者,标识号(ISBN、ISSN、ISMN、ISRN、UPS、EIDR、ISAN等),联系信息;如有还可包括:作品语言,其他相关标识号(如DOI、LCCN等),版本、主题描述词、文摘。——值得注意的是,用“创作日期”而非通常的“出版/生产/发行日期”(对数字文本作品也如此)。
– 数字作品的内容与格式中,首选各种基于XML的格式
– 特别引人注目的是,数字作品的“技术措施”在“首选”与“可接受”两部分均规定“文档不能含控制数字作品访问或使用的措施(如数字版权管理或加密)”。前述访谈中,Ted Westervelt对此做了说明。另:本规范对电影“可接受”蓝光碟,博文留言指出无DRM与加密的蓝光碟少之又少。
软件等不但要求提供能够运行的平台(游戏可以是PC模拟器),还要求提供源代码及相应的编译软件——从长期保存及访问来说自然是必要的,但对其可行性存疑。

另外从规范中也了解到其他一些相关标准规范。除各种基于XML的格式外,特别有如下三种,备记于此:
NISO期刊文章标记套件(JATS, Journal Article Tag Suite (NISO Z39.96-2012):电子期刊内容格式。项目概览页
美国版权局“最佳版本说明“(Best Edition of Published Copyrighted Works for the Collections of the Library of Congress:在分类上与本规范有一定的相似性。LC有大量资料来自国内呈缴(从版权局收到),“本规范不是为了取代‘最佳版本说明’,而是加以补充,并提供更广泛的推荐集”。
美国联邦地理数据委员会(FGDC)“地理空间元数据标准”(Geospatial Metadata Standards,包括其采用的ISO标准,及其“数字地理空间元数据内容标准”(Content Standard for Digital Geospatial Metadata (CSDGM))

《Europeana数据模型入门》笔记

Europeana原来的元数据方案称为《Europeana语义元素》(Europeana Semantic Elements, ESE),基于都柏林核心(DC),将不同来源、不同格式的元数据都简化到DC这个“公分母”,其结果是源数据中原有精确信息的损失。为改变这种状况,Europeana设计了开放、跨领域、基于语义网框架的《Europeana数据模型》(Europeana Data Model, EDM)

《Europeana数据模型入门》(摘译【理解】)
来源:Europeana Data Model (EDM) Documentation 
(原文中有较多RDF图,说明采用EDM对物件进行的语义描述)

1 导论
1.3 EDM准则
区分提供者提交的智力与技术创作(关于提供者保管的一个物件的资源包[元数据])、其涉及的物件、以及可通过Web获取的该物件的数字表达。
遵循支持数据网(语义网)方法的建模原则,即没有一种固定模式只提供一种表达数据方法。EDM为通用模型,至少可在语义层部分互操作,同时数据保持其原来的表达性与丰富度。它不要求改变本地方法,尽管鼓励改变本地实践以改善数据的跨领域有用性,如采用公共获取词表(对个人、地点、主题等)。
1.4 如何阅读
URI涉及的命名空间:【2015-2-8更新:以下URI应当只是示例。根据Definition of the Europeana Data Model v5.2.4,EMD未用FOAF/VIAF/rdaGr2】
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix dc: <http://purl.org/dc/elements/1.1> .
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix ore: <http://www.openarchives.org/ore/terms/> .
@prefix edm: <http://www.europeana.eu/schemas/edm/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix viaf: <http://viaf.org/viaf/> .
@prefix rdaGr2: <http://RDVocab.info/ElementsGr2/> .

2 EDM需求与设计原则提示
需求:
– R1. 区分被提供的物件与其数字表达
– R2. 区分物件与描述物件的元数据记录
– R3. 同一物件允许有多条记录,包含对物件潜在冲突的说明【因为记录可能有多个来源】
– R4. 支持由其他物件组成的物件【物件分层】
– R5. 兼容不同抽象度的描述(如遵循FRBR第一组的区分)【描述分层】
– R6. 提供可被专门化的标准元数据格式
– R7. 支持情景资源,包括来自受控词表的概念
基本动机是支持不同模型的集成,这样就可以收集并通过较高层概念关联所有原始描述。三项基本设计原则:
– D1. 允许在开放环境中集成数据:不可能预期所有贡献的数据【即不强制提供的数据格式一致】
– D2. 允许丰富功能性,可能通过扩展方式
– D3. 尽可能重用现有(标准)模型

4 数据表达为集合体(aggregation)
三个核心类资源:
• 文化遗产物件本身(edm:ProvidedCHO)【即“作品”】
• 该物件的一个或多个可访问的数字表达(edm:WebResource)某些可能被用作预览图【edm:hasView】
• 表达提供者活动结果的集合体(ore:Aggregation)【“真实的”物件(由其标识表达)与其数字视图之集合】
edm:aggregatedCHO和edm:hasView为ore:Aggregation的子属性。

5 EDM中的描述元数据
EDM包括一套“描述”和“情境”属性,捕捉资源的不同特性,同时在其情境中与其他实体关联。
描述元数据的可能方法可分为“物件中心”和“事件中心”,EDM同时遵循这两种方法。EDM还有“类”可抓取“丰富数据”。
5.1 物件中心法(Object-centric approach)
专注于所描述的物件:信息以陈述形式,直接关联所描述的物件与其特性——但只是字符串或是指示来自真实世界实体的更复杂资源。采用都柏林核心的大多数元数据实践属此(如创作者、题名、创作日期、前拥有者等)。
物件中心法对附于物件或事件的资源,并不指明特定的“语义丰富性”级别。
5.2 情景实体-更丰富的元数据(Contextual entities – richer metadata)【类】
描述元数据的某些值不关联到物件,而是关联到描述中的另一资源。如有关创作者的进一步细节——如其生卒地点与日期。在EDM中,这样的信息可使用表达创作者本人的实体来捕获。为支持对此种语义丰富的建模,并支持进一步丰富,EDM具有表达“情景”实体的“类”:
– edm:Agent 代理,用于代表个人或组织
– edm:Event 事件
– edm:Place 地点,用于空间实体
– edm:TimeSpan 时间范围,用于时间段或日期
– skos:Concept 概念,对来自如叙词表、分类法(包括某些地名辞典或个人规范档)……的知识组织体系的所有实体
5.3 事件中心法(Event-centric approach)
事件中心法认为物件描述应当关注描绘物件参与的不同事件,通过表达构成物件历史的事件,将导致建立更丰富的实体网络。此法基于CIDOC-CRM模型。
在EDM中使用三个属性表达:
– edm:wasPresentAt 参与事件的资源
– edm:happenedAt 事件发生的场所
– edm:occurredAt 事件与发生的时段
5.4 灵活的数据模型(EDM as a flexible data model)
确保语义层互操作的关键是映射,遵循语义网框架内的共同实践。
需要把专指属性映射到一个语义互操作核心,确保通用工具能利用至少部分语义。这种映射在RDF中典型地通过维护专指构建与核心构建间的语义关系来达到。
通用与专指层间的同现,允许如:
– 使用基于通用描述的索引搜索该物件【粗放索引】
– 使用由提供者制作的更精细度区别显示该物件的信息【精细显示】
这一机制事实上已经在EDM不同层的描述数据中起作用。如hasMet是指EDM中重用很多其他属性的超属性【可用于合并索引】,如创作者、贡献者、出版者。本属性将允许用户发现与某个人相关的物件,无论他们“遇到”的这个人是其主要的创作者、第二位的贡献者或是出版者。
5.5 ESE和EDM间关系
ESE所用大部分属性(DC属性)实际上构成EDM的语义互操作核心。
第一个差别是属性的使用。为兼容遗留数据及未丰富方式的数据,ESE/DC属性可用简单字符串作为值。但EDM推荐图8中首先引入的VIAF例子【即采用URI或ID】。
ESE和EDM利用同一属性方式的另一个差别是“一对一原则”的应用。ESE中,所有字段捆绑为一个记录,因之难以区分某个字段是应用于“真实世界”的物件、还是其数字表达、还是与该物件相关的任何其他实体的属性,如其创作者。而EDM允许做这种区分。

6 EDM和代理(proxies)
Europeana数据来自许多提供者,因而会有对同一资源的多个视图;此外,Europeana将试图增加对该资源的其自己数据,给出另一个视图。这些视图不会合并。在这种场合,元数据很可能不同,如同一创作者用不同名称。Europeana考虑来自ORE(对象重用与交换)模型的代理机制,可以在集合情景下表达资源,使得对同一资源有不同的视图。
6.1 代理导论
以《蒙娜丽莎》为例,有两条不同来源的记录。每个传递给Europeana的数据产生一个ore:Aggregation类的特定实例,用于组合来自同一个提供者的一个资源的所有元素。每个提供者贡献不同的数字对象集,有不同的解析度、不同的文件类型、不同的位置。
每个提供给Europeana的元数据记录也给出了所描述物件的专指代理,使用ore:Proxy资源建模。一个代理特定于一个给定的集合体,用于表达所提供物件的描述。通过代理,可能表达对所提供物件以不同的、可能冲突的信息,同时仍能追踪信息的出处。如两处《蒙娜丽莎》有不同的题名。
一个集合体对每个提供物件(CHO)只能有一个代理,因为它来自一个提供者的活动。
现阶段,如何、何时识别相同物件仍有讨论余地。如两个提供者为相同资源贡献了两个不同的URI,应采用某些识别机制在两个URI间推出owl:sameAs链接,以能“合并”资源。
6.2 Europeana代理和丰富数据(data enrichment)
Europeana为摄入的物件创建新数据,以期为用户提供更多价值。通过使用ESE格式处理标准化数据,用链接到情景实体在(词表、地名/人名规范档、主题词表)语义上丰富物件描述。这导致更丰富的功能,如提问扩展(使用创作者名称的交替形式)、使用语义关系推荐物件(关联艺术家创作的物件)等。这是关键方面,Europeana试图大规模处理这样的语义丰富,使用EDM为特定目的导入的类。
6.3 Europeana集合体和代理
Europeana集合体edm:EuropeanaAggregation是ore:Aggregation的子类,可以用来管理自己的IPR和访问限制等。
Europeana集合体采用ore:aggregates链接到所提供物件,也能集合其他资源,尤其是物件的数字表达,或使用edm:landingPage属性到其参考着陆页。关键一点是,Europeana集合体是集合关于相同物件的每个特定提供者的集合。
6.5 提供者应当提供EDM核心模式的什么部分?
期望来自提供者的最重要信息之一是区分物件本身的元数据和数字表达的元数据。
下一个问题涉及为不同物件提供URI标识符。第一个建议是提供者为网络可访问数字表达(如图片)和所提供的物件或已有永久标识的集合体提交URI。Europeana本身会注意为它创建的代理或集合体赋予或再赋予URI,它也会为所有edm:ProvidedCHO资源创建URI。【提供者和Europeana各自提供URI】
6.6 代理vs命名图(named graphs)
对于做EDM原型时,我们经常被问到为什么考虑ORE代理来表达特定资源视图,而RDF提供“命名图”的概念满足相同需求。因为命名图目前还非W3C推荐标准,但图的概念将出现在下一版RDF,到那时,Europeana当然将考虑将图放入EDM架构中。

7 高级EDM
EDM允许更复杂的表达,特别关注以下情况:
– 物件的等级
– 物件间关系,如表达作品间关系或艺术衍生
– 通过ORE资源地图明确表达数据包
本文件只表达简单的等级物件及表达链接。其他方面在未来版本详述
7.1 表达等级物件
以一幅来自荷兰的地图为例
– 用dcterms:hasPart and dcterms:isPartOf 表达包含链接
– 用edm:isNextInSequence表示物件各部分间的顺序
代理机制允许对相同物件配置多个等级视图。
7.2 物件间其他链接类型
– 两个物件描画同一地点巨石阵:
直接关联两幅图片,让用户从一个物件浏览另一个,采用Europeana目前带有十分精确信息的“进一步探索”功能,依赖于手头数据的精确程度,使用通用属性edm:isRelatedTo或(可能领域专用的)专用属性。
也可能非直接关联物件,通过说明其链接到相同资源。比如由空间覆盖判断为巨石阵(地点)
– 第二个例子是《蒙娜丽莎》的衍生作品-拼贴画,采用edm:isRelatedTo的子属性edm:isSimilarTo的专门edm:isDerivativeOf属性
Europeana还收割了一条描述《蒙娜丽莎》照片的记录,是19世纪法国摄影师所摄,采用edm:isRepresentationOf,说明这一历史图片与原画的关联

———译名说明———
(1)object=物件(正好与模型中提到的“event=事件”对应)
不采用“实物”:因为有digital object,译为“数字实物”比较奇怪,参考台湾译为“数位物件”
不采用“对象”:适应面太广、专指性不强,如“研究对象”
(2)contextual=情景
不采用“上下文”:大多数情况下并不涉及“文字”