不列颠图书馆之馆藏元数据战略2015-2018

不列颠图书馆(British Library,BL)11月23日发布《解锁价值:不列颠图书馆之馆藏元数据战略 2015-2018》。
Unlocking the Value – The British Library’s Collection Metadata Strategy, 2015-2018

本战略充满企业管理术语:资产、价值、潜在价值,治理、商业利益,投资、投资回报,效率、优先级等(不由得联想到数十年前就经营得相当不错的BL外借部;似乎BL也是最早——如果不是唯一——馆长称Chief Executive的)。
本战略的核心目标:转变馆藏元数据,由被动的副产品主动的使能者,提供更大的效率、互操作性和实用性(enabler“使能者”,据说最近也是相当流行——题外话:即将举行的上海图书馆学会2015年会,标题:图书馆:变革时代的使能者
馆藏元数据的三个优先级,可以抽出三个关键词:效率、投资回报、开放

本战略附《馆藏元数据战略路线图 2015-2018》(Collection Metadata Strategy Roadmap, 2015-2018),初看感觉是把N维化成了平面表,实际上就是年份的二维表,但可视化做得相当好:
9个方面:标准,许可和权利管理,元数据管理,处理效率,沟通,保存、维护和强化,开放元数据,发现和传递,技术基础架构;
4种类别:活动、评估、里程碑、成果,包罗在2015-2018年间要做的数十项工作;
最终在2020年达到2个结果:统一且标准化的元数据管理基础架构,提供综合性开放元数据服务。

前面所引都是关键词。浅显的理解是:馆藏元数据的价值在于广泛取用而非金屋藏娇。为达到此目的,需要从上述各方面开展工作。

———摘要(p.2)———
“我们的愿景是,到2020年,本馆的馆藏元数据资产将是综合、清晰、权威且可持续的,解锁其全部价值,用于改进内容管理、更多协作和馆藏的更广泛使用。”
馆藏元数据是一个涵盖性术语,指元数据,应用于:管理、获取、保存和描述馆藏。本文件联合本馆的馆藏元数据活动的战略讨论,确认必要的基本原则、优先级和治理结构,可以通过改进我们元数据资产的管理,提供更广泛的商业利益,支持传递我们的核心宗旨和方案。
馆藏元数据既是代表数世纪的人年投资的关键资产,也是潜在的当前运作和未来发展的使能者。但是,除了其对众多利益相关者的战略重要性,馆藏元数据对服务改进和强化馆藏管理的潜在价值,仍有待开发。
本馆藏元数据战略确认开始解锁我们馆藏元数据中潜在价值所需的主要优先级。核心目标将是其转变,由被动的副产品到主动的使能者,提供更大的效率、互操作性和实用性。
战略优先级是:
推动在馆藏元数据创建、管理和开发中的效率,以支持传递本馆的的战略优先级和方案
改进本馆在其馆藏元数据资产中的投资回报,通过确保其长期价值为未来活动而维护
开放更多本馆的馆藏元数据,以改进对图书馆内容的访问,促进更广泛的重用
本战略也包括管理本优先级的实施所需的治理与测度,以及在此期间的高层目标。由于快速进化的运作环境,实施细节将由每一财政年的年度计划覆盖,由同期本馆的优先级确定。

via 台湾……编目园地:大英圖書館公布館藏詮釋資料策略(2015-11-25 )
不列颠图书馆新闻:British Library publishes Collection Metadata Strategy (2015-10-23)

BNB用RDF词表《不列颠图书馆术语》

小河尘在书社会中详细介绍英国国家书目关联数据的方方面面([学习笔记]关联书目数据系列之BNB Free Data,2015-1-6),文后参考文献又提供了进一步信息。

博文开首是BNB的数据模型与词汇表。BNB复用了很多已有词表和本体,大致可分为四个方面:
(书目描述)DC、BIBO、ISBD
(名称规范)FOAF、Bio、Org、RDA第2组元素(OMG版)
(主题规范等)SKOS、Event Ontology、WGS84 Geo Positioning
(基础标准)OWL、RDFS
对上述词表没有覆盖的部分,不列颠图书馆发布了自己的“不列颠图书馆术语”(British Library Terms,blt:)。顺博文链接去Schemas at the British Library,把其中的blt:细细看了一篇。

British Library Terms RDF schema v.1.4.1 (2013-10-03)
和其他书目词表/本体不同的是,把出版作为一个事件(类),而不是资源的一个属性。

类(概念、事件、组、词表)
– Concept 概念(分类/主题)
— TopicDDC(DDC号)
— TopicLCSH
— PersonConcept(个人概念)
— FamilyConcept(家族概念)
— OrganizationConcept(机构概念)
— PlaceConcept(地点概念)
– Event 事件(事件本体 event:)
— PublicationEvent(出版)
— PublicationEventEnd
— PublicationEventStart
– Group 组(FOAF)
— Family(家族)
– Vocabulary 词表

对象属性(创作/贡献、出版开始/结束)
– hasContributedTo(反向dct:contributor)
– hasCreated(反向dct:creator)
– publication
— publicationEnd
— publicationStart

数据属性(BNB号)
– identifier(dct:identifier)
— bnb(BNB号)

PRISM与都柏林核心元数据

都柏林核心(DC)不但得到很多数字图书馆或近年的关联数据项目采用,还被很多元数据规范复用,PRISM(出版需求行业标准元数据,Publishing Requirements for Industry Standard Metadata)更是有一个子规范:都柏林核心元数据子集。
参见:PRISM:出版需求行业标准元数据

PRISM3.0版共有6个子规范,基本元数据(90个元素和特性)、都柏林核心元数据子集和使用权利元数据是通用的元数据规范。其DC子集复用23个属性,使用时可配合prism等特性(Attribute)进行细化(扩展)。

PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
3.4 PRISM Subset of Dublin Core Element and Attribute Models
3.4.1 dc:contributor
3.4.2 dc:creator
3.4.3 dc:description
3.4.4 dc:format
3.4.5 dcterms:hasFormat 格式|载体关系(反向3.4.9)
3.4.6 dcterms:hasPart 整体/部分关系(反向3.4.10)
3.4.7 dcterms:hasVersion 版本关系(反向3.4.12)
3.4.8 dc:identifier
3.4.9 dcterms:isFormatOf 格式|载体关系(反向3.4.5)
3.4.10 dcterms:isPartOf 整体/部分关系(反向3.4.6)
3.4.11 dcterms:isRequiredBy 伴随关系(反向3.4.16)
3.4.12 dcterms:isVersionOf 版本关系(反向3.4.7)
3.4.13 dc:language
3.4.14 dc:publisher
3.4.15 dc:relation
3.4.16 dcterms:requires 伴随关系(反向3.4.11)
3.4.17 dc:rights
3.4.18 dc:source
3.4.19 dcterms:source
3.4.20 dc:subject
3.4.21 dcterms:subject
3.4.22 dc:title
3.4.23 dc:type

备注(兼及DC与PRISM基本元数据的简单对照)
1、DC基本元素集(dc:),15个中缺以下2个:
(1)dc:coverage 空间或时间(当属主题范畴,见下)
(2)dc:date 日期
dcterms:有很多细化日期,比如:接收日期(dateAccepted)、递交日期(dateSubmitted)、可获得日期(available)生效日期(valid),与PRISM基本元数据中的细化日期不尽相同。
PRISM比较特别的是包括若干数据类型分别为“日期”/文本(显示)的成对日期:
4.2.12 prism:copyrightYear (图书)版权年(=dcterms:dateCopyrighted)
4.2.14 prism:coverDate 覆盖日期(期刊的日期期号,“日期”数据类型)
4.2.15 prism:coverDisplayDate 覆盖显示日期(期刊的日期期号,文本串)
4.2.16 prism:creationDate 创建日期(编辑流程内部使用)(=dcterms:created)
4.2.17 prism:dateReceived 收到日期(接收者告知出版者何时收到)
4.2.40 prism:killDate (网站)移除日期
4.2.43 prism:modificationDate 修改日期(通常内部应用)(=dcterms:modified)
4.2.47 prism:onSaleDate 销售日期(用于“日期时间”数据类型)
4.2.48 prism:onSaleDay 销售日(出版物新一期通常零售日-星期几)
4.2.49 prism:offSaleDate (期刊零售)下架日(格式:ccyy-mm-dd)
4.2.59 prism:publicationDate 出版日期(印刷出版物截止日期、数字内容贴出日期,“日期”数据类型)(=dcterms:issued)
4.2.60 prism:publicationDisplayDate 出版显示日期(印刷出版物截止日期、数字内容贴出日期,文本串)

2、DC元数据术语(dcterms),55个中复用10个:
(1)来源:dc:source + dcterms:source
未来将用dcterms:取代dc:

(2-9)关系(dc:relation的细化),4种双向8个:整体/部分、伴随、版本、格式|载体(如上)
dcterms另有3组不属于PRISM子集的关系:替代(replaces/isReplacedBy)、参照(references/isReferencedBy)和需求(requires/isRequiredBy)。
而PRISM基本元数据中也有另外2组不同的关系:
4.2.26 prism:hasAlternative 有交替(资源)(dcterms:hasFormat,dcterms:hasVersion的上位属性)
4.2.30 prism:isAlternativeOf 是交替(资源)(反向hasAlternative:dcterms:isFormatOf,dcterms:isVersionOf的上位属性)
4.2.28 prism:hasTranslation 有译本
4.2.38 prism:isTranslationOf 是译本

(10)主题:dc:subject + dcterms:subject
与“来源”将以dcterms:取代dc:不同:dcterms:取值为URI;而dc:则建议由受控词表取值,另可用作多个主题的容器。建议优先使用PRISM基本元数据中针对特定类型主题的元素。
经查特定主题元素如下,共11个:
4.2.1 prism:academicField 学术领域
4.2.24 prism:event 事件
4.2.29 prism:industry 行业
4.2.42 prism:location (地理)位置(=dcterms:spatial 空间)
4.2.46 prism:object 对象(如产品)
4.2.50 prism:organization 团体
4.2.55 prism:person 个人
4.2.58 prism:profession 专业
4.2.69 prism:sport 运动
4.2.83 prism:ticker 投票代号
4.2.84 prism:timePeriod 时间段(=dcterms:temporal 时间)

3、dc:/dcterm:有相应元素,prism:重新定义的例子还有如:
4.2.4 prism:alternateTitle 交替题名(=dcterms:alternative)
4.2.13 prism:corporateEntity (出版)团体实体(=dc:publisher子属性;不用于文章中提及团体即主题=prism:organization)

—– 附:PRISM使用权利元数据 —–
PRISM Usage Rights Metadata Specification, October 4, 2012
“PRISM使用权利元数据”更为专业,相比而言DC就过于宽泛了(当然DC的特征就是宽泛):

4.4 PRISM Usage Rights Elements and Attributes
4.4.1 pur:adultContentWarning 成人内容警示
4.4.2 pur:agreement 协议(近似dcterms:license)
4.4.3 pur:copyright 版权(近似dcterms:rights)
4.4.4 pur:creditLine 新闻出处(近似dcterms:source)
4.4.5 pur:embargoDate 禁止日期
4.4.6 pur:exclusivityEndDate 独占终止日期
4.4.7 pur:expirationDate 失效日期(对比dcterms:valid)
4.4.8 pur:imageSizeRestriction 图像尺寸限制
4.4.9 pur:optionEndDate 期权终止日期
4.4.10 pur:permissions 许可(近似dcterms:license)
4.4.11 pur:restrictions 限制(近似dcterms:accessRights)
4.4.12 pur:reuseProhibited 重用禁止
4.4.13 pur:rightsAgent 权利代理者
4.4.14 pur:rightsOwner 权利所有者(=dcterms:rightsHolder)