ISO 15836:都柏林核心元数据元素集

都柏林核心元数据元素集作为ISO标准,第一部分出版于2017年,第二部分2019年12月出版。DCMI官网尚未更新信息,列出的最近更新标准有三:

ISO网站上标准是要付费的。但看介绍,内容来自官网2012年的DCMI Metadata Terms

  • 命名空间/elements/1.1/ ,包含15个核心元素(第2节),在ISO 15836-1:2017
  • 命名空间/terms/,包含属性(第3节)和类(第6节),在ISO 15836-2:2019
  • 后者也包含15个核心元素,但/terms/命名空间中的元素规定了定义域和值域,因而语义较窄。
  • ISO 15836不包括DCMI Metadata Terms的第4节词表编码体系(Vocabulary Encoding Schemes,VES)、第5节语法编码体系(Syntax Encoding Schemes,SES)、第7节类型词表(DCMI Type Vocabulary)和第8节与DCMI抽象模型相关的术语。
  • ISO 15836中的元素、属性和类都有URI,可用于关联数据

DC的属性包括核心元素和以前归在扩展或限定的元素。近年看到采用DC属性的研究/应用,也许是因为属性基本上没有规定定义域,所以少见采用相应类。以下将“类”粗略分组列出(缩进为下位类或实例,括号内为对应属性,标*者无对应属性):

BibliographicResource*,PhysicalResource*

AgentClass(audience,educationLevel,mediator值域)

  • Agent(实例)(contributor,creator,publisher,rightsHolder值域)

LocationPeriodOrJurisdiction(coverage值域)

  • Jurisdiction*
  • Location(spatial值域)
  • PeriodOfTime(temporal值域)

MediaTypeOrExtent(format值域)

  • MediaType
    • FileFormat*
    • PhysicalMedium(medium值域)
  • SizeOrDuration(extent值域)

Frequency(accrualPeriodicity值域),MethodOfAccrual(accrualMethod值域),Policy(accrualPolicy值域)

LicenseDocument(licence值域),RightsStatement(rights,accessRights值域),ProvenanceStatement(provenance值域)

LinguisticSystem(language值域),MethodOfInstruction(instructionalMethod值域),Standard(conformsTo值域)

OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

OCLC的网站存档元数据(WAM)工作组2016年初开始工作。在与国际互联网保存联盟(International Internet Preservation Consortium)美国档案工作者学会网络存档部(Society of American Archivists Web Archiving Section)和互联网档案(Internet Archive)Archive-It计划的协商下完成工作,并得到很多社区的意见和反馈。2018年初发布成果,共3个出版物:建议、用户需求文献综述、网络收割工具述评。

Web Archiving Metadata Working Group 网站存档元数据工作组
* Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group 网站存档的描述性元数据:OCLC研究图书馆合作伙伴网站存档元数据工作组的建议
* Descriptive Metadata of Web Archiving: Literature Review of User Needs 网站存档的描述性元数据:用户需求文献综述
* Descriptive Metadata of Archiving: Review of Harvesting Tools 存档的描述性元数据:收割工具评述

《建议》为网站存档描述元数据的使用指南,含14个描述数据元素的定义、详细说明、举例、取值以及与其他标准的对照(DC、EAD、MARC21、MODS、Schema.org)
本元数据建议使用DC 15个基本元素中的12个:完全沿用9个,其中Contributor还用于Collector,Description还用于Source of description(泛指用于专指);名称有所变化3个(泛指用于专指):Format用于Extent,Type用于Genre/Form,Identifier用于URL)。

以下摘译自《建议》(电子版有信纸58页和A4纸54页2个版本)。

【标准,p.14/58p;数据元素(p.15/58p)】小组既评估现有标准《描述档案:内容标准》(DACS)、《资源描述和检索》(RDA)、《都柏林核心》(Dublin Core),以及编码档案描述(EAD),MARC 21和MODS(元数据对象描述规范),也抽样了解实际做法,包括WorldCat(MARC记录)、ArchiveGrid(MARC记录和检索工具)、Archive-It(都柏林核心)和发现系统中存档网站的现有描述。结果未发现新的数据元素,但某些数据元素的做法或者理解存在不一致
网站创建者/所有者:是出版者、创建者、主体还是三者?
托管机构:选择、收割和托管网站的机构是否应被视为存储库、收集者、出版者、选择者或创建者?
题名:是否应该从网站头逐字转录?编辑以澄清网站的性质/范围?是否应该拼写首字母缩略词?题名是否应包含诸如“……的网站”之类的短语?
日期:哪些日期既重要又可用于记录?网站存在的开始/结束、抓取日期、内容日期或版权日期?
数量:如何最有效地表达? 1个存档的网站、1个在线资源、6.25 GB或约300个网站?
出处(Provenance):出处是指网站的创建者、收割网站和托管网站档案的存储库、网站进化的方式、抓取的频率和日期,还是所有这些?
评估(Appraisal):评估意味着网站保证存档的原因、存储库命名的网站集合或网站的部分是否已被收割?
格式:描述是否清楚地表明资源是网站档案是不是很重要?如果是这样,在题名、数量或描述中如何最好地做到这一点?
URL:应包含哪些URL?种子、访问或登陆页面?
MARC 21记录的类型:当以MARC 21格式编码时,网站是否应被视为连续性资源、集成资源、电子资源、文本出版物、混合资料、手稿或其中任何一种,取决于具体情况?

【数据元素和使用指南(p.17/58)】14个元素及其定义(选摘对应的DC、schema.org元素)
[1] Collector 收集者:负责存档网站或集合的保管和管理的组织。(DC-contributor;schema:OwnershipInfo)
[2] Contributor 贡献者:对存档网站或集合的内容负有次要责任的组织或个人。(DC=;schema:contributor)
[3] Creator 创作者:对创建存档网站或集合的知识内容负有主要负责的组织或个人。(DC=;schema:creator)
[4] Date 日期:与存档网站或集合的生命周期中的事件关联的单个日期或日期范围。(DC=;schema:dateCreated,schema:dateModified,schema:datePublished)【DC Term另有专指时间:dateAccepted,dateCopyrighted,dateSubmitted,不太适合】
[5] Description 描述:一个或多个注释,用于解释存档网站或集合的内容、上下文和其他方面。(DC=;schema:description)
[6] Extent 范围:存档网站或集合大小的指示。(DC-format;schema:description)
[7] Genre/Form 类型/形式:指定存档网站或集合中内容类型的术语。(DC-Type;schema:genre)
[8] Language 语言:存档内容的语言,包括带有语言组件的影音资源。(DC=;schema:inLanguage)
[9] Relation 关系:用于表示单个存档网站与其所属的任何集合之间的部分/整体关系。(DC=;schema 无)
[10] Rights 权利:知识产权法或其他法律协议授予的合法权利和许可声明。(DC=;schema:license,schema:isAccessiblrForFree)【DC Term另有专指权利:accessRights, rightsHolder,类RightsStatement】
[11] Source of description 描述来源:有关收集或创建元数据本身的信息,例如数据源或获取源数据的日期。(DC-Description;schema:description,schema:disambiguatingDescription)
[12] Subject 主题:描述存档网站或集合内容的主要主题。(DC=;schema:about)
[13] Title 标题:存档网站或集合为人所知的名称。(DC=;schema:name)
[14] URL:存档网站或集合的网址。(DC-Identifier;schema:url)

P.S.:纽约艺术资源联盟(NYARC)是Archive-It项目成员,其《描述存档版网站的元数据应用纲要》(27个元素)提到OCLC的“网站存档描述元数据指南”即本建议,并有两种元数据的对照。
参见:为网站编目:《描述存档版网站的元数据应用纲要》(2018-9-9)

PRISM与都柏林核心元数据

都柏林核心(DC)不但得到很多数字图书馆或近年的关联数据项目采用,还被很多元数据规范复用,PRISM(出版需求行业标准元数据,Publishing Requirements for Industry Standard Metadata)更是有一个子规范:都柏林核心元数据子集。
参见:PRISM:出版需求行业标准元数据

PRISM3.0版共有6个子规范,基本元数据(90个元素和特性)、都柏林核心元数据子集和使用权利元数据是通用的元数据规范。其DC子集复用23个属性,使用时可配合prism等特性(Attribute)进行细化(扩展)。

PRISM Subset of the Dublin Core Metadata Specification, October 4, 2012
3.4 PRISM Subset of Dublin Core Element and Attribute Models
3.4.1 dc:contributor
3.4.2 dc:creator
3.4.3 dc:description
3.4.4 dc:format
3.4.5 dcterms:hasFormat 格式|载体关系(反向3.4.9)
3.4.6 dcterms:hasPart 整体/部分关系(反向3.4.10)
3.4.7 dcterms:hasVersion 版本关系(反向3.4.12)
3.4.8 dc:identifier
3.4.9 dcterms:isFormatOf 格式|载体关系(反向3.4.5)
3.4.10 dcterms:isPartOf 整体/部分关系(反向3.4.6)
3.4.11 dcterms:isRequiredBy 伴随关系(反向3.4.16)
3.4.12 dcterms:isVersionOf 版本关系(反向3.4.7)
3.4.13 dc:language
3.4.14 dc:publisher
3.4.15 dc:relation
3.4.16 dcterms:requires 伴随关系(反向3.4.11)
3.4.17 dc:rights
3.4.18 dc:source
3.4.19 dcterms:source
3.4.20 dc:subject
3.4.21 dcterms:subject
3.4.22 dc:title
3.4.23 dc:type

备注(兼及DC与PRISM基本元数据的简单对照)
1、DC基本元素集(dc:),15个中缺以下2个:
(1)dc:coverage 空间或时间(当属主题范畴,见下)
(2)dc:date 日期
dcterms:有很多细化日期,比如:接收日期(dateAccepted)、递交日期(dateSubmitted)、可获得日期(available)生效日期(valid),与PRISM基本元数据中的细化日期不尽相同。
PRISM比较特别的是包括若干数据类型分别为“日期”/文本(显示)的成对日期:
4.2.12 prism:copyrightYear (图书)版权年(=dcterms:dateCopyrighted)
4.2.14 prism:coverDate 覆盖日期(期刊的日期期号,“日期”数据类型)
4.2.15 prism:coverDisplayDate 覆盖显示日期(期刊的日期期号,文本串)
4.2.16 prism:creationDate 创建日期(编辑流程内部使用)(=dcterms:created)
4.2.17 prism:dateReceived 收到日期(接收者告知出版者何时收到)
4.2.40 prism:killDate (网站)移除日期
4.2.43 prism:modificationDate 修改日期(通常内部应用)(=dcterms:modified)
4.2.47 prism:onSaleDate 销售日期(用于“日期时间”数据类型)
4.2.48 prism:onSaleDay 销售日(出版物新一期通常零售日-星期几)
4.2.49 prism:offSaleDate (期刊零售)下架日(格式:ccyy-mm-dd)
4.2.59 prism:publicationDate 出版日期(印刷出版物截止日期、数字内容贴出日期,“日期”数据类型)(=dcterms:issued)
4.2.60 prism:publicationDisplayDate 出版显示日期(印刷出版物截止日期、数字内容贴出日期,文本串)

2、DC元数据术语(dcterms),55个中复用10个:
(1)来源:dc:source + dcterms:source
未来将用dcterms:取代dc:

(2-9)关系(dc:relation的细化),4种双向8个:整体/部分、伴随、版本、格式|载体(如上)
dcterms另有3组不属于PRISM子集的关系:替代(replaces/isReplacedBy)、参照(references/isReferencedBy)和需求(requires/isRequiredBy)。
而PRISM基本元数据中也有另外2组不同的关系:
4.2.26 prism:hasAlternative 有交替(资源)(dcterms:hasFormat,dcterms:hasVersion的上位属性)
4.2.30 prism:isAlternativeOf 是交替(资源)(反向hasAlternative:dcterms:isFormatOf,dcterms:isVersionOf的上位属性)
4.2.28 prism:hasTranslation 有译本
4.2.38 prism:isTranslationOf 是译本

(10)主题:dc:subject + dcterms:subject
与“来源”将以dcterms:取代dc:不同:dcterms:取值为URI;而dc:则建议由受控词表取值,另可用作多个主题的容器。建议优先使用PRISM基本元数据中针对特定类型主题的元素。
经查特定主题元素如下,共11个:
4.2.1 prism:academicField 学术领域
4.2.24 prism:event 事件
4.2.29 prism:industry 行业
4.2.42 prism:location (地理)位置(=dcterms:spatial 空间)
4.2.46 prism:object 对象(如产品)
4.2.50 prism:organization 团体
4.2.55 prism:person 个人
4.2.58 prism:profession 专业
4.2.69 prism:sport 运动
4.2.83 prism:ticker 投票代号
4.2.84 prism:timePeriod 时间段(=dcterms:temporal 时间)

3、dc:/dcterm:有相应元素,prism:重新定义的例子还有如:
4.2.4 prism:alternateTitle 交替题名(=dcterms:alternative)
4.2.13 prism:corporateEntity (出版)团体实体(=dc:publisher子属性;不用于文章中提及团体即主题=prism:organization)

—– 附:PRISM使用权利元数据 —–
PRISM Usage Rights Metadata Specification, October 4, 2012
“PRISM使用权利元数据”更为专业,相比而言DC就过于宽泛了(当然DC的特征就是宽泛):

4.4 PRISM Usage Rights Elements and Attributes
4.4.1 pur:adultContentWarning 成人内容警示
4.4.2 pur:agreement 协议(近似dcterms:license)
4.4.3 pur:copyright 版权(近似dcterms:rights)
4.4.4 pur:creditLine 新闻出处(近似dcterms:source)
4.4.5 pur:embargoDate 禁止日期
4.4.6 pur:exclusivityEndDate 独占终止日期
4.4.7 pur:expirationDate 失效日期(对比dcterms:valid)
4.4.8 pur:imageSizeRestriction 图像尺寸限制
4.4.9 pur:optionEndDate 期权终止日期
4.4.10 pur:permissions 许可(近似dcterms:license)
4.4.11 pur:restrictions 限制(近似dcterms:accessRights)
4.4.12 pur:reuseProhibited 重用禁止
4.4.13 pur:rightsAgent 权利代理者
4.4.14 pur:rightsOwner 权利所有者(=dcterms:rightsHolder)