扩展都柏林核心:学术资源应用纲要(DC-SRAP)

2021年初,芬兰国家图书馆(NLF)提出为描述学术资源而扩展都柏林核心(DC),开发“学术资源应用纲要”(SRAP或DC-SRAP)。

NLF的理由是:DC常用于描述学位论文和高等教育机构的其他资源,用于存储并通过其机构存储库提供。但DC元数据术语本身不包含对这些资料进行简单描述所需的所有核心元数据元素,因此出现了不同的本地扩展。由此产生的负面影响包括:为相同目的开发多个模型所涉及的重复工作,工具(编目和搜索、指南)需要额外的开发工作,减少了使用不同模型创建的元数据之间的语义互操作性,DC元数据术语的实用性降低。为使DC成为一个更有价值的工具,促进DC用于学术著作的描述,NLF建议开发学术资源应用纲要(SRAP)。NLF认为,采用SRAP不仅将使DCMI元数据术语的扩展能够利用新增属性,完善许多现有属性的语义,而且还能减少开发其他本地学术著作的需求(Scholarly resources and Dublin Core, 2021-1-8)。建议并附上了SRAP草案(目前是2021-07-19的版本0.76)【访问Google文档

SRAP主要开发者是2位NLF的DCMI成员Juha Hakala和Osma Suominen。日前在GitHub上放出了新的SRAP草案:

都柏林核心元数据倡议学术资源应用纲要(2022-10-6 草案)

Dublin Core Metadata Initiative Scholarly Resources Application Profile (SRAP) (Draft 2022-10-06)

当前版本针对学术论文、学位论文等,暂不包括研究数据,但有相关代码、相关数据集等属性。学术论文,增加了编者、资助者、资助号,发布状态(公开草案、预印本、印后本、出版、更新出版)及相关日期(如手稿收到日期、撤回日期等),呈现于(会议)等;学位论文,增加了隶属关系、导师、评审者、答辩主持人等。

新增属性除扩展DC外,还有来自现有词表:

Affiliation 隶属关系,schema.org属性https://schema.org/affiliation

Date retracted 撤回日期,Fabio元数据术语http://purl.org/spar/fabio/hasRetractionDate

以及MARC21关系词(MARC relator)

Editor 编者:https://id.loc.gov/vocabulary/relators/edt

Funder 资助者:https://id.loc.gov/vocabulary/relators/fnd

Degree supervisor 学位导师:http://id.loc.gov/vocabulary/relators/dgs

Opponent 评审者:http://id.loc.gov/vocabulary/relators/opn

Praeses 主持人/答辩主席:http://id.loc.gov/vocabulary/relators/pra

然而,美国国会图书馆(LC)的MARC 21关系词属于责任者(creator / contributor)的角色,在定义上是SKOS概念(名词)、用于取值(宾语),并非属性(动词、谓语)。Karen Coyle在BIBFRAME邮件组提出“LC关系词作为属性”的问题(LoC Relators as Properties),其中特别提到RDA将关系词定义为“行为者”属性【新RDA将原“关系说明语”改为“属性”】,瑞典国家图书馆也基于LC关系词创建相应的属性列表。从讨论看,大家都赞同将关系词作为属性;但LC在BIBFRAME实现中仍使用关系词作为角色概念。

[update 2022-12-5] LC的Kevin Ford于12月2日在邮件组中回复,说明LC同时声明关系词为取值和属性,但属性声明由于不明原因删除,现已恢复。

对回复邮件的理解后简述如下(含个人理解,不保证符合原意):

约2017年,LC和DCMI把[行为者]关系词映射到dc:contributor[作为下位属性]。2010年LC发布关联数据服务ID.loc.gov,关系词同时发布为取值[MADS规范+SKOS概念]与属性[RDF+OWL],但不知何时属性声明被误删、现已恢复。LC作过测试,认为既作为名词[主语/宾语=取值]也作为动词[谓语=属性]没有问题。BF的关系词由1.0属性到2.x变为对象(间接方法),主要原因是可以对关系做更多陈述,如同schema.org引入角色[作为对象](可以连接不同属性)。对于LC双重定义的资源,[是作为取值还是作为属性],社区可以各取所需。

ISO 15836:都柏林核心元数据元素集

都柏林核心元数据元素集作为ISO标准,第一部分出版于2017年,第二部分2019年12月出版。DCMI官网尚未更新信息,列出的最近更新标准有三:

ISO网站上标准是要付费的。但看介绍,内容来自官网2012年的DCMI Metadata Terms

  • 命名空间/elements/1.1/ ,包含15个核心元素(第2节),在ISO 15836-1:2017
  • 命名空间/terms/,包含属性(第3节)和类(第6节),在ISO 15836-2:2019
  • 后者也包含15个核心元素,但/terms/命名空间中的元素规定了定义域和值域,因而语义较窄。
  • ISO 15836不包括DCMI Metadata Terms的第4节词表编码体系(Vocabulary Encoding Schemes,VES)、第5节语法编码体系(Syntax Encoding Schemes,SES)、第7节类型词表(DCMI Type Vocabulary)和第8节与DCMI抽象模型相关的术语。
  • ISO 15836中的元素、属性和类都有URI,可用于关联数据

DC的属性包括核心元素和以前归在扩展或限定的元素。近年看到采用DC属性的研究/应用,也许是因为属性基本上没有规定定义域,所以少见采用相应类。以下将“类”粗略分组列出(缩进为下位类或实例,括号内为对应属性,标*者无对应属性):

BibliographicResource*,PhysicalResource*

AgentClass(audience,educationLevel,mediator值域)

  • Agent(实例)(contributor,creator,publisher,rightsHolder值域)

LocationPeriodOrJurisdiction(coverage值域)

  • Jurisdiction*
  • Location(spatial值域)
  • PeriodOfTime(temporal值域)

MediaTypeOrExtent(format值域)

  • MediaType
    • FileFormat*
    • PhysicalMedium(medium值域)
  • SizeOrDuration(extent值域)

Frequency(accrualPeriodicity值域),MethodOfAccrual(accrualMethod值域),Policy(accrualPolicy值域)

LicenseDocument(licence值域),RightsStatement(rights,accessRights值域),ProvenanceStatement(provenance值域)

LinguisticSystem(language值域),MethodOfInstruction(instructionalMethod值域),Standard(conformsTo值域)

OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

OCLC的网站存档元数据(WAM)工作组2016年初开始工作。在与国际互联网保存联盟(International Internet Preservation Consortium)美国档案工作者学会网络存档部(Society of American Archivists Web Archiving Section)和互联网档案(Internet Archive)Archive-It计划的协商下完成工作,并得到很多社区的意见和反馈。2018年初发布成果,共3个出版物:建议、用户需求文献综述、网络收割工具述评。

Web Archiving Metadata Working Group 网站存档元数据工作组
* Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group 网站存档的描述性元数据:OCLC研究图书馆合作伙伴网站存档元数据工作组的建议
* Descriptive Metadata of Web Archiving: Literature Review of User Needs 网站存档的描述性元数据:用户需求文献综述
* Descriptive Metadata of Archiving: Review of Harvesting Tools 存档的描述性元数据:收割工具评述

《建议》为网站存档描述元数据的使用指南,含14个描述数据元素的定义、详细说明、举例、取值以及与其他标准的对照(DC、EAD、MARC21、MODS、Schema.org)
本元数据建议使用DC 15个基本元素中的12个:完全沿用9个,其中Contributor还用于Collector,Description还用于Source of description(泛指用于专指);名称有所变化3个(泛指用于专指):Format用于Extent,Type用于Genre/Form,Identifier用于URL)。

以下摘译自《建议》(电子版有信纸58页和A4纸54页2个版本)。

【标准,p.14/58p;数据元素(p.15/58p)】小组既评估现有标准《描述档案:内容标准》(DACS)、《资源描述和检索》(RDA)、《都柏林核心》(Dublin Core),以及编码档案描述(EAD),MARC 21和MODS(元数据对象描述规范),也抽样了解实际做法,包括WorldCat(MARC记录)、ArchiveGrid(MARC记录和检索工具)、Archive-It(都柏林核心)和发现系统中存档网站的现有描述。结果未发现新的数据元素,但某些数据元素的做法或者理解存在不一致
网站创建者/所有者:是出版者、创建者、主体还是三者?
托管机构:选择、收割和托管网站的机构是否应被视为存储库、收集者、出版者、选择者或创建者?
题名:是否应该从网站头逐字转录?编辑以澄清网站的性质/范围?是否应该拼写首字母缩略词?题名是否应包含诸如“……的网站”之类的短语?
日期:哪些日期既重要又可用于记录?网站存在的开始/结束、抓取日期、内容日期或版权日期?
数量:如何最有效地表达? 1个存档的网站、1个在线资源、6.25 GB或约300个网站?
出处(Provenance):出处是指网站的创建者、收割网站和托管网站档案的存储库、网站进化的方式、抓取的频率和日期,还是所有这些?
评估(Appraisal):评估意味着网站保证存档的原因、存储库命名的网站集合或网站的部分是否已被收割?
格式:描述是否清楚地表明资源是网站档案是不是很重要?如果是这样,在题名、数量或描述中如何最好地做到这一点?
URL:应包含哪些URL?种子、访问或登陆页面?
MARC 21记录的类型:当以MARC 21格式编码时,网站是否应被视为连续性资源、集成资源、电子资源、文本出版物、混合资料、手稿或其中任何一种,取决于具体情况?

【数据元素和使用指南(p.17/58)】14个元素及其定义(选摘对应的DC、schema.org元素)
[1] Collector 收集者:负责存档网站或集合的保管和管理的组织。(DC-contributor;schema:OwnershipInfo)
[2] Contributor 贡献者:对存档网站或集合的内容负有次要责任的组织或个人。(DC=;schema:contributor)
[3] Creator 创作者:对创建存档网站或集合的知识内容负有主要负责的组织或个人。(DC=;schema:creator)
[4] Date 日期:与存档网站或集合的生命周期中的事件关联的单个日期或日期范围。(DC=;schema:dateCreated,schema:dateModified,schema:datePublished)【DC Term另有专指时间:dateAccepted,dateCopyrighted,dateSubmitted,不太适合】
[5] Description 描述:一个或多个注释,用于解释存档网站或集合的内容、上下文和其他方面。(DC=;schema:description)
[6] Extent 范围:存档网站或集合大小的指示。(DC-format;schema:description)
[7] Genre/Form 类型/形式:指定存档网站或集合中内容类型的术语。(DC-Type;schema:genre)
[8] Language 语言:存档内容的语言,包括带有语言组件的影音资源。(DC=;schema:inLanguage)
[9] Relation 关系:用于表示单个存档网站与其所属的任何集合之间的部分/整体关系。(DC=;schema 无)
[10] Rights 权利:知识产权法或其他法律协议授予的合法权利和许可声明。(DC=;schema:license,schema:isAccessiblrForFree)【DC Term另有专指权利:accessRights, rightsHolder,类RightsStatement】
[11] Source of description 描述来源:有关收集或创建元数据本身的信息,例如数据源或获取源数据的日期。(DC-Description;schema:description,schema:disambiguatingDescription)
[12] Subject 主题:描述存档网站或集合内容的主要主题。(DC=;schema:about)
[13] Title 标题:存档网站或集合为人所知的名称。(DC=;schema:name)
[14] URL:存档网站或集合的网址。(DC-Identifier;schema:url)

P.S.:纽约艺术资源联盟(NYARC)是Archive-It项目成员,其《描述存档版网站的元数据应用纲要》(27个元素)提到OCLC的“网站存档描述元数据指南”即本建议,并有两种元数据的对照。
参见:为网站编目:《描述存档版网站的元数据应用纲要》(2018-9-9)