扩展都柏林核心:学术资源应用纲要(DC-SRAP)

2021年初,芬兰国家图书馆(NLF)提出为描述学术资源而扩展都柏林核心(DC),开发“学术资源应用纲要”(SRAP或DC-SRAP)。

NLF的理由是:DC常用于描述学位论文和高等教育机构的其他资源,用于存储并通过其机构存储库提供。但DC元数据术语本身不包含对这些资料进行简单描述所需的所有核心元数据元素,因此出现了不同的本地扩展。由此产生的负面影响包括:为相同目的开发多个模型所涉及的重复工作,工具(编目和搜索、指南)需要额外的开发工作,减少了使用不同模型创建的元数据之间的语义互操作性,DC元数据术语的实用性降低。为使DC成为一个更有价值的工具,促进DC用于学术著作的描述,NLF建议开发学术资源应用纲要(SRAP)。NLF认为,采用SRAP不仅将使DCMI元数据术语的扩展能够利用新增属性,完善许多现有属性的语义,而且还能减少开发其他本地学术著作的需求(Scholarly resources and Dublin Core, 2021-1-8)。建议并附上了SRAP草案(目前是2021-07-19的版本0.76)【访问Google文档

SRAP主要开发者是2位NLF的DCMI成员Juha Hakala和Osma Suominen。日前在GitHub上放出了新的SRAP草案:

都柏林核心元数据倡议学术资源应用纲要(2022-10-6 草案)

Dublin Core Metadata Initiative Scholarly Resources Application Profile (SRAP) (Draft 2022-10-06)

当前版本针对学术论文、学位论文等,暂不包括研究数据,但有相关代码、相关数据集等属性。学术论文,增加了编者、资助者、资助号,发布状态(公开草案、预印本、印后本、出版、更新出版)及相关日期(如手稿收到日期、撤回日期等),呈现于(会议)等;学位论文,增加了隶属关系、导师、评审者、答辩主持人等。

新增属性除扩展DC外,还有来自现有词表:

Affiliation 隶属关系,schema.org属性https://schema.org/affiliation

Date retracted 撤回日期,Fabio元数据术语http://purl.org/spar/fabio/hasRetractionDate

以及MARC21关系词(MARC relator)

Editor 编者:https://id.loc.gov/vocabulary/relators/edt

Funder 资助者:https://id.loc.gov/vocabulary/relators/fnd

Degree supervisor 学位导师:http://id.loc.gov/vocabulary/relators/dgs

Opponent 评审者:http://id.loc.gov/vocabulary/relators/opn

Praeses 主持人/答辩主席:http://id.loc.gov/vocabulary/relators/pra

然而,美国国会图书馆(LC)的MARC 21关系词属于责任者(creator / contributor)的角色,在定义上是SKOS概念(名词)、用于取值(宾语),并非属性(动词、谓语)。Karen Coyle在BIBFRAME邮件组提出“LC关系词作为属性”的问题(LoC Relators as Properties),其中特别提到RDA将关系词定义为“行为者”属性【新RDA将原“关系说明语”改为“属性”】,瑞典国家图书馆也基于LC关系词创建相应的属性列表。从讨论看,大家都赞同将关系词作为属性;但LC在BIBFRAME实现中仍使用关系词作为角色概念。

[update 2022-12-5] LC的Kevin Ford于12月2日在邮件组中回复,说明LC同时声明关系词为取值和属性,但属性声明由于不明原因删除,现已恢复。

对回复邮件的理解后简述如下(含个人理解,不保证符合原意):

约2017年,LC和DCMI把[行为者]关系词映射到dc:contributor[作为下位属性]。2010年LC发布关联数据服务ID.loc.gov,关系词同时发布为取值[MADS规范+SKOS概念]与属性[RDF+OWL],但不知何时属性声明被误删、现已恢复。LC作过测试,认为既作为名词[主语/宾语=取值]也作为动词[谓语=属性]没有问题。BF的关系词由1.0属性到2.x变为对象(间接方法),主要原因是可以对关系做更多陈述,如同schema.org引入角色[作为对象](可以连接不同属性)。对于LC双重定义的资源,[是作为取值还是作为属性],社区可以各取所需。

TAP规范:表格式应用配置文件(DCMI开发中)

RDA测试版网站今晚(北京时间明早8点)将切换为官方正式版。新RDA的众多变化之一是取消核心元素,官方说明使用者可以使用应用配置文件/应用纲要(application profile,简称AP)作出规定。PCC成立了元数据应用配置文件(MAP)任务组,年初RDA官方的培训资料中给出了电子表格形式的LC/PCC应用配置文件的样例。未来各方都将制定自己的RDA应用配置文件。

正当此时,看到DCMI将在12月17日召开一个非正式的公开会议网会,讨论开发中的规范——表格式应用配置文件(Tabular Application Profile,简称TAP),即表格形式的AP。本规范目前包含12个元素,支持实体描述、属性列表、基数规则和值规则。12个元素【可分为三部分/与入门手册不尽一致】:

  • 一、形状【实体】shapeID,shapeLabel
  • 二、属性 propertyID、propertyLabel、mandatory(必备)、repeatable(可重复)、note(附注)
  • 三、取值【三元组的客体】 valueNodeType(节点类型:IRI或文字)、valueDataType(数据类型:通常为xsd:)、valueConstraint(取值限制/进行中)、valueConstraintType(取值限制类型/进行中)、valueShape【实体】

目前未解决的问题包括:单元格中多值表示、命名空间声明放在哪里、单元格中使用引号、开放图与闭合图。

via [BIBFRAME邮件组]:Open Meeting December 17 16:00 UTC, DC Application Profiles / Karen Coyle (2020-12-13) 

参见:新RDA培训资料摘要(2020-2-2)

LC/PCC应用纲要(电子表)7栏目:1标签定义域(WEMI等),2VES通用需求(必备性),3条件需求(有则必备),4可重复性,5记录方法(结构化、非结构化、ID、IRI,6SES(MARC书目:字段-子字段),7备注