扩展都柏林核心:学术资源应用纲要(DC-SRAP)

2021年初,芬兰国家图书馆(NLF)提出为描述学术资源而扩展都柏林核心(DC),开发“学术资源应用纲要”(SRAP或DC-SRAP)。

NLF的理由是:DC常用于描述学位论文和高等教育机构的其他资源,用于存储并通过其机构存储库提供。但DC元数据术语本身不包含对这些资料进行简单描述所需的所有核心元数据元素,因此出现了不同的本地扩展。由此产生的负面影响包括:为相同目的开发多个模型所涉及的重复工作,工具(编目和搜索、指南)需要额外的开发工作,减少了使用不同模型创建的元数据之间的语义互操作性,DC元数据术语的实用性降低。为使DC成为一个更有价值的工具,促进DC用于学术著作的描述,NLF建议开发学术资源应用纲要(SRAP)。NLF认为,采用SRAP不仅将使DCMI元数据术语的扩展能够利用新增属性,完善许多现有属性的语义,而且还能减少开发其他本地学术著作的需求(Scholarly resources and Dublin Core, 2021-1-8)。建议并附上了SRAP草案(目前是2021-07-19的版本0.76)【访问Google文档

SRAP主要开发者是2位NLF的DCMI成员Juha Hakala和Osma Suominen。日前在GitHub上放出了新的SRAP草案:

都柏林核心元数据倡议学术资源应用纲要(2022-10-6 草案)

Dublin Core Metadata Initiative Scholarly Resources Application Profile (SRAP) (Draft 2022-10-06)

当前版本针对学术论文、学位论文等,暂不包括研究数据,但有相关代码、相关数据集等属性。学术论文,增加了编者、资助者、资助号,发布状态(公开草案、预印本、印后本、出版、更新出版)及相关日期(如手稿收到日期、撤回日期等),呈现于(会议)等;学位论文,增加了隶属关系、导师、评审者、答辩主持人等。

新增属性除扩展DC外,还有来自现有词表:

Affiliation 隶属关系,schema.org属性https://schema.org/affiliation

Date retracted 撤回日期,Fabio元数据术语http://purl.org/spar/fabio/hasRetractionDate

以及MARC21关系词(MARC relator)

Editor 编者:https://id.loc.gov/vocabulary/relators/edt

Funder 资助者:https://id.loc.gov/vocabulary/relators/fnd

Degree supervisor 学位导师:http://id.loc.gov/vocabulary/relators/dgs

Opponent 评审者:http://id.loc.gov/vocabulary/relators/opn

Praeses 主持人/答辩主席:http://id.loc.gov/vocabulary/relators/pra

然而,美国国会图书馆(LC)的MARC 21关系词属于责任者(creator / contributor)的角色,在定义上是SKOS概念(名词)、用于取值(宾语),并非属性(动词、谓语)。Karen Coyle在BIBFRAME邮件组提出“LC关系词作为属性”的问题(LoC Relators as Properties),其中特别提到RDA将关系词定义为“行为者”属性【新RDA将原“关系说明语”改为“属性”】,瑞典国家图书馆也基于LC关系词创建相应的属性列表。从讨论看,大家都赞同将关系词作为属性;但LC在BIBFRAME实现中仍使用关系词作为角色概念。

[update 2022-12-5] LC的Kevin Ford于12月2日在邮件组中回复,说明LC同时声明关系词为取值和属性,但属性声明由于不明原因删除,现已恢复。

对回复邮件的理解后简述如下(含个人理解,不保证符合原意):

约2017年,LC和DCMI把[行为者]关系词映射到dc:contributor[作为下位属性]。2010年LC发布关联数据服务ID.loc.gov,关系词同时发布为取值[MADS规范+SKOS概念]与属性[RDF+OWL],但不知何时属性声明被误删、现已恢复。LC作过测试,认为既作为名词[主语/宾语=取值]也作为动词[谓语=属性]没有问题。BF的关系词由1.0属性到2.x变为对象(间接方法),主要原因是可以对关系做更多陈述,如同schema.org引入角色[作为对象](可以连接不同属性)。对于LC双重定义的资源,[是作为取值还是作为属性],社区可以各取所需。

为BIBFRAME转换简化MARC格式

美国国会图书馆(LC)实施BIBFRAME已是箭在弦上,届时它将不再以MARC进行编目,代之以提供由BIBFRAME转换生成的MARC记录。为此,合作编目项目(PCC)于2022年初成立“BIBFRAME转换之MARC简化专责组”,其职责是检查LC的BIBFRAME2.0到MARC21转换程序和相关规范,据此开发一套简化的MARC字段,以准确有效支持BIBFRAME转换。年中和年末,中期报告和最终报告如期完成发布。见:

这套简化字段,在职责文件中称“瘦MARC”(Skinny MARC)。出于词义褒贬原因,小组先后考虑过一些其他术语,包括:简化MARC(simplified MARC)、基本MARC(essential MARC)BF2MARC用于BIBFRAME的MARC改编(MARC adaptation for BIBFRAME)链接MARC(linky MARC)。特别说明的是,需要与先前的“轻量级MARC”(MARC 21 LITE, 2008版)区别开来。小组称不推崇任何上述名称,但或许是出于表述简单的考虑,在最终报告中多用“BF2MARC”。

小组提出的BF到MARC字段表,称为“来自BIBFRAME的MARC描述性字段的初步曲目”(Preliminary Repertoire of MARC Descriptive Fields from BIBFRAME)。所谓“初步”,是因为提供的2个表格中,主表“MARC<-BF”只有90多个变长字段子字段(如020$a)或定长字段位置段(如008/07-10),其中还包括12个无对应的008字段位置段,实际有对应的只有80多对。副表“MARC not included”列出没有对应BIBFRAME元素的近130个子字段等(如130/240$a)。可以想见这离成品有多大距离,LC的BF/MARC转换已历多年,我原本以为据此提出一套简化MARC格式是件并不复杂的任务,如此结果真是出乎意料。

为此,最终报告概述首先指出:“我们团队认识到,当前的BIBFRAME环境还不够成熟,无法建立稳定可靠的MARC字段集以作为永久‘简化’集”。之后列举了小组工作的复杂性(摘录)【本人理解】:

  • LC 转换记录的可得性缺乏【LC没提供】
  • 同行示例的通行性缺乏【于是从开发Sinopia的[LD4]获取,但数据滞后于LC目前用的BF2.2,也没有用LC本地扩展bflc:】
  • 书目记录中罗马化的未来不确定性【LC4调查显示罗马化对图书馆运行与服务很重要,但LC更倾向于使用有限罗马化文字;亲历LC的BF到MARC转换在使用/不使用880字段间摇摆】
  • LC的BIBFRAME扩展(bflc) 的状态【主要款目在BF中没有对应物,只在扩展bflc:;BF新类Hub与240字段的关系】
  • 序列化MARC数据的不确定性【检索点1XX/6XX/7XX/8XX中不同子字段,对规范维护的影响】
  • 小组对专业格式的专业知识的限制

接着提出了9个希望PCC未来讨论的开放主题【略】

附录2,BIBFRAME到MARC 21(BF2MARC)转换原则和量规(摘录):

1、BF2MARC记录看起来将不像原生MARC【包括只带最少的ISBD标点淡化主要款目,但包含关系代码;可能用040或884字段中的代码标识转换生成的记录】

2、BF2MARC记录虽然不一定复制惯用的MARC技术或惯例,但仍应像传统MARC记录一样发挥作用,支持以下领域的基本机器和人类操作:a.提供所描述资源的明确标识;b.提供所描述资源的必要描述性细节;c.启用对书目检索点的受控检索;d.为书目检索点的存在提供合理的理由【附注】;e.启用对主题检索点的受控主题检索;f.提供足够的元数据出处以实现信任和管理。【这是小组的意见,更从涉及编目规则,LC是否认可?】

3、转换必然是一个有损的过程。BF2MARC数据的功能要求不是可以通过算法将其转换回BIBFRAME。

4、应允许并鼓励对BF2MARC记录进行后续的下游修改。

RDA社区资源计划(2022-10-17)

那天看《RSC行动计划2022-2024》(参见2022-10-16博文),发现前几年的计划中,各年均有“支持社区开发社区资源”,现仅2022年有“继续审查社区资源区域并将决策传达给用户”,以为后续各年对社区资源关注度下降。

今天看到RDA-L邮件组推送《社区资源计划》,原来反而是准备扩大社区资源的贡献范围。按计划贡献团体分成二级:一级可以直接在RDA的内容管理系统中发布内容,包括目前已经在制作政策声明、翻译RDA文本的团体;其他有兴趣的团体可以联系出版方协商相关协议,并有可能收取一次性费用。这部分内容应该更多由提供者自我审核。另一级未来使用工具包的HTML编辑器创建CR内容,没有相关费用,内容需要得到RSC批准。

RDA社区资源包括社区细化社区词表,其内容在新RDA发布后有过调整,目前英文版社区资源包括从RDA正文和附录中移出内容:1、缩写、大写、人名附加(包括头衔),入相应语言;2、构建各种字符串的原工具包中遗留的英美条款(如法律作品、音乐作品、官方通信和宗教作品的规范检索点),入英语。

本文件还对社区资源的目标和要求、质量控制、在工具包中的显示等作出了说明。全文翻译如下:

社区资源计划 Community Resources Plan / [By James Hennelly, Director of ALA Digital Reference]. 2022-10-17

在与RSC讨论RDA工具包的社区资源(CR)区域后,制定以下计划,以解决CR结构和服务。

CR目标和要求

RDA工具包中的CR区域包含符合RDA标准的内容,但仅针对社区而非国际范围。源于RSC的决定,原RDA的某些部分(与字符串编码方案相关的条款,与缩写、大写和人名相关的附录,以及某些检索点条款)针对特定的社区实践,而不是更广泛的国际需求。

工具包英文版中的社区资源区域的初始内容包括缩写、大写、人名附加以及原RDA附录中的头衔术语的解构条款。这些已被重新构建为基于特定语言的术语页面。此外,截至2021年4月发布,用于构建各种字符串的原工具包中遗留的英美条款(如法律作品、音乐作品、官方通信和宗教作品的规范检索点)被迁移到该地区。

未来,RSC和RDA工具包的出版商正在寻求向更多的群体开放社区资源空间。以下是我们在CR空间的目标——

  • CR应可用于RDA工具包订户的所有感兴趣的社区。
  • CR应充分利用现有工具包技术和能力。
  • RSC和工具包出版商将监督CR开发,包括分配管理角色,并为贡献社区和合格内容制定指南。
  • CR贡献者将负责内容的开发和维护。
  • CR贡献者必须清楚地确定内容的作者,并声明它不是官方RDA。
  • CR内容将是可搜索的,并且在搜索结果中很容易识别为CR内容。
  • CR更新将顺应RDA工具包发布时间表。

CR层级

已经可以访问工具包内容管理系统(CMS)的参与者将能够在该系统中创建CR内容,这包括通过翻译和政策声明协议访问的团体。对这一访问级别感兴趣的团体应联系James Hennelly,以协商此类协议(此选项可能会收取一次性费用)。

无法访问CMS且对协议不感兴趣的团体可以使用工具包的HTML编辑器创建可添加到CR浏览和搜索中的CR内容。此选项没有与之相关的费用,但贡献者和贡献内容必须得到RSC批准才能纳入CR。

CR质量控制

  • 必须管理发布CR文档的能力,以确保只有服务于可识别的RDA社区的适当内容托管在此区域。
  • RSC仍然需要制定在这种情况下识别社区的指南。
  • 在可能的情况下,RDA地区委员会将负责确定应纳入CR空间的团体。
  • 如果没有区域委员会,RDA开发团队和广泛社区参与官将审查为CR空间做出贡献的请求。
  • 期望CR内容符合RDA指南和条款。
  • CR贡献预计将达到工具包相同的无障碍标准(AA)。

CR显示

  • CR空间将继续像当前一样在“资源”选项卡中访问。项卡中访问。
  • CR将按主题组织,然后按作者组(见下面的模型)。【注:与目前显示不同】
    • Community refinements
      • > British library
      • > Kansalliskirjasto
      • > Library of Congress
      • > Music Library Association
      • > OTHER DOCUMENTS
    • Community vocabularies
      • > British library
      • > Kansalliskirjasto
      • > Library of Congress
      • > Music Library Association
      • > OTHER DOCUMENTS
    • “其他文档”将链接到一个登陆页面,该页面将包括在 HTML 文档编辑器中创建的文档。(请参阅下面的着陆页模型。)
      • OTHER DOCUMENTS
        • Group A
          • > Document 1
          • > Document 2
          • > Document 3
        • Group B
          • > Document 1
          • > Document 2
        • Group C
          • > Document 1
          • > Document 2

现有的英文CR

当前的英文CR内容是来自 RDA 的遗留内容。因此,RSC 不会对其进行更新。期望一个代表英语社区的团体能够掌握当前的 CR 内容并管理其未来的发展。在 RSC 确定并批准这样的团体之前,RDA 工具包中的内容将保持不变。

CR开发

CR区域的发展需要一些时间。具有 CMS 访问权限的人员(翻译和政策声明编写者)在准备好提供 CR 文档时几乎可以立即开始。对于那些希望使用 HTML 编辑器做出贡献的团体,可能需要几个月的时间来实现生成“其他文档”页面所需的特殊标记和筛选。随着 CR 空间的发展,我们将监控用户反馈以确定未来的开发项目。