LC即将实施BIBFRAME(2022年BIBFRAME更新论坛)

美国国会图书馆(LC)开发BIBFRAME,如果从2011年“书目框架转变行动”开始算,已超过十年。

今年ALA年会期间,LC照例举办BIBFRAME更新论坛。此次论坛,可以认为宣告LC即将正式实施BIBFRAME。

先前历次BIBFRAME更新论坛,除作为主持方的LC外,还会有来自厂商和高校等机构的多个报告。此次论坛,报告人除了1位都来自LC,而这一位报告针对的是OCLC使用LC的BIBFRAME数据。

Library of Congress June 2022 BIBFRAME Update Forum(Zoom网会,2022-6-27,1:00 PM ET – 2:00 PM EDTMeeting ID: 160 327 6570,Passcode: 576692)

“随着美国国会图书馆(LC)BIBFRAME 100的目标日期将于今年秋季到来,当LC的大多数编目人员将在LC的BIBFRAME系统中创建描述,并通过转换为MARC创建MARC记录时,我们希望利用这个更新论坛来突出可能影响LC数据用户的一些发展。Beacher Wiggins将首先介绍LC采购和书目访问部的现状和期望。LC专家将深入非拉丁领域,讨论更多的文字、多少音译、音译表审查、Marva(BIBFRAME编辑器)中的非拉丁文字输入以及可共享的音译实用程序。LC将报告通过新的发行软件来共享BIBFRAME数据,包括作品、实例、hub、名称、主题和许多标准列表。会议结束时,OCLC将提交一份报告,介绍他们对使用LC的BIBFRAME记录和/或由BIBFRAME数据创建的MARC记录的初步想法。”

【本人总结的几个关键点:BIBFRAME 100;BIBFRAME转换创建MARC记录;Marva(LC的BIBFRAME编辑器);非拉丁文字输入及音译;BIBFRAME数据发行】

【报告一览(会后在BIBFRAME主页发布)】

  • Introduction / Sally McCallum, Library of Congress
  • BIBFRAME 100 Expectations / Beacher Wiggins, Library of Congress
  • Non-Latin Scripts in LC’s BIBFRAME / Paul Frank and Jessalyn Zoom, Library of Congress
  • Transliteration Utilities / Matt Miller, Library of Congress
  • LC’s BIBFRAME Data Distribution / Kevin Ford, Library of Congress
  • LC’s BIBFRAME Data in OCLC / Nathan Putnam, OCLC

LC RDA计划概要与进展(新RDA实施推迟)

2020年12月新RDA工具包更新成为官方版,现在已经过了一年,何时采用仍不明朗。

2022年1月美国国会图书馆发布《LC RDA计划概要与进展》,其中提到PCC(合作编目项目,也即意味着美国主要编目机构)原计划2022年7月后实施,但由于2021年秋季RDA工具包网站更换供应商时网站迁移没有如期完成,导致原定2021年10月的RDA更新推迟到12月、而后又彻底取消,目前定在2022年3月。此一推迟,不但影响RDA本身的更新,也影响到与RDA内容链接的政策声明等相关文档的更新与测试,PCC的实施决定因此将推迟到10月之后。

新RDA由于结构性变化、取消条款号等,实施所必须的政策声明需要完全重新做,工作量巨大。《LC RDA计划概要与进展》介绍了两年多来LC及PCC为实施新RDA所做的工作,包括更新“政策声明(PS)”、新编“元数据指导文档(MGD)”及背后的工具准备与测试等各项任务。文中新旧RDA分别称为official RDA(官方RDA)和original RDA(原RDA)。

更新与RDA相关文档的任务由LC政策、培训和合作计划部(PTCP)承担,由PTCP联合LC及以外人员完成相应任务;PCC由政策委员会(PoCo)负责。文件对我们准备实施RDA有借鉴意义,其中提及完成的政策声明有9千多条,任务艰巨。梳理其时间线及完成任务如下:

LC RDA Project Summary and Update(LC RDA计划概要与进展,2022年1月)

  • 2019年:组建团队。(1)2019年11月LC组建项目团队(PTCP+其他LC编目单位的编目员);(2)[2019年8月]PoCo成立若干测试版RDA任务组(PTCP指派员工共同主持),就新RDA结构的4个实质性编目问题提交报告【4个LC-PCC任务组:元素标签(Element Labels)、历时作品(Diachronic Works)、数据出处(Data Provenance)和合集(Aggregates)】
  • 2019年11月-2020年中:PS内容审查与映射。项目团队审查已有PS并映射到测试版RDA(当时还不是官方版),尝试基于RDA新结构编写新PS,2020年5月前收到任务组报告后,将决定纳入PS。
  • 2020年中-2020年10月:PS批处理工具测试。由于RDA采用DITA发布,2020年年中创建LC PS DITA编辑团队,又与LC ILS专家合作开发批处理程序将PS转换为DITA。2020年12月官方版发布时发布了6000多条LC-PCC PS。
  • 2021年1月- PS正式编写与审核+追踪更新。到3月中完成9000多条PS的审核;DITA团队其批量加载到RDA工具包,与2021年4月第一次官方RDA工具包更新一起发布。另外发布了一个错误报告表,供用户提交所有拼写错误和语法问题。随后对2021年7月RDA工具包更新中更改的条件和选项相关的LC-PCC PS进行编辑。
  • 2021年:新项目“元数据指导文档”(MGD)。MGD充当从原RDA到官方RDA 的“桥梁”文件。MGD已于2022年1月31日完成,3月14日系列文件以PDF形式发布【参见:Official RDA Metadata Guidance Documentation (MGD) Posted,将另写博文】

《美国国会图书馆分面词表回溯实施》第一版征求反馈

分面限定是图书馆发现系统的重要功能,具体提供哪些分面,则取决于书目数据。由于MARC设计时并没有考虑分面应用,即使书目数据中含有分面信息,也不一定能够方便地提取应用。美国编目界近年为深入挖掘书目数据中可供分面的信息,进行了相关工作。其中针对现有书目数据加以处理的,属于“回溯”实施,也是内容“增强”之一种。

之前看到美国图书馆协会(ALA)核心主题分析委员会(SAC)分面词表分委员会 (SSFV)的《记录分面时间顺序数据最佳实践》,针对作品和内容表达的日期(参见2021-10-08博文)。

日前又看到SSFV新推出的《美国国会图书馆分面词表回溯实施:图书馆员和程序员的最佳实践》(征求意见草案):

Retrospective Implementation of Library of Congress Faceted Vocabularies : Best Practices for Librarians and Programmers / Prepared by the ALA Core Subject Analysis Committee, Subcommittee on Faceted Vocabularies (SSFV). DRAFT FOR PUBLIC COMMENT, 2022-01-21. (Google文档)

  • “这些最佳实践不假定任何特定的项目范围、编程环境或数据库环境。实施者负责开发代码库,该代码库根据特定环境中的现有MARC数据生成分面数据,然后将新的分面数据写入同一环境中的记录。此类代码可以编写为在 ILS/LSP 或书目实用程序(如Alma、OCLC Connexion、OCLC 记录管理器)中本地运行,也可以编写为在MarcEdit或OpenRefine等‘中间件’环境中运行。”本文件提供EXCEL形式的映射表,供程序员编写代码使用。
  • 由于书目数据的原因,“随着书目记录集变得更大和/或更多样化,自动化流程中人工干预的重要性也相应增加。换句话说,记录集越大和/或越多样化,全自动回溯解决方案提供最佳结果的可能性就越小。必须做出两种妥协之一。要么机器输出需要由人工操作员系统地审查和调整,要么实施者需要容忍最终产品中机器生成的一定数量的不精确(甚至可能不正确)的数据。”根据需要人工干预的程度,设置了映射从简单到复杂的4个“置信度”。
  • 2021年8月开始,SSFV与OCLC合作,使用批处理测试在WorldCat环境中使用“体裁/形式映射”模块映射样本,并根据测试结果不断完善模块中的映射和条件逻辑。

目前的初始版本,列出10个模块,大部分映射表尚未完成:

  • 体裁/形式:将定长字段代码(头标/006/007/008)映射到字段655(体裁/形式)、385(受众特征)
  • 体裁/形式:将LCSH形式复分($v;并选择论题复分$x)映射到字段655、385、386(创作者/贡献者特征)【部分完成】
  • 体裁/形式:将LCSH音乐形式标题映射到字段655【采用前引MLA算法】
  • 体裁/形式:将LCSH文学形式标题映射到字段655【即将到来】
  • 表演媒介:将LCSH音乐形式标题映射到字段382(表演媒介)【采用前引MLA算法】
  • 人口统计/地理:将LCSH标题映射到字段385、386和370(相关地点)(包括文学标题的重要组成部分)【即将到来】
  • 人口统计/地理:将LCSH地理复分(对某些标题)映射到字段370和386【即将到来】
  • 时间顺序:将某些LCSH时间顺序标题/复分映射到字段046(特殊编码日期)/388(创作时间段)【即将到来】
  • 时间顺序:将字段045(内容的时间段)映射到字段046【即将到来】
  • 原语言和代表性内容表达的语言【即将到来】

简言之,即由书目记录中定长字段和主题词(LCSH为主),映射到分面术语表的术语,并放入相应MARC字段(供发现系统或图书馆目录抽取使用)。采用5个术语表,其中3个出自美国国会图书馆(LC):