为BIBFRAME转换简化MARC格式

美国国会图书馆(LC)实施BIBFRAME已是箭在弦上,届时它将不再以MARC进行编目,代之以提供由BIBFRAME转换生成的MARC记录。为此,合作编目项目(PCC)于2022年初成立“BIBFRAME转换之MARC简化专责组”,其职责是检查LC的BIBFRAME2.0到MARC21转换程序和相关规范,据此开发一套简化的MARC字段,以准确有效支持BIBFRAME转换。年中和年末,中期报告和最终报告如期完成发布。见:

这套简化字段,在职责文件中称“瘦MARC”(Skinny MARC)。出于词义褒贬原因,小组先后考虑过一些其他术语,包括:简化MARC(simplified MARC)、基本MARC(essential MARC)BF2MARC用于BIBFRAME的MARC改编(MARC adaptation for BIBFRAME)链接MARC(linky MARC)。特别说明的是,需要与先前的“轻量级MARC”(MARC 21 LITE, 2008版)区别开来。小组称不推崇任何上述名称,但或许是出于表述简单的考虑,在最终报告中多用“BF2MARC”。

小组提出的BF到MARC字段表,称为“来自BIBFRAME的MARC描述性字段的初步曲目”(Preliminary Repertoire of MARC Descriptive Fields from BIBFRAME)。所谓“初步”,是因为提供的2个表格中,主表“MARC<-BF”只有90多个变长字段子字段(如020$a)或定长字段位置段(如008/07-10),其中还包括12个无对应的008字段位置段,实际有对应的只有80多对。副表“MARC not included”列出没有对应BIBFRAME元素的近130个子字段等(如130/240$a)。可以想见这离成品有多大距离,LC的BF/MARC转换已历多年,我原本以为据此提出一套简化MARC格式是件并不复杂的任务,如此结果真是出乎意料。

为此,最终报告概述首先指出:“我们团队认识到,当前的BIBFRAME环境还不够成熟,无法建立稳定可靠的MARC字段集以作为永久‘简化’集”。之后列举了小组工作的复杂性(摘录)【本人理解】:

  • LC 转换记录的可得性缺乏【LC没提供】
  • 同行示例的通行性缺乏【于是从开发Sinopia的[LD4]获取,但数据滞后于LC目前用的BF2.2,也没有用LC本地扩展bflc:】
  • 书目记录中罗马化的未来不确定性【LC4调查显示罗马化对图书馆运行与服务很重要,但LC更倾向于使用有限罗马化文字;亲历LC的BF到MARC转换在使用/不使用880字段间摇摆】
  • LC的BIBFRAME扩展(bflc) 的状态【主要款目在BF中没有对应物,只在扩展bflc:;BF新类Hub与240字段的关系】
  • 序列化MARC数据的不确定性【检索点1XX/6XX/7XX/8XX中不同子字段,对规范维护的影响】
  • 小组对专业格式的专业知识的限制

接着提出了9个希望PCC未来讨论的开放主题【略】

附录2,BIBFRAME到MARC 21(BF2MARC)转换原则和量规(摘录):

1、BF2MARC记录看起来将不像原生MARC【包括只带最少的ISBD标点淡化主要款目,但包含关系代码;可能用040或884字段中的代码标识转换生成的记录】

2、BF2MARC记录虽然不一定复制惯用的MARC技术或惯例,但仍应像传统MARC记录一样发挥作用,支持以下领域的基本机器和人类操作:a.提供所描述资源的明确标识;b.提供所描述资源的必要描述性细节;c.启用对书目检索点的受控检索;d.为书目检索点的存在提供合理的理由【附注】;e.启用对主题检索点的受控主题检索;f.提供足够的元数据出处以实现信任和管理。【这是小组的意见,更从涉及编目规则,LC是否认可?】

3、转换必然是一个有损的过程。BF2MARC数据的功能要求不是可以通过算法将其转换回BIBFRAME。

4、应允许并鼓励对BF2MARC记录进行后续的下游修改。

美国为实施官方RDA做最后准备:PCC RDA测试

美国合作编目项目(PCC)在2022年1月完成《元数据指导文档》(MGD)后,成立测试官方RDA工具包专责组,主要测试配套文档LC-PCC PS(政策声明)和MGD及其使用,可认为是为实施新RDA(现通称官方RDA)做最后准备。

测试官方RDA工具包专责组(Task Group to Test the Official RDA Toolkit

  • 专责组职责:
  • PCC测试官方RDA工具包专责组将对官方RDA工具包进行彻底测试,以确保PCC编目员可以使用该工具包以MARC和BIBFRAME的不同格式准确编目资料。我们不测试是否会实施官方RDA工具包。相反,我们希望在实施前,确保PCC政策声明和元数据指导文档在新的工具包中运行良好。因此,测试将包括在编目资料时使用工具包、相关LC/PCC政策声明以及元数据指导文档。专责组将定义此测试的参数,组织一批志愿者编目员进行测试,并评估测试结果。
  • 交付成果:
    • 定义测试回答问题的参数,例如:每个编目员应完成多少条记录;应涵盖哪些格式【资料类型】;应该涵盖哪些语言/文字等。
    • 从响应PCC邮件组征召的志愿者名单中组成一个小组进行测试。
    • 进行测试,记录遇到的任何问题。
    • 组成一个小组,评估编写政策声明和元数据指导文档的人员完成的编目。【!】
    • 确保评估者小组审查完成的编目,以确保应用了正确的政策声明和元数据指导文件。
    • 确保政策声明和元数据指导文档与官方RDA工具包中的相应条件或选项相关联,并且政策声明和元数据指导文件不相互冲突。
    • 确保当在多个政策声明或元数据指导文件中给出相同的指导时,指导和说明不相互冲突,编目结果相同。
    • 向LC、PoCo【PCC政策委员会】和RDA沟通委员会报告任何问题。

2月1日小组成立时的时间表是:7/8月提交初步报告,10月提交最终报告。实际上工作推迟约有半年。昨日小组发布消息开始进行评估,最终报告预计将于2023年春季发布。

消息中共享了完整的评估文档,有助于未参与测试与评估者了解评估设计及其内容,对其他国家开展基于本国实施RDA配套资料的评估也有参考价值。

PCC测试官方RDA工具包开始(RDA-L: PCC Test of the Official RDA Toolkit Begins / Adam Baron. 2022-10-17)

  • 测试将在10月17日至11月4日之间进行,评估将在2022年11月14日至2023年1月6日之间进行。工作组的最终报告预计将于2023年春季发布。
  • 为进行测试,要求测试人员使用官方RDA工具包、LC-PCC政策声明和元数据指导文档,以MARC或BIBFRAME中创建6-8个书目记录和至少1个规范记录(如果接受过NACO培训)。测试人员要记录他们为描述这些项目【资料】所采取的步骤以及遇到的困难,以确定哪些政策【PS】和指导【MGD】需要修订。
  • 为进行评估,评估人员将审查书目和规范记录,分析测试者模板,并在政策和指南需要更新的地方以及培训期间可能需要额外关注的方面编写意见。
  • 为协助测试,提供以下文档:
    • 测试人员文档,包括:测试人员指引、测试人员模板(空)、测试人员模板(样本)、测试人员测试后调查
      • 【测试人员模板为电子表格,9栏分别是:RDA元素[如title proper],MARC字段/子字段或BIBFRAME属性[如245$a],取值[如Music matters],所用RDA条款[如预记录Prerecording],[RDA] URI,所用LC-PCC PS[如LC/PCC Core.],所用MGD、MGD URL,附注/遇到问题】
    • 评估人员文档,包括:评估人员指引、评估人员模板(空)、测试人员模板(含错误、样本)、评估人员模板(样本)、评估人员测试后调查
      • 【评估人员模板为电子表格,13栏分别是:记录ID,格式[如图书/印本],MARC或BIBFRAME,记录的RDA元素[如title proper],RDA实体/指引/社区资源,参引的RDA页[如title of manifestation],RDA条款,[RDA] URI,问题类型[如LC-PCC PS],对LC-PCC PS的意见,对MGD的意见,MGD URL,概括意见】

【联想】从测试人员(编目)模板看,要记录用到的每个MARC字段、子字段(或者BIBFRAME元素)对应的RDA条款、涉及的PS及MGD,相当细致。测试要求创建6-8个书目记录和至少1个规范记录,按《测试人员指引》的说法需要高达45小时时间,也就是一个工作日完成1个记录。

RDA元数据指导文档(一对一MGD):以正题名为例

与LC-PCC PS配套使用的“元数据指导文档”(Metadata Guidance Documentation, MGD),分为叙述性MGD和一对一MGD两种。参见:

仔细看了上述2个叙述性MGD,接下来再看看一对一MGD。

一对一MGD共有200多个文档,据称映射到500多个新RDA的政策声明,内容与新RDA中的元素(原关系说明语也变为元素)或其特定选项相关联。因此有的一个MGD文档对应一个元素,如载体类型(MG: Manifestation: Carrier type),或是一个元素的特定方面,如政府出版物的制作日期(MG: Manifestation: Date of manufacture: GPO publications);有的则有多个MGD文档对应一个元素的不同方面,可能是不同方面或不同条件下的选项,如生产日期(MG: Manifestation: Date of production)分为3个文档[目前显示4个、有一条重复]:记录(Recording)、在版编目(CIP cataloging)、出版日期不确定(Date of publication not identified)。

一对一MGD包含内容为:

  • 指导(Guidance)
  • MARC示例
  • BIBFRAME示例
  • 参考与附注:即映射,提供原LC-PCC PS编号等(新RDA没有编号)
  • 更新历史

随意找了个最常用的正题名(title proper),正巧除LC/PCC实践外,还有大英图书馆实践。全部内容如下:

正题名:Official RDA Toolkit LC-PCC Metadata Guidance Document: Entities > Manifestation > title proper [PDF, 115 KB; 2页]

  • 指导:记录正题名——不排序字符——LC实践/PCC实践:一般设置MARC字段245的第2个指示符位置(不排序字符)以忽略定冠词和不定冠词,以用于排序和归档目的。但是,不要排除某些冠词:
    • 1、当正题名以冠词起首,该冠词作为个人、家族、地理或团体名称的一部分出现并保留在该名称中;
    • 2、当正题名以冠词起首,并且上下文或编目员判断需要保留它时,例如,这样的题名:
  • MARC示例——
    • 例1:245 00 $a “The” as an introductory element of generic nouns
    • 例2:245 00 $a “El Cid” in literary criticism of the 20th century
  • BIBFRAME示例——不使用不排序指示符
  • 指导:大英图书馆实践:交替题名被视为正题名的一部分。由编目员判断决定是否给交替题名一个检索点。【按传统,LC-PCC也认为交替题名是正题名的一部分,但未提供相应指导】
  • MARC示例——例3
    • 245 14 $a The rail and the rod, or, Tourist-angler’s guide to waters and quarters thirty miles around London
    • 246 13 $a Tourist-angler’s guide to waters and quarters thirty miles around London
  • BIBFRAME示例……(略,上述246内容作为变异题名 bf:VariantTitle 的主题名 bf:mainTitle)
  • 参考与附注:LC-PCC PS 2.3.2.7 【记录正题名,包括:[1]不排序字符;[2]专著丛编/多部分专著:缺少题名或从属题名,见PS2.3.1.7】
  • 更新历史:2022-01-31

RDA工具包去对照看政策声明及元数据指导文档链接:

正题名元素页(Entities > Manifestation > title proper)侧栏政策声明,目前有3家:

  • BLPS(22条):大英图书馆PS只有简单说明:采用、不采用、合适则用、编目员判断等。没有MGD链接。
  • LC-PCC PS(24条):有较详细说明;如有MGD文档、则提供链接。在Prerecording(21.93.72.57)除前述“正题名”一对一MGD外,还链接到“丛编-子丛编”系列MGD(含一个叙述性MGD和数十个一对一MGD)【与原LC-PCC PS对应】
  • MLA BP(24条):音乐图书馆协会最佳实践,再合并LC-PCC PS内容,包括上述MGD链接(方便使用,无需切换MLA和LC-PCC)。

上述一对一MGD仅针对正题名20多条PS中的一条,即预记录(Prerecording),没有涉及任何一个选项。由此可知,MGD是不完全的,针对的是那些需要详细解说指导的内容。即所谓:“当原RDA工具包的LC-PCC PS被评估并映射到官方RDA工具包时,声明的较长部分以及示例被标记为一组单独的官方RDA工具包文档——元数据指导文档( MGD)”。