《美国国会图书馆分面词表回溯实施》第一版征求反馈

分面限定是图书馆发现系统的重要功能,具体提供哪些分面,则取决于书目数据。由于MARC设计时并没有考虑分面应用,即使书目数据中含有分面信息,也不一定能够方便地提取应用。美国编目界近年为深入挖掘书目数据中可供分面的信息,进行了相关工作。其中针对现有书目数据加以处理的,属于“回溯”实施,也是内容“增强”之一种。

之前看到美国图书馆协会(ALA)核心主题分析委员会(SAC)分面词表分委员会 (SSFV)的《记录分面时间顺序数据最佳实践》,针对作品和内容表达的日期(参见2021-10-08博文)。

日前又看到SSFV新推出的《美国国会图书馆分面词表回溯实施:图书馆员和程序员的最佳实践》(征求意见草案):

Retrospective Implementation of Library of Congress Faceted Vocabularies : Best Practices for Librarians and Programmers / Prepared by the ALA Core Subject Analysis Committee, Subcommittee on Faceted Vocabularies (SSFV). DRAFT FOR PUBLIC COMMENT, 2022-01-21. (Google文档)

  • “这些最佳实践不假定任何特定的项目范围、编程环境或数据库环境。实施者负责开发代码库,该代码库根据特定环境中的现有MARC数据生成分面数据,然后将新的分面数据写入同一环境中的记录。此类代码可以编写为在 ILS/LSP 或书目实用程序(如Alma、OCLC Connexion、OCLC 记录管理器)中本地运行,也可以编写为在MarcEdit或OpenRefine等‘中间件’环境中运行。”本文件提供EXCEL形式的映射表,供程序员编写代码使用。
  • 由于书目数据的原因,“随着书目记录集变得更大和/或更多样化,自动化流程中人工干预的重要性也相应增加。换句话说,记录集越大和/或越多样化,全自动回溯解决方案提供最佳结果的可能性就越小。必须做出两种妥协之一。要么机器输出需要由人工操作员系统地审查和调整,要么实施者需要容忍最终产品中机器生成的一定数量的不精确(甚至可能不正确)的数据。”根据需要人工干预的程度,设置了映射从简单到复杂的4个“置信度”。
  • 2021年8月开始,SSFV与OCLC合作,使用批处理测试在WorldCat环境中使用“体裁/形式映射”模块映射样本,并根据测试结果不断完善模块中的映射和条件逻辑。

目前的初始版本,列出10个模块,大部分映射表尚未完成:

  • 体裁/形式:将定长字段代码(头标/006/007/008)映射到字段655(体裁/形式)、385(受众特征)
  • 体裁/形式:将LCSH形式复分($v;并选择论题复分$x)映射到字段655、385、386(创作者/贡献者特征)【部分完成】
  • 体裁/形式:将LCSH音乐形式标题映射到字段655【采用前引MLA算法】
  • 体裁/形式:将LCSH文学形式标题映射到字段655【即将到来】
  • 表演媒介:将LCSH音乐形式标题映射到字段382(表演媒介)【采用前引MLA算法】
  • 人口统计/地理:将LCSH标题映射到字段385、386和370(相关地点)(包括文学标题的重要组成部分)【即将到来】
  • 人口统计/地理:将LCSH地理复分(对某些标题)映射到字段370和386【即将到来】
  • 时间顺序:将某些LCSH时间顺序标题/复分映射到字段046(特殊编码日期)/388(创作时间段)【即将到来】
  • 时间顺序:将字段045(内容的时间段)映射到字段046【即将到来】
  • 原语言和代表性内容表达的语言【即将到来】

简言之,即由书目记录中定长字段和主题词(LCSH为主),映射到分面术语表的术语,并放入相应MARC字段(供发现系统或图书馆目录抽取使用)。采用5个术语表,其中3个出自美国国会图书馆(LC):