BIBFRAME/MARC数据双向转换程序更新(880字段消失)

日前美国国会图书馆(LC)的BIBFRAME/MARC数据双向转换程序更新(New BIBFRAME-to-MARC Conversion Tools)https://www.loc.gov/bibframe/news/bibframe-to-marc-conversion.html。转换程序由Index Data公司为LC编制,使用XSLT。

LC网络开发与标准办公室主任Sally McCallum在BIBFRAME邮件组中介绍了MARC到BIBFRAME转换的4个更新:

  • 对某些标识符使用bf:assigner代替bf:source
  • 丛编说明处理修改
  • MARC记录中出现在不同位置的数据元素去重【估计是代码与著录重复】
  • 修改处理MARC 880字段存储的非拉丁文数据并说明BIBFRAME到MARC转换也相应更新。

于是去LC目录,通过“专家检索”找有880字段的丛编记录看双向转换。使用LC目录的关键词检索(https://catalog.loc.gov/vwebv/searchKeyword),用检索词 K490 或 K880,查找使用字段490(丛编)或880(非拉丁文字)的记录。在命中记录中选一条两者兼有的,比如繁体中文的傅緯平《本國史》属于丛书《民国籍粹续》,原书1933年出版,近年影印(001字段/书目ID=18564390 或 010字段/LCCN=2016401477)。

BIBFRAME到MARC https://id.loc.gov/tools/bibframe/comparebf-id/18564390.txt

本记录编制于1999年(据008字段)、非RDA记录(据头标),2016年入库时修改(据010、005字段)、添加336-338字段,属混合记录。BIBFRAME记录实际上是由MARC到BIBFRAME转换来的(见https://id.loc.gov/tools/bibframe/compare-id/full-rdf?find=18564390),但MARC记录则是由此BIBFRAME记录转换重新生成的(见884字段),与原MARC不同。特别明显的是,转换后的MARC记录不用880字段,著录用繁体中文、规范名用汉语拼音,简洁、很赞:

cam a22     ua 4500001    18564390
003    DLC
005    20160719093452.0
008    991116s2013    cc a          00| |chi |
010    $a  2016401477
042    $alccopycat
050 00 $aAC149$b.M568 2013 vol. K490
100 1  $aFu, Weiping.$0http://id.loc.gov/authorities/names/n82019332$4http://id.loc.gov/vocabulary/relators/ctb【$0规范ID,$4责任方式】
240 10 $aBen guo shi【统一题名,汉语拼音】
241 10 $aBen guo shi【新增字段?MARC21标准网站无】
245 10 $aBen guo shi$c傅緯平編著246 1  $a復興初級中學敎科書
264  1 $a上海$b商務印書館$c民國22 [1933
300   $a4 v.$bill.$c20 cm.
336   $atext$0http://id.loc.gov/vocabulary/contentTypes/txt
337   $aunmediated$0http://id.loc.gov/vocabulary/mediaTypes/n
338   $avolume$0http://id.loc.gov/vocabulary/carriers/nc
490 0  $a民国籍粹续
500   $aPhotocopy. [北京 : 中印集团数字印务有限公司, 2013?]. 20 cm. (民国籍粹续)【原MARC记录用533字段】
651  0 $aChina$0http://id.loc.gov/authorities/names/n79091151$xHistory$0http://id.loc.gov/authorities/subjects/sh85061212$vTextbooks$0http://id.loc.gov/authorities/genreForms/gf2014026191【$0规范ID】
830  0 $aMinguo ji cui xu【规范丛编名,汉语拼音】
852   $ahttp://id.loc.gov/vocabulary/organizations/dlc【位置/收藏馆】
884   $aDLC bibframe2marc v1.1.0-SNAPSHOT$g20210619231058.0$qDLC$uhttps://github.com/lcnetdev/bibframe2marc【描述转换信息,2015新增字段】

发现的唯一问题是040字段编目来源遗漏,不应该。难道是bf:assigner代替bf:source没有修改完全?但bf:descriptionModifier也没有。BIBFRAME中相应部分(RDF XML):

<bf:assigner>【040$a$c】
<bf:Agent>
<bf:code>CIBTC</bf:code>
</bf:Agent>
</bf:assigner>
<bf:descriptionModifier>【040$d】
<bf:Agent rdf:about="http://id.loc.gov/vocabulary/organizations/dlc" >
<bf:code>DLC</bf:code>
</bf:Agent>
</bf:descriptionModifier>

参见:

MARC21的340字段:RDA插图内容

在图书编目中,插图是载体描述项的重要内容。因为插图是图书的一个重要特征,在西文学术著作的题名页,常可见到标注插图情况。

虽然书目记录中标注有插图,但在书目查询中插图通常没有作为检索条件或筛选条件,因为它只被著录/描述,不被当作检索点。其实在代码字段(如008)中也是有的,但似乎未见利用。

新RDA是要把尽可能多的信息“数据化”的,记录“插图内容”就是一例。

对应RDA更新,MARC21于2020年在340字段(物理媒介)中新增$p(插图内容),MARC21标准网站上的样例:

  • $p – Illustrative content:资源中存在的插图内容的类型的一般和/或特定指示
  • 340##$gcolor$pillustrations
  • 340##$gone color$pmaps

上述两例都与$g(色彩内容,2017年新增)同用,对应于300$b(其他载体细节),比如(对应第1例):

  • 300##$billustrations (some color)

与300$b属于描述字段不同,340$g$p属于代码字段,如采用受控词表,用$2(来源)说明。

编目专家Adam L. Schiff(美国华盛顿大学图书馆)在RDA-L邮件组询问用340字段做插图内容该如何选择。问题的关键是术语的单复数:上术两例都用的复数(与300$b对应),而RDA对于插图内容有一个取值词表(词表编码体系VES),术语均为单数(复数已弃用)。

他指出,LC最近已宣布新增来源代码rdaill(RDA插图内容):TECHNICAL NOTICE (February 26, 2021) 

RSC现任主席Kathryn Glennan(Kathy Glennan,署单位马里兰大学图书馆)回邮说明:RDA VES是受控词表,340字段需原样使用术语(即单数),300$b可使用复数。(RDA持续更新)对于“插图内容”元素中“记录”下的选项,RSC马上会评估哪些会保留在这个位置,哪些移到“非结构化描述”。

换言之,340字段为“结构化描述”,300字段为“非结构化描述”。

另对于色彩,LC有来源代码rdacc(RDA色彩内容)。RDA色彩内容词表仅有两个取值:monochrome(单色)polychrome(多色)。由于$2不可重复,因此如同时描述色彩内容和插图内容,则必须拆分成2个字段,上述样例用RDA VES当为:

  • 340##$gpolychrome$2rdacc
  • 340##$pillustration$2rdaill
  • 340##$gmonochrome$2rdacc
  • 340##$pmap$2rdaill

此为彩色插图和单色地图。如为彩色地图和单色插图,结果也是如此,仅顺序不同,如何区分?

2021仲冬BIBFRAME更新论坛(LC的BF/RDA计划)

因为新冠肺炎(COVID-19),今年ALA仲冬会议为虚拟会议,BIBFRAME更新论坛仍是其中一个分会场,于2021-1-24举行。今年四场报告分别是:主办方美国国会图书馆(LC)、艾利贝斯(Ex Libris)、Indexdata(宣传FOLIO)和OCLC。

LC终于开始实施BIBFRAME了。报告中4人分别介绍不同方面,内容较为丰富。

LC报告第4部分对编目未来范式的探讨,以及其他3个报告中涉及的关联数据理念方面的问题,值得编目员深思。【RDA-L邮件组中的某些争论正源于此】

一、BIBFRAME 100 / Sally McCallum, Judith Cannan, Kevin Ford, Paul Frank, Library of Congress

1、BIBFRAME 100 / Sally McCallum

  • BIBFRAME 100指LC的2021年目标,即百分之百编目员使用BF系统进行编目。经过3年部分编目员的试验,2021年起全部350名编目员将每周5天用BF编目,换言之,不再做MARC记录了(由BF转换为MARC)。
  • 编辑器在去年重新开发,今年3月将切换到新编辑器,调整编辑器将是全年的任务。
  • 另一项主要任务是优化MARC与BF的双向转换:LC需要MARC到BF转换,以使用其他来源数据(供应商记录、CONSER记录、CIP数据等);LC也需要BF到MARC转换,一是用于目前该馆的ILS【未提及何时采用下一代ILS】,一是向社区提供【全国乃至全球都在使用它家MARC记录】。
  • 另外还有系统及其他数据基础设施方面的工作。

2、BIBFRAME and RDA / Judith Cannan, Chief, Policy, Training, and Cooperative Programs Division

  • LC计划今年将编目员纳入BIBFRAME,到2022年再专注于新RDA。RDA实施时间表:
  • 2021冬春——起草和校对RDA政策声明,然后实施评论程序
  • 2021春及以后——PCC RDA元数据文档,应用政策声明在MARC和BIBFRAME环境,测试
  • 2022冬夏——RDA官方工具包培训

3、BF100 – System Changes / Kevin Ford

  • 从图示看,现在有两部分:id.loc.gov(LC的关联数据服务,包含数据库和公众界面)和BFDB(包含数据库和编目员界面)。
  • 将来后者融入id.loc.gov,新(编目)编辑器和ID编辑器均直接操作(查找与编辑)。

4、BIBFRAME from HOME / Paul Frank, Policy, Training, and Cooperative Programs Division

  • 【由于COVID-19,在家远程成为一种工作状态】LC在2020年4月向编目员调查,结果表明BIBFRAME的生产不受远程办公的影响。
  • 未来的范式?编目人员应如何依赖主要资源进行编目?转录可能导致BIBFRAME/RDF中的空节点,BIBFRAME(或编目)的投资回报率在哪里:描述性元数据?受控检索?贡献角色、主题检索、出版者数据?(备注:是时候质疑实际上手握资源以完成编目活动的重要性了。为什么不能使用代理人【自动转录?】?这会削弱书目描述的完整性吗?创建在关联数据中功能上是死胡同的数据“字符串”有什么价值?是否应该进行更多的编目工作,以提供对书目记录的受控检索,而花费较少的精力进行详细描述?)

二、关联数据:原则、愿景和未来的想法 Linked Data: Principles, vision and thoughts of the future  / Itai Veltzman, Ex Libris (Alma Product Manager)

  • 1、为什么图书馆需要关联数据
  • 1)更好的可发现性:显示强化,更易于导航及准确,可进行复杂提问、更快找到所需。
  • 2)全球可互操作:向图书馆系统外的其他谷仓如研究开放。
  • 3)有效编目:更准确、较少人工;易于创建关系;专注于特藏和独特资料。
  • 2、关联数据原则和愿景
  • 艾利贝斯关联数据支柱(略)
  • Alma和Primo现在有什么:
  • 1)记录强化:自动用URI对语言、标识符、名称和主题。
  • 2)Alma细化(refine):在Alma中支持细化工作流程,目录可用Getty, Wikidata和Geonames关联开放词表。
  • 3)搜索中显示:在结果有记录视图(也可显示BIBFRAME)。
  • 4)发布:整个目录,BIBFRAME、RDA/RDF。
  • 5)API端点:格式BIBFRAME、RDA/RDF和JSON-LD。
  • 6)发现:改进目录对搜索引擎的可发现性。
  • 3、未来的想法:艾利贝斯关联数据路线图2021
  • 1)曝光:改进在Web上的可见性,允许机构最大限度让其目录在搜索引擎中可用。
  • 2)编目:(1)能够存储及基本使用关联数据记录,用户将能上传并检索以关联数据编目的记录。(2)集成第三方关联数据编辑器,编目员能够创建新关联数据记录并存储在Alma,用基本功能(如Sinopia、LC BIBFRAME编辑器)。

三、MARC世界中的BIBFRAME:困难时期书目生存的工作流程 BIBFRAME in a MARC World: Workflows for bibliographic survival in troubled times / Wayne Schneider, Sebastian Hammer, Indexdata

  • 1、我们想要生活于由参照来编目:1)描述资源,参照稳定的标识符,而不是字符串。2)让IFLA LRM用户任务(查找、识别、选择、获取和探索)有更大的有效性。3)编目工具:协作、云端
  • 2、跨越鸿沟:1)MARC到BF转换;2)由BF生成MARC。
  • 3、什么是FOLIO?【图示FOLIO模块,了解元数据地位及“实体”等】

四、Updates from OCLC / Nathan Putnam, OCLC