BIBFRAME早期实验代码公布

上月下旬BIBFRAME模型草案发布,只是一个框架,并没有具体的元数据格式。在邮件组中,发布者曾说会在12月后分享早期实验结果。才过了两个星期,上周五,LC的Kevin Ford在邮件组中提供了从MARC书目记录转换到BIBFRAME的两个程序,分别是LC开发的XQuery版和Zepheira开发的Python版。下载网址:https://github.com/lcnetdev/marc2bibframe
一直以为老外是下班时间不干活的,没想到周末就有不少人把这两个程序装上做试验,从MARCXML转换成分层次的BIBFRAME,还发现了些问题。
不擅长IT的编目员,则关注元数据格式。通过邮件组的讨论,也了解到可以从程序中看到转换规则──并拼出BIBFRAME的元数据格式

python的marc2bibframe https://github.com/lcnetdev/marc2bibframe/blob/master/python/lib/marc.py
XQuery的marc2bibframe
https://github.com/lcnetdev/marc2bibframe/blob/master/xquery/modules/module.MARCXMLBIB-2-BIBFRAME.xqy

Karen Coyle的做了个简单的BIBFRAME实验网页,放一些MARC记录对照的样例:
http://kcoyle.net/bibframe/
周一的时候只有普通图书、地图和CD三个样例。她还在征求记录,今天看增加了文集、缩微品和带头衔的人名。

ONIX方面对BIBFRAME的评论

出版行业的元数据标准ONIX由EDItEUR维护。BIBFRAME模型草案发布后,EDItEUR的首席数据架构师Graham BellBIBFRAME邮件组中发表了评论,涉及到ONIX背后的概念模型<indecs>及其与FRBR模型的异同。翻译并[简评]如下:

[BIBFRAME] Comments on BIBFRAME draft model from EDItEUR (2012-11-29)

对报告概述的BIBFRAME模型草案,我们的第一反应很大程度上是正面的。然而,对于缺乏“单个复本”实体(以及BIBFRAME“实例”实体潜在的令人困惑的命名),我支持对此表示保留的评论。我想澄清一些报告中涉及的对ONIX和< indecs >的误解。
[第一句完全是客套话。本段其实是在质疑BIBFRAME类的设置及其名称。BIBFRAME有4个主要类,对应FRBR“单件”的不是独立的类,而是属于“注释”类;对应FRBR“载体表现”的,是“实例”类]

如同FRBR,<indecs>是一个概念模型。事实上,<indecs>包含两个基本模型:报告中引用的商务模型(“人们做东西、用东西、交易东西”),还有指代“东西”的“制作模型”或称“创作模型”(非常接近对应FRBR,尽管两者是完全独立开发的)。在目前语境下,相关的<indecs>是创作模型,基于3个而非4个概念层──抽象(Abstraction)(大约相当于FRBR内容表达,也明确是一个知识产权项目)、载体表现、单件。“内容表达”及相关的“定位”(Fixation),是抽象和载体表现间关系的方面。没有对应FRBR作品的。对熟悉的图书,“单件”就是单个复本,“载体表现”是一类相同的册(典型的以一个ISBN标识),“抽象”是许多潜在“载体表现”的抽象类,现在可以用一个ISTC(国际标准文本码)标识,可以与其他“抽象”形成多对多关系──这当然不只用于图书。
[<indecs>三层:抽象=内容表达-ISTC、载体表现、单件。对应BIBFRAME的三层是:作品、实例、注释中的馆藏]

在某种程度上,BIBFRAME草案近乎<indecs>。值得注意的是,<indecs>也预示了今天对关联数据的关注:“一项元数据即某人声称两个实体间存在的关系。” [1]

然而,<indecs>包含“单件”实体,而BIBFRAME模型草案没有,似乎是个奇怪的遗漏。我想说,必要时最好能够识别个别复本,能够分开适用于资源的个别复本的BIBFRAME“注释”,与适用于整个BIBFRAME“实例”的“注释”(“实例”组成所有复本的类)。
[注:BIBFRAME把“单件”归入“注释”之下]

如报告所说,图书ONIX(ONIX for Books)是部分基于<indecs>的,本身关注描述“载体表现”,尽管“载体表现”的很多属性无疑继承自“抽象”。图书ONIX最初由美国出版者协会(AAP)构想于1999年,2000年发布1.0版。进一步的联合开发经由EDItDUR实施,与书业研究组(BISG)和书业交流会(BIC)合作,但目前已由EDItDUR管理多年,由代表约20个国家用户组织的国际指导委员会领导,这些国家包括最近的中国、日本和阿拉伯国家。这是个真正的国际贸易标准,并且免费使用。
[ONIX有图书和连续出版物两种格式]

图书ONIX最广泛采用的是2.1版,发布于2003,之后只做过少量更新。最新发布的是3.0,有一个微小更新到3.0.1(增加了两个属性,用于非字母文字如日语汉字的人名或题名的语音排序)[2]。EDItEUR已经宣布2014年底为“日落之日”(sunset date),将减少对2.1的支持,鼓励所有实施者更新到3.0。

BIBFRAME模型草案与<indecs>的紧密校准(alignment),为商业元数据──以ONIX为例──与图书馆元数据之间更大程度的语义互操作提供了极大的希望。目前ONIX和MARC数据间的对照(Crosswalks)过于复杂,而BIBFRAME具有大大简化商业与图书馆数据交换的潜力。更大互操作的益处也可以延伸到音乐,如DDEX──相当于录音贸易中的ONIX──也基于<indecs>。
[或者说,既然BIBFRAME并没有采用FRBR,图书馆界也基于<indecs>算了?]

图书ONIX的关键价值之一是用于ONIX元数据的大量控制词表集(并且很大程度上在不同版本间共享)。EDItEUR将在未来数月内,(用SKOS)为每个术语发布权威的URI,如此这些术语将可被任何人用于发布关于图书或其他图书馆资源的关联数据。
[当年看ONIX,不知道其三层模型,感受最深的就是其词表的开放性,同一个“字段”,接受各种来源的词表,不像MARC格式那么严格规定采用一种。现在,RDA词表的出版还在磨磳中,ONIX词表已经要发布了──未来关联数据环境下,出版业将领先?]

连续出版物ONIX(ONIX for Serials)系列信息──最初由EDItEUR和NISO开发、现称订阅产品ONIX(ONIX for Subscription Products)──与图书ONIX相比,布署得相当有限,主要用于图书馆订阅代理者和主要期刊出版者之间的交流。相关信息标准特别用于如描述保留馆藏。

[1] The <indecs> Framework
[2] ONIX 3.0 Specification, Implementation and best practice guide, and latest controlled vocabularies

书目框架模型相关信息及讨论

书目框架模型草案发布,当即在BIBFRAMERDA-L两个邮件组中引发了一些讨论,估计讨论会持续一段时间。

一、BIBFRAME模型正在进行早期实验
24日[update 2012-12-1 本人邮件显示时间,系统发送时间23 Nov 2012 15:08:53 -0600] Sally McCallum和Beacher Wiggins在BIBFRAME邮件组发出BIBFRAME模型文件发布的消息(BIBFRAME model document announcement),提供了一些文件之外的信息:
“书目框架计划已经到达了两个重要里程碑:一是基于Web的书目描述的数据模型BIBFRAME草案,二是举行了首次早期实验者小组会议。”
早期实验者指LC及6个合作机构,即不列颠图书馆、德国国家图书馆、乔治·华盛顿大学、国家医学图书馆、OCLC、普林斯顿大学。“10月曾会面2天,然后研究如何把过去及未来的数据融入模型。12月后续会议后,他们会与更广泛社区分享经验与结果,期望激励更广泛的探索。”为此目的,正计划在ALA仲冬会议上再举办一个更新会议,时间为2013年1月27日。

二、关于文件的信息发布
Karen Coyle显然没有看到BIBFRAME邮件组中的信息,24日稍后的时间[update 2012-12-1,系统发送时间23 Nov 2012 14:34:48 -0800],她在RDA-L邮件组上发布信息,称在twitter转发上看到BIBFRAME文件发布,消息来自英国同行。
对信息没有在美国首先发布,LC显然也比较尴尬。网络开发和MARC标准办公室的Kevin Ford称“文件周三[11.21]最终得到批准,期望当天发布,但直到今天才发”。“消息也发到本邮件组了,确实有点迟。海外同行似乎比我还早就收到电邮了”。
由于合作者中有英国、德国的国家图书馆,信息发布的“出口转内销”,或许也显示着其国际化吧。

三、BIBFRAME模型与FRBR、RDA关系
J. McRee (Mac) Elrod质疑:RDA的“作品”仍是作品,但“实例”代替了载体表现,内容表达不再存在,单件数据成为注释的一部分?是不是以后不再说WEMI,改说WIAA或CIAA?

Robert L. Maxwell质疑:显然放弃了FRBR模型。由于RDA坚定地基于FRBR,并包含描述与链接到内容表达,新模型不提供内容表达实体,似乎不合适。

Kevin Ford回应:适应RDA是活跃的开发领域。事实上一些早期实验者正在研究……BIBFRAME模型如何满足RDA的需要。2011年10月宣布的“一般计划”中,“广泛适应内容规则和数据模型”是首要需求,“适应RDA”是所列内容规则中首要的,对此没有任何改变。
正像你们所推测的,RDA的作品和内容表达结合到了BIBFRAME作品,BIBFRAME实例更接近RDA载体表现,单件概念被当作BIBFRAME馆藏。

Heidrun Wiesenmüller质疑:“主题”是一种“规范”,是不是包括用户标签,作为“注释”的?
这只是第一稿。我也接受BIBFRAME应当有比“仅图书馆”更广阔的视野,即不同层次的复杂性不能不兼容。但无论如何,BIBFRAME必须能够以必需的粒度与专指处理RDA数据。

Thomas Brenndorfer赞同RDA的偏爱倾向于“内容”与“载体”的区别。报告为其自己的方法提供了一个良好的合理化,在一个足够高的抽象程度上,为其他社区的数据组织作出解释。

四、许可问题
B.Eversberg是讨论中最清醒的一位:BIBFRAME必须集成进RDA工具包。在参与对各类大问题或细节的激烈争论之前,我们需要知道谁将最终作为BIBFRAME的拥有者,以什么形式、在什么样的条件下提供,大方如MARC,还是如RDA那样的全球垄断许可方案?
──要实施RDA,而BIBFRAME又要取代MARC,那么必然会进RDA工具包。前一阵宣布AACR2电子版今后只通过RDA工具包提供,几乎是强制推行需要年订购的RDA。BIBFRAME会怎样?
[update 2012-11-27] Sally McCallum回应称:BIBFRAME将会“大方如MARC”。B.Eversberg在表示“令人鼓舞”后,继续提出对照RDA严格封闭的商业模式,一旦BIBFRAME启动,必须无缝访问所用[编目]规则,如果是RDA的话,BIBFRAME作为开放标准的吸引力必然会受损。
──RDA的封闭,本来就会影响其利用。但如同RDA不与元数据标准捆绑,BIBFRAME更没有理由与RDA捆绑。如此,则“适应RDA”之类不过是一说而已。