BIBFRMAE应用进展:LD4P实施之路

BIBFRAME正迈向应用阶段,似乎离成为现实已经不远了。最近的两大进展:
一是LC的BIBFRAME第2阶段测试,直接以BIBFRAME编辑器进行编目,已进行了一年,并于上月发布了包括LC的MARC规范记录和书目记录转换的全部BIBFRAME描述数据集,供其他机构下载测试使用。参见:LC提供BIBFRAME描述数据集批量下载(2018-6-20)。
二是斯坦福等高校的LD4L系列项目(http://www.ld4l.org/),致力于由MARC过渡到关联数据,在2014-2016年的LD4L、2016-2018年的LD4L-Labs和LD4P之后,又争取到了梅隆基金为期2年LD4P第2阶段项目,名为“实施之路”(Linked Data for Production: Pathway to Implementation,没有查到直接信息)。
作为项目的一部分,LD4P正建立沙盒,与合作编目项目(PCC)合作,为所有PCC成员创建基于云的沙盒,以实验创建基于BIBFRAME的元数据。项目希望在原核心成员哥伦比亚大学、康奈尔大学、哈佛大学、LC、普林斯顿大学、斯坦福大学、爱荷华大学之外,征求更多PCC成员深度参与(称为LD4P Cohort,合伙人),将某些基于MARC的工作流程转换到以关联数据为基础的工作流程。申请需符合项目提出的最低要求,获准后可得到最高5万美元的子项目资助。

在上月ALA年会上ALCTS举办的“在真实世界中实施关联开放数据”(Implementing Linked Open Data in the Real World)会场,斯坦福大学的Philip E. Schreur介绍了本项目。
在BIBFRAME邮件组(论坛)的本项目邀请参与的附件(Proposal Request to Join the LD4P Cohort)中,有本项目的7个目标
1. 创建连续馈送的关联数据池,以基于BIBFRAME的应用纲要表达。
2. 开发扩展的图书馆合伙人(LD4P合伙人),能够通过创建基于云的沙盒编辑环境来创建和重用关联数据。
3. 开发用于以标识符自动增强MARC数据的政策、技术和工作流程,以使其尽可能清晰地转换为关联数据。【在前述最低要求中,最后一条是:在可行的情况下,将URI合并到MARC记录子字段$ 0s和$ 1s中】
4. 开发用于创建和重用关联数据及其支持标识符作为图书馆核心元数据的策略、技术和工作流程。
5. 通过与Wikidata的协作,更好地将图书馆元数据和标识符与Web集成。
6. 使用基于关联数据的发现技术,增强广泛采用的图书馆现环境(Blacklight)。
7. 通过开发一个名为LD4的组织框架,协调持续的社区协作。

via [BIBFRAME] Invitation to Join the LD4P Cohort / Philip E. Schreur (2018-7-5)
关于LD4L系列项目,参见:
重量级图书馆关联数据项目LD4P获得资助(2016-5-10)
BIBFRAME扩展:bibliotek-o(及ArtFrame和RareMat)(2018-5-1)

另:作为LD4P项目成果,“艺术和珍本资料BIBFRAME本体扩展”向BIBFRAME提出了很多修订建议,提交在BIBFRAME本体开发的Github网站“问题”部分,并统一标注:”This recommendation was made on behalf of the LD4P Art & Rare Materials BIBFRAME Ontology Extension (https://github.com/LD4P/arm).”。简单说明见:[BIBFRAME] Art & Rare Materials BIBFRAME feedback – GitHub Issues / Jason Kovari (2018-7-5)

LC提供BIBFRAME描述数据集批量下载

美国图书馆协会(ALA)年会前夕,美国国会图书馆(LC)开放了BIBFRAME描述数据集批量下载。

LC一年前开始BIBFRAME第2阶段测试(Pilot 2),60名编目员直接在BIBFRAME编辑器上对资源进行编目。为支持本阶段测试,全部LC目录被转换为BIBFRAME RDF结构化文档,作为测试编目员平常使用的目录。日前,LC提供文档的批量下载,供其他系统进行实验。由于仍在测试过程中,文档在持续改进,因此目前提供的是实验数据(快照),分别是5月24日的作品集(18GB)和5月30日的实例集(20GB),压缩文件,N-Triples格式。

文档下载在LC的关联数据服务网站id.loc.gov:http://id.loc.gov/download/
BIBFRMAE网站“实施、工具和下载”页面有说明文件,标识为:
BIBFRAME Works and Instances dataset [PDF, 106 KB] (Bulk Download Instructions)
实际文件名:Bulk downloads of Works and Instances

根据说明,作品集来源为3种:1、来自名称-题名或题名规范记录转换,2、来自书目记录转换,3、直接来自BIBFRAME编辑器(原编)。实例集来源为2种:1、来自书目记录转换,2、直接来自BIBFRAME编辑器(原编)。URI基于LCCN构成。
由书目和规范记录转换而来的作品描述作了去重合并。文件特别指出:“这个过程听起来很简单,但要做得准确很困难,因为很多MARC数据的文本性质、文件中混合有全部和部分记录、使用题名的MARC规范格式以及数据的不一致性和编目规则随时间推移的多样性(超过100年)”。【今年早些时候因为按作品模型处理方志书目数据,对此深有体会。】
说明指出,目前提供的数据还存在一些问题,主要涉及URI及作品和实例的相互关联,包括:作品和实例URI在LC网络外不解析,不少名称与主题缺少链接,作品-实例关联不正确造成孤儿作品,由书目记录7XX字段转换的作品有待与已有作品合并,从规范记录转换的作品没有相互链接。

——尽管还存在不少问题,始于2011年的 BIBFRAME 似乎离应用越来越近了。

via [BIBFRAME] Bulk downloads of BIBFRAME descriptions made available from Library of Congress / McCallum, Sally (19 Jun 2018)

BIBFRAME扩展:bibliotek-o(及ArtFrame和RareMat)

LC的BIBFRAME开发仍在进行中,美国研究者已经开始对其进行扩展。保持核心词表含最基本术语,其他制定专门扩展,schema.org的这种做法应该也会被LC采用吧。
安德鲁梅隆基金资助的LD4L系列项目(LD4L,LD4P,LD4L Labs),其中2016-2018的2项很重要的一部分工作,就是对BIBFRAME词表/本体进行扩展。项目都在GitHub上。
去年LD4L-labs和LD4P已经发布BIBFRAME基本扩展bibliotek-o。目前LD4P在做艺术和珍本资料方面的扩展(Art and Rare Materials BIBFRAME Ontology Extension),包括:
ArtFrame:哥伦比亚大学与北美艺术图书馆学会编目咨询委员会 (ARLIS CAC) 协作,针对二维和三维艺术作品的描述
RareMat (Rare Materials Ontology Extension):康奈尔大学与大学与研究图书馆协会珍本图书与手稿部书目标准委员会 (RBMS-BSC) 协作,对复杂的珍本资料建模,提供BIBFRAME中未涉及的单件级描述。

已经完成的bibliotek-o,最新版本是2017.7.6发布的1.1.0 ,有独立域名:bibliotek-o.org:
bibliotek-o: a BIBFRAME Ontology Extension
bibliotek-o在类、属性和取值上都有扩展,包括直接采用BIBFRAME之外的其他词表/命名的类(如foaf、dcterms、prov、oa等),作为定义域和值域:

——— 类 classes ———
大量新增类,共计261个,大致可归为以下几种:
– 题名【补齐245子字段、246字段第2指示符对应元素,有些BIBFRAME本身可能增加 】
bf:Title:新增5个子类:Abbreviated title, Concise title, Distinctive title, Key title, Parallel title
新增部分题名类:Title element,及5个子类:Main title element, Non-sort element, Part name element, Part number element, Subtitle element
新增题名来源:Origin(见下“取值)
– 可访问性【残障使用友好】
bf:Content accessibility:新增2个子类及子子类:Accessibility feature(31子类), Accessibility hazard(6子类)
– 载体类型【由取值词表变成类】
bf:Instance:新增17个子类(+57子子类,交叉去重实际40个):Belt,Card,Cartridge,Cylinder,Disc,Film,Flip chart,Microform,Overhead transparency,Projected,Reel,Roll,Sheet,Slide,Tape,Video,Volume
bf:Electronic:新增6个子类(3个多重上位类):Computer card,Computer chip,Computer tape cartridge(重复),Computer tape cassette(重复),Computer tape reel(重复),Online resource
– 标识符【将OCLC控制号从bf:Local中独立出来】
bf:Identifier:新增1个子类:OCLC identifier
– 内容类型【由取值词表变成类;计算机程序从文本中独立出来】
bf:Audio:新增3个子类:Performed music,Sounds,Spoken word
bf:Text:新增1个子类:Source code
– 作品【内容类型?】
bf:Work:新增3个子类:Software,Stereograph(影像图),Tactile
– 活动【大量增加】
新增:Activity,及140个子类:Abridger,Acquisition,Actor……Creator【多为各种责任者】
新增:Meeting(上位类:foaf:agent, schema:event)【会议作为活动】

——— 属性 object properties———
新增互逆属性21个、13对(有些直接用已有词表,有些无逆属性),前后括号内分别为定义域、值域:
题名:(bf:Title)is title of/bf:title
首选题名:has preferred title(bf:Title)/is preferred title of
题名来源:has origin
行动者:has agent(foaf:agent)/is agent of
活动:has activity(Activity)/is activity of
授予:granted by(foaf:agent)/grants
位置:at location(prov:Location)/is location of
使用对象:is target of(oa:Annotation)/oa:hasTarget
主题:is subject of/dct:subject
范围:covered in/covers
封面:has cover art
来源:has source/is source of
拥有:(bf:Item)held by(foaf:agent)/holds

——— 取值 named individuals ———
新增取值30个,用于4个类:
– 题名来源:Origin,9个(added title page、binder、caption……)
– 动机/目的:oa:Motivation,15个(cataloging、describing supplementary content、linking table of contents……)
– 状态:bf:Status,4个(current、deprecated、invalid、status)
– 投影特征:bf:ProjectionCharacteristic,2个(three dimensional projection characteric、two dimensional projection characteristic)

参见:
LD4P : un « grand soir » pour les bibliothèques américaines ? (03/05/2017)
面向机器应用的RDA(2018ALA仲冬会议上的RDA-续)(2018-2-24)
重量级图书馆关联数据项目LD4P获得资助(2016-5-10)