BIBFLOW项目最终报告发布:BIBFLOW路标

2014年初ALA仲冬会议上,加州大学戴维斯分校 Michael Colby 介绍该馆刚得到IMLS资助为期两年的项目“编目再发明:未来图书馆运作模式”(Reinventing Cataloging: Models for the Future of Library Operations)(ALA 2014仲冬会议中的BIBFRAME,2014-2-5)。算一下的话,项目应该在2016年初完成。
当时没有BIBFLOW这个名称。在IMLS网站,无论是“BIBFLOW”还是“Reinventing Cataloging”都查不到。通过校名,查到2013财政年度的这个项目(金额$493,619) :LG-06-13-0201-13
Program: National Leadership Grants for Libraries
The University of California Davis University Library will investigate the future of academic research library technical services by assessing the current landscape and developing a roadmap for strategic planning and investments in the coming years. This roadmap can be continuously updated as new data models, standards, workflows, and practices emerge and evolve. Currently, complex workflows and interdependent systems have constrained academic libraries from fully leveraging the benefits and efficiencies of modern technological infrastructures. This research study will include acquisitions, licensing, cataloging, processing, digitization, and newly identified areas that will encourage using technological resources.

虽然并未提到BIBFRAME,但应该就是BIBFLOW项目了(研究性大学图书馆技术服务的未来)。而其中提到的Roadmap,也终于在2017年3月14日完成,并于日前在项目网站发布,悄悄地。一直关注此项目的 Jeff Edmunds 本月初在 BIBFRAME 邮件组发布了消息。
BIBFLOW: A Roadmap for Library Linked Data Transition (Prepared 14 March, 2017) / MacKenzie Smith, Carl G. Stahmer , Xiaoli Li, Gloria Gonzalez
I. 导论
II. 为什么关联数据
III. 转变基础
IV. 路标概述
V. 阶段一:MARC生态系统中的关联数据 。V.a 步骤一:关联数据查找MARC编目平台 ;V.b 步骤二:MARC 批插入 URI;V.c 步骤三:关联数据导入/导出 API;V.d 阶段一完成
VI. 阶段二:转变到原生关联数据生态系统 。VI.a 步骤一:发起转变到关联数据原生编目 ;VI.b 步骤二:批转换遗留MARC记录;VI.c 步骤三:迭代转换非目录图书馆系统
VII. 转变工作流程 。VII.a 套录 ;VII.b 原编;VII.c 连续出版物编目;VIII. 规范控制
IX. 厂商参与
X. 发现
XI. 当前图书馆关联数据实施调查
附录A:厂商参与态势
附录B:术语词汇

此次发布的报告是网页形式,数十个页面链接,看起来很是不便;其中有不少图示,分辨率更是低到完全看不清。Roy Tennant 自告奋勇转换成了PDF文件,并放在他自己的网站上供下载,但对看不清的图示就无能为力了。其中二阶段各三步骤的转换路标(conversion roadmap)还勉强能够看清:

Figure 6: Transition process overview

摘录报告部分段落:
“本报告的主要发现是,图书馆转变到关联数据,处在比大多数人相信的更好位置。更广的关联数据生态系统和语义网,总体上建立在对实体(人物、地点等)和行动(写作、获取等)的共享唯一标识符的基石上。图书馆具有很长的共享数据治理和标准的历史,因此图书馆文化很适合转变到关联数据,图书馆的结构化数据(MARC)处在很好的数据转换位置。鉴于上述情况,我们的结论是,关联数据代表着机会而非挑战,本路标意在作为希望抓住这一机会的图书馆的指引。”(I. 引言)
“MARC和关联数据编目框架的关键差异是,MARC基于记录,而关联数据基于图谱 (graph)。不同于理论上无限的知识图谱,记录有着固定数量的字段和子字段。……扩展框架的唯一途径是,通过一个复杂的、自上而下的驱动过程,由许多机构与治理团体参与讨论与采用,接着重新编程处理这些记录的所有软件系统。 ”“基于图谱的知识系统则不受制于任何以上局限。它们可强化使用信誉良好的受控词表描述对象的能力,同时提供可扩展性,让用户增加新知识节点(字段)到其描述图谱。”(II. 为什么关联数据)
转变到关联数据并非数据转换活动……转变到关联数据要求增加新数据到每一条记录,数据常会难以由机器消歧。特别是,成功的转变到关联数据生态系统,要求在转换时增加大量共享的公开承认的唯一标识符(URI)到每条记录。基本概念是,在一个图谱中为所有实体提供一个唯一的、机器可操作标识符。”“从数据角度,转变到关联数据的主要障碍,是将MARC记录中实体的文字表达,与机器可操作URI联系起来。这种联系必须反向实施到所有遗留记录(艰巨任务),必须更新图书馆系统,在处理新记录或编辑已有记录时创建这种联系……”(III. 转变基础)

ALCTS系列网络会议《从MARC到BIBFRAME》

LC开发中的BIBFRAME,曾吸引若干图书馆参与早期实验,也一直欢迎其他馆参与实施试验。另外,还有一些围绕BIBFRAME的独立项目,著名的如BIBFLOW、LD4L和最近的LD4P。
随着LC的BIBFRAME第2阶段试验即将开始,感觉BIBFRAME越来越接近走向实用。在此背景下,ALA的图书馆馆藏和技术服务协会(ALCTS)之继续教育委员会将举办系列网络会议:从MARC到BIBFRAME:聚焦关联数据。从10月12日到11月6日,连续6周、周三开讲,每次1小时。会议注册费(国际)单次$43/全部$172,但首次会议免费,由LC人员主讲,时长为1.5小时,可视为系列会议的广告。后5次主讲人来自实施过BIBFRAME实践项目的大学及BIBFRAME最初模型和词表的设计公司Zepheira,内容具有很强的实践性。

From MARC to BIBFRAME: Linked Data on the Ground
(注:第5、6场标题/主讲人/简介匹配有误,以下按本人理解互换
第1场(2016-10-12) LC的BIBFRAME开发(主讲人Judith Cannan and Kirk Hess,LC合作与教学项目部、网络开发与MARC标准办公室)
关于LC的BIBFRAME首创项目,涉及BIBFRAME 2.0实施的进展,第2阶段试验的预期,专门格式(音像、录音、印刷品及照片)上的持续工作。也包括更大范围的其他BIBFRAME、关联数据和语义网项目,点评LC参与的LD4P项目,PCC的BIBFRAME工作组,以及RDA对BIBFRAME2的影响。

第2场(2016-10-19) 把链接放在关联数据(主讲人Nancy Lorimer,斯坦福大学元数据部主任,LD4P和LD4L核心成员)
报告涉及3个方面:1)从文本串移到链接实体和资源URI的重要性;2)传统规范控制和基于URI实体管理的区别;3)基于URI编目环境的工作流程的含义。

第3场(2016-10-26) 在MARC中嵌入URI:关联数据基础(主讲人Jackie Shieh,华盛顿大学图书馆资源描述协调人,现任PCC的MARC中URI工作组主席)
报告涉及4个方面:1)在MARC中插入URI/IRI的益处与挑战;2)在当前书目记录中插入URI/IRI的工作流程;3)批处理URI/IRI的工具;4)批插入URI/IRI的过程。专门针对准备MARC数据转移,专注于在MARC数据中嵌入HTTP URI,将涉及定义记录HTTP URI的子字段如$0、$4等。

第4场(2016-11-2) 如何从这里到BIBFRAME(主讲人Carl Stahmer,加州大学戴维斯分校数字学术部主任)
报告涉及4个方面:1)映射转换过程;2)可用转换工具;3)我们对不同测试工具的结果——所需技能、努力和成本要求、输出的准确性;4)以讨论工具之一排练转换过程。

第5场(2016-11-9) BIBFRAME建模与编码连续出版物(主讲人Gloria Gonzalez,Zepheira的图书馆策略师)
报告涉及5个方面:1)连续出版物编目员使用BIBFRAME模型和词表遇到的问题;2)映射连续出版物到BIBFRAME的不懈努力;3)从MARC到BIBFRAME连续出版物转换的可能概念模型;4)在BIBFRAME环境中使用工具做连续出版物编目;5)BIBFRAME连续出版物记录样例。

第6场(2016-11-16) 关联数据编目工作流程(主讲人Xiaoli Li,加州大学戴维斯分校图书馆内容支持服务部联席主管,BIBFLOW项目主要成员)
报告涉及4个方面:1)编目工作流程变化概述;2)RDA和BIBFRAME关系;3)使用BIBFLOW-Scribe关联数据编目界面的编目工作流程;4)评估员工配备和培训问题及需求。

推动关联数据应用:《数据技术新视界——与汤贝克面对面》参会记录

昨天在上图参加《数据技术新视界——与汤贝克面对面》。会议全程录像,未参会者可期待视频上网。

Keven的开场报告《图书馆关联数据应用概述》为会议的热身部分。除引用不少资料外,还归纳了图书馆四类数据即书目数据(元数据)、数字资源(扫描及全文数据)、读者数据、使用数据(流通、下载),最后提出图书馆为什么要关联数据的四个理由(未记全,暂略),等等。

Tom Baker有三个报告,从关联数据入门到应用,到图书馆关联数据(主要涉及编目领域)。几个引语:
“追求完美是做好事的大敌”,他的观点可以参见远洋师在书社会推荐过的《Bulletin of the Association for Information Science and Technology》(April/May 2015, V.41, No.4)专栏“关联数据和弱语义的魅力”(Linked Data and the Charm of Weak Semantics),Thomas Baker等组稿。
“一个链接抵得上千言万语”。以前可能是说“一张图片”或“一段音乐”……,现在“链接”也有同样效果,对计算机来说恐怕更是如此。
对于BIBFRAME,他提及目前有四个项目
-美国国会图书馆(LC)
-LD4L (Linked Data for Libraries Project):斯坦福、康奈尔、哈佛及梅隆基金
-Bibflow Project:加州大学戴维斯分校+Zepheira
-美国国家医学图书馆(NLM)实验
(会后问Tom新出现的bibfra.me,最近在BIBFRAME邮件组引起讨论的,他将其归入bibflow项目)
关于“编目的未来”,他给出三个选项,没有答案:
-MARC?
-BIBFRAME,前述四个项目中的哪一个?何时?
-schema.org+RDFa?商业项目的稳定性存疑。(也提及Google Reader这个说关就关的前车之鉴)

会后询问Tom去年他们写的文章《语义网中资源描述的多实体模型:FRBR、RDA和BIBFRAME比较》,似乎各方对到底应该如果做RDF并不很清楚。在Keven中介下,得到Tom的解释,或许并非问题的解答,但却让我理解了他们的观点(方括号中为我的想法):
FRBR第1组实体作为类,这个thing是什么?一本书分成WEMI,无法让普通用户理解(事实上编目员也不理解,国内外各机构做RDA培训的第一部分都是用FRBR给编目员洗脑,否则无法掌握RDA)。应该用profile实现FRBR(这就有点像现在的用MARC数据做FRBR化了,虽则原本编目时并没有刻意区分过四种实体——如此理解,就对现有MARC做profile是不是也可以呢,嗯?)。

参见:读书笔记:FRBR、RDA和BIBFRAME词表的RDF推理测试(2015-3-7)

———-实际应用隆重登场———-
下午夏翠娟和陈涛的二个报告,相信对于关联数据实际应用会很有启发和帮助。

夏翠娟《基于关联数据的家谱知识库原型系统》,从为什么采用关联数据、系统实现了什么、如何实现三个方面介绍上图的家谱系统,并做了现场演示,效果相当好。
应该说“如何实现”部分介绍得不够多,问答阶段有MM询问关联了哪些外部关联资源,夏MM给出了更多信息:如[geonames的关联]地图位置确定用API获取,并非在本地保存经纬度数据;人名通过拼音与DBPedia关联。相信还有更多。

去年11月该系统的家谱本体发布时,曾写博文抢先作了介绍(“基于BIBFRAME的上海图书馆家谱本体发布”),目前该网站已是一个原型(演示)系统了,可以去玩玩:
上海图书馆:家谱知识库系统
现场演示的家族迁徙图很炫,只是目前网站上还没有。或许属于会后Keven透露的该系统未来的更多功能吧。
[更正:在《上川明经胡氏宗谱》中有迁徙图,去看看吧]

陈涛(中科院生命科学信息中心)《关联数据的技术实现框架》,介绍了实现关联技术的各种现有技术与工具,涉及基础框架、合并工具、发布工具、存储库、查询、序列化、索引、可视化等等。
陈TX对这一领域相当熟悉,有感兴趣者,可以加入他的QQ群共同探讨:150461365 三人行(语义有你)