开发中的图书馆服务平台Folio概览

2018年最后2天,应Keven之邀参加Folio系统界面翻译,跨年和元旦都在刷汉译——仅凭对图书馆自动化系统的了解,对Folio本身则几无所知。人多力量大,demo汉译在元旦那天基本完成。接下来还将参与Codex兴趣小组的活动,于是先来补下课。

一、关于Folio
Folio = Future of Libraries is Open,开源的图书馆服务平台,前身是开发多年的Kuali OLE (Open Library Environment)。2016年前后,Kuali基金会决定转向商业,于是OLE改与EBSCO和Index Data(丹麦)合作,启动Folio。由2016年项目启动时EBSCO中文网站的长篇介绍,可对Folio有更多了解:
隆重介绍 FOLIO – 一项崭新的合作项目,携手图书馆、服务供应商以及开发人员来促进、创新并且重塑图书馆自动化系统的未来 [2016-6-25]

二、平台状况和路线图(Platform & Roadmap)
Folio官网目前发布的路线图如下,不知是否能如期实现:
第1阶段:发布Alpha版,2018年1月
第2阶段:平台发布(Beta版),2019年初
第3阶段:在图书馆运行,期望2019年初至少有3家图书馆实施
第4阶段:早期实施者,11家图书馆计划在2019年实施

三、Folio平台FOLIO Platform
Folio的特点是模块化、灵活性、扩展性。
任何人可以开发Folio App。现在有十几个设想,比如App设想第3号预约房间、第6号与图书馆活动和网站集成、第8号与机构库集成、第13号支持联合目录。

四、资源管理数据域Resource Management Data Domains
对图书馆实体与电子资源的管理模型,包括以下6个域(图示是简化版):

Resource Management Data Domains

Folio法典域(Folio Codex Domain),由一组最小但足够的核心元数据集组成,更全面的元数据集在动态检索时调用。
知识库域(Knowledge base (KB) Domain):电子资源、印刷资源及其他资源等多种知识库(托管系统中,对实体资源,感觉像是类似联合目录的中心书目库)
馆藏域(Holdings Domain):电子资源的权益/馆藏(Entitlement/Holding),可能与知识库中包(Package)的收录范围等不一致。
采访域(Acquisition Domain):图示中只对电子资源作了标示(省略了实体资源),主要为说明电子资源采访产生的馆藏,可能与知识库中包的收录范围等不一致。
库存域(Inventory Domain):法典域对应的实体资源部分
流通域(Circulation Domain):包括用户借阅实体资源与使用电子资源
Folio的关键假定
1、合并电子和印刷;
2、合并单行和连续出版物;
3、库存和知识库(见上);
4、本地与远程。本模型的主要目标是避免元数据的本地复制。只要有可能,就应该对权威记录进行引用(即链接)。本地系统应仅保留与该单件相关的最小核心元数据集。每当需要完整、丰富的元数据集时,应从权威源(例如知识库)动态检索这些元数据。 此外,本地保留的核心元数据应仅在需要时存在于本地Folio系统中。对于电子单件,这意味着只有在访问单件时才会出现本地占位符。 换句话说,它是将权益(潜在馆藏)转换为实际馆藏的访问权,然后可以在本地Folio系统中表示。
我的理解,法典域是面向读者的检索结果一览信息,详细页面信息由动态调用获取。联想一下——不需要每个馆都维护更新数据,只需要大家共同维护、系统来做更新,是不是很美好?

五、法典元数据模型Codex Metadata Modal
Codex Metadata Modal
Codex是一个规范化和虚拟化层,允许Folio集成有关各种资源的元数据,无论其格式、编码或存储位置。
目前仅包含棕色的5个对象:实例、单件/馆藏、收录范围、位置、包;未来还会增加,确定将增加的是蓝色的2个:作品、主题。目前看各对象包含的字段并不多,应该就是前述法典域所称的元数据核心集。
本模型受BIBFRAME2启发(作品-实例-单件),但并不严格遵循BIBFRAME2(BIBFRAME 2 模型只针对单个资源,没有“包”的概念)。
另关于MARC,MARC记录格式被Folio用作数据交换格式——回归MARC(尤其是UNIMARC)的原始设计。其实现在的图书馆自动化系统、尤其是支持非MARC编目的系统,MARC的作用恐怕也是如此。
我想对Folio来说,这也意味着未来BIBFRAME或其它元数据也可以经crosswalk转换后,纳入到系统中。

2018年BIBFRAME更新论坛

自2012年1月ALA仲冬会议起,美国国会图书馆(LC)每年2次在ALA冬、夏年会上举办BIBFRAME更新论坛。介绍BIBFRAME开发进展、邀请其他机构介绍与BIBFRAME相关的应用,这些机构主要是高校和厂商,其中从未缺席的是OCLC。今年1月ALA仲冬会议时论坛关注的重点还是探索(explorations),厂商是Ex Libris/Alma和Indexdata/Folio;6月ALA年会时论坛关注的重点已经是大型实施(large implementations),厂商是Casalini Libri和@Cult,没有空的设想,全部都是实际应用。
参见:
2017年BIBFRAME更新论坛(2017-7-26)
2016 ALA年会BIBFRAME更新论坛(2016-8-27)
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29)

—– ALA 2018仲冬会议BIBFRAME更新论坛 —–
BIBFRAME Update Forum at ALA Midwinter Meeting 2018 (5个报告,只有3个上线)
* Library of Congress Pilot (PDF, 50 KB) Sally McCallum, Chief, Network Development and Standards Office, Library of Congress
实际标题: BIBFRAME Pilot 2
BIBFRAME第2阶段试验自2017年6月起,1年后评估。60个编目员参与,涉及图书、连续出版物、地图、乐谱、动画、古籍、音频。
所使用的基本库是实际编目环境,即再次转换整个MARC目录到BF目录,包括:1800万书目记录转换为BF作品、实例和单件,120万统一题名规范记录转换为BF作品。匹配合并后创建:1920万作品、2370万实例。同时每日更新装载来自200个非试验组编目员的MARC到BF转换记录。

* Alma, Linked data, and BIBFRAME (PDF, 5.5 MB) Amy Pemble, Product Manager, ExLibris
实际标题:Linked Data Implementation at Ex Libris
艾利贝斯公司2011年成立关联开放数据(LOC)工作组(成员包括波斯顿大学、LC、卢森堡国家图书馆、戴维斯加州大学、新英格兰大学、爱默里大学),收集用例和场景,为Alma平台提供建议。
2017年与哈佛合作提供第一阶段BF集成(MARC到BF转换、以BF格式发布MARC记录集、支持BF URI)。
12月发布的Alma 2017,能够以BF发布整个馆藏。Alma提供API端点,有如下关联数据格式:JSON-LD(书目、本地规范),RDA/RDF(作品、载体表现),BF(作品、实例)。
参见:艾利贝斯与哈佛图书馆合作开启“BIBFRAME路线图”(2017-5-12)

* Achievements of 2016/2018 LD4P Project (PDF, 7.6 MB) Michelle Futornick, Program Manager, LD4P
实际标题:Linked Data for Production
资源->LD4P(模型、工具、工作流程、社群)->元数据->发现
*模型(BF扩展)、工具
斯坦福:PMO: Performed Music Ontology,CEDAR
哥伦比亚:ArtFrame,Karma
普林斯顿:Annotations,Annotations markup tool
康奈尔:RareMat,VitroLib
哈佛:Cartographic / Moving Image,VitroLib
LC:BF,BF编辑器和转换器
*本体门户 Biblioportal(biblio.ontoportal.org)发现、可视化、维护、映射、评估
*下一步:LD4P2,实施之路(www.ld4p.org)
工具-沙盒,工作流程-扩展,社群-LD4、标识符管理
发现:Blacklight【十年前的开源OPAC仍有强大的生命力】
参见:
BIBFRMAE应用进展:LD4P实施之路(2018-7-8)
Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)

* Folio and BIBFRAME(未上线)Sebastian Hammer, President, Indexdata
* BIBFRAME and OCLC(未上线)John Chapman, OCLC

—– ALA 2018年会BIBFRAME更新论坛 —–
BIBFRAME Update Forum at the ALA Annual Conference 2018 (4个报告)
* Library of Congress BIBFRAME 2.0 Pilot progress report (PDF, 984 KB) Beacher Wiggins, Library of Congress; Jodi Williamschen, Library of Congress
实际标题:Creating and Updating a BIBFRAME database
LC从MARC走向BIBFRAME:修订BF2.0数据模型,更新词表;新MARC到BF数据转换规程与转换程序;更新BF记录编辑器配置程序。
BF数据库当前状态:作品1900万,实例2400万,单件2260万,43亿三元组。
匹配与合并及尚未解决的问题
BF编辑器功能及尚未解决的问题
下一步:
– 继续评估和调整BF数据库的匹配与合并,需要时重新载入数据库
– 摄入CIP和ONIX数据
– 装入Casalini的RDF数据库
– 提供LC的BF文档下载,供其他人探索(已提供)
– 继续改进编辑器
– 从BF映射到MARC
参见:LC提供BIBFRAME描述数据集批量下载(2018-6-20)

* From MARC to BIBFRAME in the SHARE-VDE project (PDF, 5 MB) Tiziana Possemato, Casalini Libri – @Cult
SHARE-VDE(www.share-vde.org)是关联数据项目,由Casalini Libri(书目和规范数据提供者,PCC成员)、@Cult(ILS、发现工具、语义网解决方案厂商)开发,16个北美研究图书馆参与
总体目标:
– 用URI强化MARC记录【实体识别、调和 Reconciliation、数据强化】
– 用BF词表(根据需要和其他附加本体)从MARC转换到RDF
– 根据BF数据模型发布数据
– 批/自动数据更新过程
– 批/自动数据传递到图书馆
– 按社区定义的优先级顺序逐步实施进一步的用例

* Using BIBFRAME in multi-institutional projects (PDF, 1.3 MB) Jeremy Nelson, Colorado College
美国数字公共图书馆(DPLA)计划中的科罗拉多州和怀俄明州的Plains2Peaks服务中心项目使用BIBFRAME关联数据,将学术和公共图书馆、联盟和博物馆的元数据摄取到BIBFRAME RDF知识图谱中。通过RDF映射语言(RML)将原始数据转换为BIBFRAME作品、实例和单件,满足了支持不同的摄取词汇表(如MODS和Dublin Core)以及不同格式(如JSON,CSV和XML)到BIBFRAME RDF的挑战。 在科罗拉多联盟的BIBCAT项目中,来自三个学术图书馆和一个公共图书馆的MARCXML使用美国国会图书馆marc2bibframe软件转换为BIBFRAME RDF,然后通过RML从BIBFRAME映射到Schema.org以改进网络发现。技术: 开源模块bibcat和RDFframework

* OCLC research with BIBFRAME (PDF, 96 KB) Nathan Putnam, OCLC
实际标题:OCLC Research BIBFRAME 2.0 Converter Analysis
1分析的目标: 评估什么BF数据类型,OCLC可以使用LC转换器生产;评审LC转换样式表(是否需要修正以支持OCLC用例)
2过程:从OCLC研究部的WorldCat副本中取1100万条含LCCN的记录,转换记录到MARCXML,再送到LC BF 2.0转换器
3收获(学到些什么)
– 作品ID很重要(处理一开始就有用;OCLC聚类增加它们到OCLC研究部的WorldCat)
– URI很重要(若干空结点没有URI;空结点=不可互操作)
– 转换器含BF单件描述(但我们只使用书目记录;这使得数据中留有空白)
OCLC研究更新转换器:用作品/聚类ID填充758字段【资源标识符,2017新增字段】,修改以查找$0和$1,首选VIAF和FAST的URI
4未来实验
– 寻找标引可能性/目标/需求【indexing标引所指为何?】
– URI清理和填充到现有MARC记录以减少空节点数量
– 继续与LC合作(随着BIBFRAME的多种扩展和变化的出现,OCLC正在广泛地思考我们构建支持复杂环境的功能)