2018年BIBFRAME更新论坛

自2012年1月ALA仲冬会议起,美国国会图书馆(LC)每年2次在ALA冬、夏年会上举办BIBFRAME更新论坛。介绍BIBFRAME开发进展、邀请其他机构介绍与BIBFRAME相关的应用,这些机构主要是高校和厂商,其中从未缺席的是OCLC。今年1月ALA仲冬会议时论坛关注的重点还是探索(explorations),厂商是Ex Libris/Alma和Indexdata/Folio;6月ALA年会时论坛关注的重点已经是大型实施(large implementations),厂商是Casalini Libri和@Cult,没有空的设想,全部都是实际应用。
参见:
2017年BIBFRAME更新论坛(2017-7-26)
2016 ALA年会BIBFRAME更新论坛(2016-8-27)
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29)

—– ALA 2018仲冬会议BIBFRAME更新论坛 —–
BIBFRAME Update Forum at ALA Midwinter Meeting 2018 (5个报告,只有3个上线)
* Library of Congress Pilot (PDF, 50 KB) Sally McCallum, Chief, Network Development and Standards Office, Library of Congress
实际标题: BIBFRAME Pilot 2
BIBFRAME第2阶段试验自2017年6月起,1年后评估。60个编目员参与,涉及图书、连续出版物、地图、乐谱、动画、古籍、音频。
所使用的基本库是实际编目环境,即再次转换整个MARC目录到BF目录,包括:1800万书目记录转换为BF作品、实例和单件,120万统一题名规范记录转换为BF作品。匹配合并后创建:1920万作品、2370万实例。同时每日更新装载来自200个非试验组编目员的MARC到BF转换记录。

* Alma, Linked data, and BIBFRAME (PDF, 5.5 MB) Amy Pemble, Product Manager, ExLibris
实际标题:Linked Data Implementation at Ex Libris
艾利贝斯公司2011年成立关联开放数据(LOC)工作组(成员包括波斯顿大学、LC、卢森堡国家图书馆、戴维斯加州大学、新英格兰大学、爱默里大学),收集用例和场景,为Alma平台提供建议。
2017年与哈佛合作提供第一阶段BF集成(MARC到BF转换、以BF格式发布MARC记录集、支持BF URI)。
12月发布的Alma 2017,能够以BF发布整个馆藏。Alma提供API端点,有如下关联数据格式:JSON-LD(书目、本地规范),RDA/RDF(作品、载体表现),BF(作品、实例)。
参见:艾利贝斯与哈佛图书馆合作开启“BIBFRAME路线图”(2017-5-12)

* Achievements of 2016/2018 LD4P Project (PDF, 7.6 MB) Michelle Futornick, Program Manager, LD4P
实际标题:Linked Data for Production
资源->LD4P(模型、工具、工作流程、社群)->元数据->发现
*模型(BF扩展)、工具
斯坦福:PMO: Performed Music Ontology,CEDAR
哥伦比亚:ArtFrame,Karma
普林斯顿:Annotations,Annotations markup tool
康奈尔:RareMat,VitroLib
哈佛:Cartographic / Moving Image,VitroLib
LC:BF,BF编辑器和转换器
*本体门户 Biblioportal(biblio.ontoportal.org)发现、可视化、维护、映射、评估
*下一步:LD4P2,实施之路(www.ld4p.org)
工具-沙盒,工作流程-扩展,社群-LD4、标识符管理
发现:Blacklight【十年前的开源OPAC仍有强大的生命力】
参见:
BIBFRMAE应用进展:LD4P实施之路(2018-7-8)
Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)

* Folio and BIBFRAME(未上线)Sebastian Hammer, President, Indexdata
* BIBFRAME and OCLC(未上线)John Chapman, OCLC

—– ALA 2018年会BIBFRAME更新论坛 —–
BIBFRAME Update Forum at the ALA Annual Conference 2018 (4个报告)
* Library of Congress BIBFRAME 2.0 Pilot progress report (PDF, 984 KB) Beacher Wiggins, Library of Congress; Jodi Williamschen, Library of Congress
实际标题:Creating and Updating a BIBFRAME database
LC从MARC走向BIBFRAME:修订BF2.0数据模型,更新词表;新MARC到BF数据转换规程与转换程序;更新BF记录编辑器配置程序。
BF数据库当前状态:作品1900万,实例2400万,单件2260万,43亿三元组。
匹配与合并及尚未解决的问题
BF编辑器功能及尚未解决的问题
下一步:
– 继续评估和调整BF数据库的匹配与合并,需要时重新载入数据库
– 摄入CIP和ONIX数据
– 装入Casalini的RDF数据库
– 提供LC的BF文档下载,供其他人探索(已提供)
– 继续改进编辑器
– 从BF映射到MARC
参见:LC提供BIBFRAME描述数据集批量下载(2018-6-20)

* From MARC to BIBFRAME in the SHARE-VDE project (PDF, 5 MB) Tiziana Possemato, Casalini Libri – @Cult
SHARE-VDE(www.share-vde.org)是关联数据项目,由Casalini Libri(书目和规范数据提供者,PCC成员)、@Cult(ILS、发现工具、语义网解决方案厂商)开发,16个北美研究图书馆参与
总体目标:
– 用URI强化MARC记录【实体识别、调和 Reconciliation、数据强化】
– 用BF词表(根据需要和其他附加本体)从MARC转换到RDF
– 根据BF数据模型发布数据
– 批/自动数据更新过程
– 批/自动数据传递到图书馆
– 按社区定义的优先级顺序逐步实施进一步的用例

* Using BIBFRAME in multi-institutional projects (PDF, 1.3 MB) Jeremy Nelson, Colorado College
美国数字公共图书馆(DPLA)计划中的科罗拉多州和怀俄明州的Plains2Peaks服务中心项目使用BIBFRAME关联数据,将学术和公共图书馆、联盟和博物馆的元数据摄取到BIBFRAME RDF知识图谱中。通过RDF映射语言(RML)将原始数据转换为BIBFRAME作品、实例和单件,满足了支持不同的摄取词汇表(如MODS和Dublin Core)以及不同格式(如JSON,CSV和XML)到BIBFRAME RDF的挑战。 在科罗拉多联盟的BIBCAT项目中,来自三个学术图书馆和一个公共图书馆的MARCXML使用美国国会图书馆marc2bibframe软件转换为BIBFRAME RDF,然后通过RML从BIBFRAME映射到Schema.org以改进网络发现。技术: 开源模块bibcat和RDFframework

* OCLC research with BIBFRAME (PDF, 96 KB) Nathan Putnam, OCLC
实际标题:OCLC Research BIBFRAME 2.0 Converter Analysis
1分析的目标: 评估什么BF数据类型,OCLC可以使用LC转换器生产;评审LC转换样式表(是否需要修正以支持OCLC用例)
2过程:从OCLC研究部的WorldCat副本中取1100万条含LCCN的记录,转换记录到MARCXML,再送到LC BF 2.0转换器
3收获(学到些什么)
– 作品ID很重要(处理一开始就有用;OCLC聚类增加它们到OCLC研究部的WorldCat)
– URI很重要(若干空结点没有URI;空结点=不可互操作)
– 转换器含BF单件描述(但我们只使用书目记录;这使得数据中留有空白)
OCLC研究更新转换器:用作品/聚类ID填充758字段【资源标识符,2017新增字段】,修改以查找$0和$1,首选VIAF和FAST的URI
4未来实验
– 寻找标引可能性/目标/需求【indexing标引所指为何?】
– URI清理和填充到现有MARC记录以减少空节点数量
– 继续与LC合作(随着BIBFRAME的多种扩展和变化的出现,OCLC正在广泛地思考我们构建支持复杂环境的功能)

BIBFRMAE应用进展:LD4P实施之路

BIBFRAME正迈向应用阶段,似乎离成为现实已经不远了。最近的两大进展:
一是LC的BIBFRAME第2阶段测试,直接以BIBFRAME编辑器进行编目,已进行了一年,并于上月发布了包括LC的MARC规范记录和书目记录转换的全部BIBFRAME描述数据集,供其他机构下载测试使用。参见:LC提供BIBFRAME描述数据集批量下载(2018-6-20)。
二是斯坦福等高校的LD4L系列项目(http://www.ld4l.org/),致力于由MARC过渡到关联数据,在2014-2016年的LD4L、2016-2018年的LD4L-Labs和LD4P之后,又争取到了梅隆基金为期2年LD4P第2阶段项目,名为“实施之路”(Linked Data for Production: Pathway to Implementation,没有查到直接信息)。[update 2018-11-14: 斯坦福大学图书馆2018-6-26消息,Stanford Libraries awarded $4 Million grant to implement linked data metadata environment,400万美元,参与馆斯坦福、康奈尔、哈佛和爱荷华大学]
作为项目的一部分,LD4P正建立沙盒,与合作编目项目(PCC)合作,为所有PCC成员创建基于云的沙盒,以实验创建基于BIBFRAME的元数据。项目希望在原核心成员哥伦比亚大学、康奈尔大学、哈佛大学、LC、普林斯顿大学、斯坦福大学、爱荷华大学之外,征求更多PCC成员深度参与(称为LD4P Cohort,合伙人),将某些基于MARC的工作流程转换到以关联数据为基础的工作流程。申请需符合项目提出的最低要求,获准后可得到最高5万美元的子项目资助。

在上月ALA年会上ALCTS举办的“在真实世界中实施关联开放数据”(Implementing Linked Open Data in the Real World)会场,斯坦福大学的Philip E. Schreur介绍了本项目。
在BIBFRAME邮件组(论坛)的本项目邀请参与的附件(Proposal Request to Join the LD4P Cohort)中,有本项目的7个目标
1. 创建连续馈送的关联数据池,以基于BIBFRAME的应用纲要表达。
2. 开发扩展的图书馆合伙人(LD4P合伙人),能够通过创建基于云的沙盒编辑环境来创建和重用关联数据。
3. 开发用于以标识符自动增强MARC数据的政策、技术和工作流程,以使其尽可能清晰地转换为关联数据。【在前述最低要求中,最后一条是:在可行的情况下,将URI合并到MARC记录子字段$ 0s和$ 1s中】
4. 开发用于创建和重用关联数据及其支持标识符作为图书馆核心元数据的策略、技术和工作流程。
5. 通过与Wikidata的协作,更好地将图书馆元数据和标识符与Web集成。
6. 使用基于关联数据的发现技术,增强广泛采用的图书馆现环境(Blacklight)。
7. 通过开发一个名为LD4的组织框架,协调持续的社区协作。

via [BIBFRAME] Invitation to Join the LD4P Cohort / Philip E. Schreur (2018-7-5)
关于LD4L系列项目,参见:
重量级图书馆关联数据项目LD4P获得资助(2016-5-10)
BIBFRAME扩展:bibliotek-o(及ArtFrame和RareMat)(2018-5-1)

另:作为LD4P项目成果,“艺术和珍本资料BIBFRAME本体扩展”向BIBFRAME提出了很多修订建议,提交在BIBFRAME本体开发的Github网站“问题”部分,并统一标注:”This recommendation was made on behalf of the LD4P Art & Rare Materials BIBFRAME Ontology Extension (https://github.com/LD4P/arm).”。简单说明见:[BIBFRAME] Art & Rare Materials BIBFRAME feedback – GitHub Issues / Jason Kovari (2018-7-5)

LC提供BIBFRAME描述数据集批量下载

美国图书馆协会(ALA)年会前夕,美国国会图书馆(LC)开放了BIBFRAME描述数据集批量下载。

LC一年前开始BIBFRAME第2阶段测试(Pilot 2),60名编目员直接在BIBFRAME编辑器上对资源进行编目。为支持本阶段测试,全部LC目录被转换为BIBFRAME RDF结构化文档,作为测试编目员平常使用的目录。日前,LC提供文档的批量下载,供其他系统进行实验。由于仍在测试过程中,文档在持续改进,因此目前提供的是实验数据(快照),分别是5月24日的作品集(18GB)和5月30日的实例集(20GB),压缩文件,N-Triples格式。

文档下载在LC的关联数据服务网站id.loc.gov:http://id.loc.gov/download/
BIBFRMAE网站“实施、工具和下载”页面有说明文件,标识为:
BIBFRAME Works and Instances dataset [PDF, 106 KB] (Bulk Download Instructions)
实际文件名:Bulk downloads of Works and Instances

根据说明,作品集来源为3种:1、来自名称-题名或题名规范记录转换,2、来自书目记录转换,3、直接来自BIBFRAME编辑器(原编)。实例集来源为2种:1、来自书目记录转换,2、直接来自BIBFRAME编辑器(原编)。URI基于LCCN构成。
由书目和规范记录转换而来的作品描述作了去重合并。文件特别指出:“这个过程听起来很简单,但要做得准确很困难,因为很多MARC数据的文本性质、文件中混合有全部和部分记录、使用题名的MARC规范格式以及数据的不一致性和编目规则随时间推移的多样性(超过100年)”。【今年早些时候因为按作品模型处理方志书目数据,对此深有体会。】
说明指出,目前提供的数据还存在一些问题,主要涉及URI及作品和实例的相互关联,包括:作品和实例URI在LC网络外不解析,不少名称与主题缺少链接,作品-实例关联不正确造成孤儿作品,由书目记录7XX字段转换的作品有待与已有作品合并,从规范记录转换的作品没有相互链接。

——尽管还存在不少问题,始于2011年的 BIBFRAME 似乎离应用越来越近了。

via [BIBFRAME] Bulk downloads of BIBFRAME descriptions made available from Library of Congress / McCallum, Sally (19 Jun 2018)