ALA 2019仲冬会议的BIBFRAME更新论坛

德国国家图书馆的Reinhold Heuvelmann在BIBFRAME邮件组发消息,看到BIBFRAME更新论坛的所有报告都上线了(官方未发信息)。

2011年书目框架行动启动以来,自2012年冬起更新论坛每年2次在ALA仲冬和夏季年会中举办。参见:
LC书目框架转换行动:首届更新论坛(2012-2-7)
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29)
2016 ALA年会BIBFRAME更新论坛(2016-8-27)
2017年BIBFRAME更新论坛(2017-7-26)
2018年BIBFRAME更新论坛(2018-11-14)

今年照例除美国国会图书馆(LC)本身外,还请了其他机构,除从不缺席的OCLC,特别是欧洲的出席,共4家5个报告。
BIBFRAME Update Forum at ALA Midwinter Meeting 2019 (2019-1-27)

一、LC的BIBFRAME试验扩展
1、Expanding the Pilot / Sally McCallum, Library of Congress (PPT, 76KB)
【完成了从MARC到BIBFRAME转换,开始反向转换。】
转换的动机。
转换中遇到的问题,包括:BIBFRAME作品到MARC题名规范或者书目作品?非拉丁文字880字段;来自BIBFRAME数据的URI(带入MARC);MARC子字段末尾标点(不再有)。

2、Anonymous Resources, Blank Nodes, And Providers, Oh My! / Kevin Ford, Library of Congress (PPT, 392KB)
【本次会议最有意思的报告:BIBFRAME转换的匿名资源或空节点问题,实验通过规范控制或实体URI减少空节点】
使用匿名资源会导致大量重复资源,匿名资源的数量正在导致或将导致性能和扩展问题。
以“提供者”(主要是出版者)为例:在1800万MARC书目记录中=约1500万匿名提供者Agent资源。其中许多(大多数?)表达相同实体,比如Harcourt Brace, Penguin Books, Harper Collins。1500万中有120万独特提供者。
因此我们创建了一个“提供者”文档……做实验【即出版社规范档:id.loc.gov/bfentities/providers/…,实验对出版社使用URI】

二、LD4P2
3、LD4P Status update / Philip Schreur, Stanford University (PPT, 868KB)
介绍使用Sinopia作为BIBFRAME编辑器,使用SHARE-VDE转换记录为BIBFRAME(2018年BIBFRAME更新论坛上有SHARE-VDE介绍),以及LD4P的成果。
参见:
BIBFRMAE应用进展:LD4P实施之路(2018-7-8)
LD4P2走向实施之路:目标与工作(附LD4系列)(2019-1-8)

三、欧洲BIBFRAME研讨会
4、European BIBFRAME Workshop / Reinhold Heuvelmann, German National Library (PPT, 3.23MB)
欧洲BIBFRAME研讨会已经召开两届,每年9月召开:
2017.9.26-27 European BIBFRAME Workshop 2017, German National Library, Frankfurt https://wiki.dnb.de/display/EBW
2018.9.17-19 European BIBFRAME Workshop 2018, European University Institute, Fiesole (Florence), Italy http://www.casalini.it/EBW2018
2019.9.17-18 European BIBFRAME Workshop 2019, National Library of Sweden, Stockholm,

四、OCLC
5、OCLC BIBFRAME Update / Nathan Putnam, OCLC (PPT, 13.61MB)
介绍OCLC研究部的BIBFRAME相关工作:
* 使用LC的转换器,将WorldCat中的MARC记录转换为BIBFRAME数据,得到的经验教训是:[1]作品ID很重要,在处理开始就有用;[2]URI很重要,空节点=不可互操作;[3]OCLC处理书目记录=很少单件/实例数据【?】。
* OCLC研究部当前活动:创建可用的BIBFRAME数据图,供最终用户测试,已经完成:[1]Hash URI代替空节点;[2]移除已经有VIAF或FAST的额外实体属性【指哪些?】;[3]评审BIBFRAME管理数据【BF管理元数据放在作品下有点奇怪】;[4]在WorldCat记录集上测试图修改。
* 现在:OCLC研究部与全球产品管理部共享信息,前进的道路取决于回答有关问题:[1]工作流程,[2]用例,[3]期望成果/服务。
* 向前走,我们知道我们将提供BIBFRAME数据,需要答案的问题集中在社区需要和期望的内容上:[1]重要的是什么(标识符来源,转换选项,质量等);[2]如何评估数据?(API、下载、导出等)[3]应当强化什么?[4]WorldCat中的编目工作流程是什么?
* 与成员馆合作:
与RLP成员合作:[1]焦点小组,[2]收集需求,[3]期望的工作流程,[4]实践工作流程开发。
与成员馆和小组合作,如PCC、OCLC元数据首创咨询组、MOUG(音乐OCLC用户组 )、OLAC(关注非印刷资料的编目员组织)、OCLC CJK用户组等。

MODS到BIBFRAME映射

MODS(Metadata Object Description Schema,元数据对象描述方案)是美国国会图书馆(LC)在21世纪初提出的书目元素集XML规范,基于MARC21书目格式。不同于LC上世纪末提出的MARCXML直接采用MARC21及其字段、子字段名(数字+字母),MODS取MARC21最常用子集,采用基于英语的标签表达元素(比如titleInfo)。最新版为3.7(2018-1-4)。
由于MODS基于MARC21书目格式,图书馆在建立数字资源库时可以方便地由现有MARC记录转换,且其比都柏林核心15个基本元素具有更丰富的书目信息表达能力,因而在国外数字图书馆项目中有较多应用。
时光流转,技术逐渐由XML转向RDF,LC开始MODS RDF行动计划(MODS RDF Initiatives),打算把MODS转换到RDF,并建立了MODS/RDF命名空间(MODS/RDFNamespace Document,草案,最后更新2012-06-19)。然而此计划多年来一直处于“进行中”,2011年开始的由书目框架取代MARC的计划应该是重要原因。
随着BIBFRAME开发逐渐完成,官方的MODS编辑委员会提出《MODS 3.6到BIBFRAME 2.0转换》(MODS 3.6 to BIBFRAME 2.0 Conversion,2018-2-1),有放弃MODS/RDF直接采用BIBFRAME的迹象。
上述转换文件按20个MODS顶层元素列出MODS到BF2的转换。转换大量采用空节点方式(如mods:name对应BF:_:w a bf:Work bf:contribution [a bf:Contribution ; bf:agent [a bf:Agent] .),且有很多特性没有映射,也就是说BIBFRAME达不到MODS的揭示粒度——考虑到MODS只是MARC21的子集,这似乎有点不可思议。

BIBFRAME扩展:哈佛电影本体及动态图像扩展

在LD4P和LD4L-Labs项目中,哈佛大学的工作包括对哈佛电影档案馆(Harvard Film Archive, HFA)馆藏的关联数据转换。据哈佛的LD4P项目计划(Harvard Project Proposal,由 Alissa Hafele创建, 最终由 Michelle Futornick修改于 二月 07, 2017):
“作为LD4L-Labs配套项目(5.2哈佛电影档案馆(HFA))的一部分,哈佛将探索和评估将动态图像资源的遗留元数据转换为关联数据的问题。本项目还将探讨使关联数据对研究和发现有用的问题。将开发元数据转换工具,为哈佛电影档案馆(HFA)拥有的各种格式(电影拷贝、底片、DVD、VHS、超8等)和内容(故事片、预告片、家庭电影、民族志电影、宣传片)及相关档案资料(包括制作元素、艺术品、电影剧照和宣传短片)创建关联数据描述。本项目将评估BIBFRAME作为数据模型用于描述动态图像资料,对于研究需求的有效性,并在关联数据环境中识别用于描述这些材料的特定词汇表。HFA项目将为HFA电影拷贝数据库中的记录创建映射,重点关注女性导演的一部分动态图像材料(之前曝光不足的作品,在许多情况下是该馆藏的独特之处)。在可能的情况下,实体将与关联数据URI进行调和,包括个人和公司名称(ISNI、LCNAF)、地名(GeoNames)、体裁(LC体裁/形式、Getty AAT)和作品。”

据介绍项目完成了35,000电影单件从Filemaker Pro数据库到关联数据的转换,生成3,600,000三元组,1,000电影制作人名称获取到ISNI身份。为描述HFA资料所用的哈佛电影本体,对BIBFRAME在动态图像资源方面估了有限的扩展,称为MI扩展(MI extension)。
哈佛电影档案使用主要本体如下(注意到非限定RDA得到多处利用):
描述领域:Works ; Instances ; Items;模型/本体: BIBFRAME
描述领域:Work to work relationships;模型/本体:BIBFRAME, RDAU, MI extension
描述领域:Titles ; Notes ; Annotations;模型/本体:Bibliotek-o, Web Annotations
描述领域:Activities and Agents;模型/本体:Bibliotek-o, dcterms, ISNI, FOAF
描述领域:Content/Carrier/Media ; Subjects ; Genres ;模型/本体:dcterms, schema.org, MI extension
描述领域:AV characteristics and preservation;模型/本体:RDAU, MI extension
描述领域:Provenance;模型/本体:ArtFrame-RareMat

via: LD4P + LD4L Labs projects for geospatial and cartographic resources + moving image materials at Harvard (Marc McGee and Christine Fernsebner Eslao; presentation for IGELU-ELUNA Linked Open Data Working Group Show & Tell, July 10, 2018,梯子自备) [slides]

去GitHub上的LD4L_Film_Ontology(2018-4-20最后更新)看MI extension.ttl,新增词表中技术细节不多,更偏重使用。概要如下:

新增类(4个)及其取值(Individuals,41个)
mi:ConditionDefect(缺陷情况),18个取值
mi:ConditionGrade(等级情况),4个取值
mi:Caution(注意),11个取值
mi:ColorCharacteristic(色彩特征),8个取值

新增子类(5个):
bf:Identifier子类:
– mi:ImdbNumber(IMDb标识符)
活动子类(bib:指bibliotek-o.org命名空间)
bib:Activity 子类
– mi:ProductionCompanyActivity(?原文件说明有误)
– mi:UseActivity(使用)
— mi:ScreenerActivity(促销放映)
bib:AcquisitionActivity 子类
– mi:PurchaseActivity(购买)

新增属性(4个):
dcterms:language(语言)子属性:
– mi:intertitleLanguage
– mi:spokenLanguage
– mi:subtitleLanguage
rdau:P60305(is based on)子属性http://www.rdaregistry.info/Elements/u/#P60305
– mi:isPromotionFor(是……的宣传片)【2018-4-20 最后增加】

更多详细信息见:Working documents for Moving Images LD4L Labs(Created by Christine Fernsebner Eslao, last modified on Apr 18, 2017)