2020ALA仲冬会议BIBFRAME更新论坛

2020年了,ALA仲冬会议照例有BIBFRAME更新论坛。此次仍是5个报告:第1个按惯例是LC介绍BIBFRAME进展;第2个是加拿大Alberta大学作为LD4P2合伙人的实施报告;第3个是合作编目项目PCC,讨论其在LD4P2中的作用;第4个是一直不曾缺席的OCLC;第5个是LC的BIBFRAME到MARC转换。与历年不同的是,本次没有厂商报告。

从报告内容看,多个报告涉及LD4P2项目及其关联数据编辑器Sinopia,延续了半年前的更新论坛(当时有2个报告)。

参见:
LD4P2走向实施之路:目标与工作(附LD4系列)(2019-1-8)
2019 ALA年会BIBFRAME更新论坛(2019-8-30)

BIBFRAME Update Forum at the ALA Midwinter Meeting 2020 (2020-1-26)

报告一、(LC)Introduction and Library of Congress 2020 Goals (PPT, 457 KB;3页) / Sally H. McCallum, Library of Congress

内容仅2页PPT。其一列近期BIBFRAME活动(4项),除EBW外当天均有报告:
[1] 斯坦福领导合伙人(Cohort)项目(梅隆基金):合伙人创建描述
[2] PCC参与活动
[3] OCLC的新梅隆项目【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
[4] 斯德哥尔摩的欧洲BIBFRAME研讨会(EBW)【内容丰富,PPT见会议网站:European BIBFRAME Workshop 2019 (2019-9-17/18)】
其二列LC的2020年目标,未涉及真正实施话题,仍是准备状态:
[1] 把系统移到云并稳定化:a、用改进算法重新转换文件;b、稳定模型问题,涉及题名规范、非拉丁文字、与MARC关系;c、稳定MARC到BF和BF到MARC转换
[2] 编辑器再开发【不知道与Sinopia是什么关系?】
[3] LC分类法用ID【URI?】
[4] 完善名称规范模型
[5] 审核并改进文档

报告二、(LD4P2)BIBFRAME Implementation at the University of Alberta Library: Canadian Cohort of LD4P2 (PPT, 2.76 MB;18页) / Abigail Sparling and Ian Bigelow, University of Alberta Library

  • 分享UAL如何从组织上加以支持,参与BIBFRAME相关活动,包括:PCC URI in MARC委员会/PCC URI试验;加拿大BIBFRAME准备工作小组(BIBFRAME Readiness Task Force & Linked Data Initiative);Share VDE;LD4P2等。
  • UAL参加LD4P2合伙人项目概要(略)

报告三、(PCC)PCC roles and files (PPT, 3.87 MB;12页) / Jennifer Baxmeyer, Princeton University

  • PCC在LD4P2中的2个职能:创建与维护PCC批准的应用配置文件(目前尚未启动);开发与提供持续的培训(围绕Sinopia编辑器)。
  • 另外将与LD4P、OCLC合作,创建PCC数据池:将包含所有PCC编目(BIBCO和CONSER)的BIBFRAME表达,无论是过去、现在还是将来。以MARC表示的PCC编目以及对该编目的任何更新,将通过OCLC建立的新管道提供给LD4P,以转换为BIBFRAME。

报告四、(OCLC)Update from OCLC (PPT, 13.56 MB;19页) / Nathan Putnam, Director of Metadata Quality, OCLC 

报告五、(LC)BIBFRAME to MARC data conversion (PPT, 920 KB;14页) / Jodi Williamschen, Library of Congress

  • 1、由BIBFRAME转换的MARC数据,与原MARC数据有什么不同?
  • $0更多URI:MARC到BF转换添加很多URI,尽可能保留(例:336、650、655、710)
  • 无007但更多3XX:MARC到BF转换,007的特定位被赋予BF属性或类并给予URI;对BF到MARC转换,数据元素被赋予一个匹配的3XX字段+子字段(例:338、340、344)
  • 通用008:00-17,35-37【未看出不同】
  • 所有体裁/形式术语在655
  • 无880:原文字放在对应字段(例:245,246,264,500)
  • 241归来(罗马化题名):原文字题名在245
  • 某些数据清理:更多数据一致(例:020用$q,260用264)
  • 更少ISBD标点【参见:《PCC最少标点MARC书目记录指南》的弃用ISBD标点规定(2020-1-18)】
  • 2、对MARC到BF转换的影响及调整(略)

ALA 2019仲冬会议的BIBFRAME更新论坛

德国国家图书馆的Reinhold Heuvelmann在BIBFRAME邮件组发消息,看到BIBFRAME更新论坛的所有报告都上线了(官方未发信息)。

2011年书目框架行动启动以来,自2012年冬起更新论坛每年2次在ALA仲冬和夏季年会中举办。参见:
LC书目框架转换行动:首届更新论坛(2012-2-7)
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29)
2016 ALA年会BIBFRAME更新论坛(2016-8-27)
2017年BIBFRAME更新论坛(2017-7-26)
2018年BIBFRAME更新论坛(2018-11-14)

今年照例除美国国会图书馆(LC)本身外,还请了其他机构,除从不缺席的OCLC,特别是欧洲的出席,共4家5个报告。
BIBFRAME Update Forum at ALA Midwinter Meeting 2019 (2019-1-27)

一、LC的BIBFRAME试验扩展
1、Expanding the Pilot / Sally McCallum, Library of Congress (PPT, 76KB)
【完成了从MARC到BIBFRAME转换,开始反向转换。】
转换的动机。
转换中遇到的问题,包括:BIBFRAME作品到MARC题名规范或者书目作品?非拉丁文字880字段;来自BIBFRAME数据的URI(带入MARC);MARC子字段末尾标点(不再有)。

2、Anonymous Resources, Blank Nodes, And Providers, Oh My! / Kevin Ford, Library of Congress (PPT, 392KB)
【本次会议最有意思的报告:BIBFRAME转换的匿名资源或空节点问题,实验通过规范控制或实体URI减少空节点】
使用匿名资源会导致大量重复资源,匿名资源的数量正在导致或将导致性能和扩展问题。
以“提供者”(主要是出版者)为例:在1800万MARC书目记录中=约1500万匿名提供者Agent资源。其中许多(大多数?)表达相同实体,比如Harcourt Brace, Penguin Books, Harper Collins。1500万中有120万独特提供者。
因此我们创建了一个“提供者”文档……做实验【即出版社规范档:id.loc.gov/bfentities/providers/…,实验对出版社使用URI】

二、LD4P2
3、LD4P Status update / Philip Schreur, Stanford University (PPT, 868KB)
介绍使用Sinopia作为BIBFRAME编辑器,使用SHARE-VDE转换记录为BIBFRAME(2018年BIBFRAME更新论坛上有SHARE-VDE介绍),以及LD4P的成果。
参见:
BIBFRMAE应用进展:LD4P实施之路(2018-7-8)
LD4P2走向实施之路:目标与工作(附LD4系列)(2019-1-8)

三、欧洲BIBFRAME研讨会
4、European BIBFRAME Workshop / Reinhold Heuvelmann, German National Library (PPT, 3.23MB)
欧洲BIBFRAME研讨会已经召开两届,每年9月召开:
2017.9.26-27 European BIBFRAME Workshop 2017, German National Library, Frankfurt https://wiki.dnb.de/display/EBW
2018.9.17-19 European BIBFRAME Workshop 2018, European University Institute, Fiesole (Florence), Italy http://www.casalini.it/EBW2018
2019.9.17-18 European BIBFRAME Workshop 2019, National Library of Sweden, Stockholm,

四、OCLC
5、OCLC BIBFRAME Update / Nathan Putnam, OCLC (PPT, 13.61MB)
介绍OCLC研究部的BIBFRAME相关工作:
* 使用LC的转换器,将WorldCat中的MARC记录转换为BIBFRAME数据,得到的经验教训是:[1]作品ID很重要,在处理开始就有用;[2]URI很重要,空节点=不可互操作;[3]OCLC处理书目记录=很少单件/实例数据【?】。
* OCLC研究部当前活动:创建可用的BIBFRAME数据图,供最终用户测试,已经完成:[1]Hash URI代替空节点;[2]移除已经有VIAF或FAST的额外实体属性【指哪些?】;[3]评审BIBFRAME管理数据【BF管理元数据放在作品下有点奇怪】;[4]在WorldCat记录集上测试图修改。
* 现在:OCLC研究部与全球产品管理部共享信息,前进的道路取决于回答有关问题:[1]工作流程,[2]用例,[3]期望成果/服务。
* 向前走,我们知道我们将提供BIBFRAME数据,需要答案的问题集中在社区需要和期望的内容上:[1]重要的是什么(标识符来源,转换选项,质量等);[2]如何评估数据?(API、下载、导出等)[3]应当强化什么?[4]WorldCat中的编目工作流程是什么?
* 与成员馆合作:
与RLP成员合作:[1]焦点小组,[2]收集需求,[3]期望的工作流程,[4]实践工作流程开发。
与成员馆和小组合作,如PCC、OCLC元数据首创咨询组、MOUG(音乐OCLC用户组 )、OLAC(关注非印刷资料的编目员组织)、OCLC CJK用户组等。

BIBFRAME扩展:哈佛电影本体及动态图像扩展

在LD4P和LD4L-Labs项目中,哈佛大学的工作包括对哈佛电影档案馆(Harvard Film Archive, HFA)馆藏的关联数据转换。据哈佛的LD4P项目计划(Harvard Project Proposal,由 Alissa Hafele创建, 最终由 Michelle Futornick修改于 二月 07, 2017):
“作为LD4L-Labs配套项目(5.2哈佛电影档案馆(HFA))的一部分,哈佛将探索和评估将动态图像资源的遗留元数据转换为关联数据的问题。本项目还将探讨使关联数据对研究和发现有用的问题。将开发元数据转换工具,为哈佛电影档案馆(HFA)拥有的各种格式(电影拷贝、底片、DVD、VHS、超8等)和内容(故事片、预告片、家庭电影、民族志电影、宣传片)及相关档案资料(包括制作元素、艺术品、电影剧照和宣传短片)创建关联数据描述。本项目将评估BIBFRAME作为数据模型用于描述动态图像资料,对于研究需求的有效性,并在关联数据环境中识别用于描述这些材料的特定词汇表。HFA项目将为HFA电影拷贝数据库中的记录创建映射,重点关注女性导演的一部分动态图像材料(之前曝光不足的作品,在许多情况下是该馆藏的独特之处)。在可能的情况下,实体将与关联数据URI进行调和,包括个人和公司名称(ISNI、LCNAF)、地名(GeoNames)、体裁(LC体裁/形式、Getty AAT)和作品。”

据介绍项目完成了35,000电影单件从Filemaker Pro数据库到关联数据的转换,生成3,600,000三元组,1,000电影制作人名称获取到ISNI身份。为描述HFA资料所用的哈佛电影本体,对BIBFRAME在动态图像资源方面估了有限的扩展,称为MI扩展(MI extension)。
哈佛电影档案使用主要本体如下(注意到非限定RDA得到多处利用):
描述领域:Works ; Instances ; Items;模型/本体: BIBFRAME
描述领域:Work to work relationships;模型/本体:BIBFRAME, RDAU, MI extension
描述领域:Titles ; Notes ; Annotations;模型/本体:Bibliotek-o, Web Annotations
描述领域:Activities and Agents;模型/本体:Bibliotek-o, dcterms, ISNI, FOAF
描述领域:Content/Carrier/Media ; Subjects ; Genres ;模型/本体:dcterms, schema.org, MI extension
描述领域:AV characteristics and preservation;模型/本体:RDAU, MI extension
描述领域:Provenance;模型/本体:ArtFrame-RareMat

via: LD4P + LD4L Labs projects for geospatial and cartographic resources + moving image materials at Harvard (Marc McGee and Christine Fernsebner Eslao; presentation for IGELU-ELUNA Linked Open Data Working Group Show & Tell, July 10, 2018,梯子自备) [slides]

去GitHub上的LD4L_Film_Ontology(2018-4-20最后更新)看MI extension.ttl,新增词表中技术细节不多,更偏重使用。概要如下:

新增类(4个)及其取值(Individuals,41个)
mi:ConditionDefect(缺陷情况),18个取值
mi:ConditionGrade(等级情况),4个取值
mi:Caution(注意),11个取值
mi:ColorCharacteristic(色彩特征),8个取值

新增子类(5个):
bf:Identifier子类:
– mi:ImdbNumber(IMDb标识符)
活动子类(bib:指bibliotek-o.org命名空间)
bib:Activity 子类
– mi:ProductionCompanyActivity(?原文件说明有误)
– mi:UseActivity(使用)
— mi:ScreenerActivity(促销放映)
bib:AcquisitionActivity 子类
– mi:PurchaseActivity(购买)

新增属性(4个):
dcterms:language(语言)子属性:
– mi:intertitleLanguage
– mi:spokenLanguage
– mi:subtitleLanguage
rdau:P60305(is based on)子属性http://www.rdaregistry.info/Elements/u/#P60305
– mi:isPromotionFor(是……的宣传片)【2018-4-20 最后增加】

更多详细信息见:Working documents for Moving Images LD4L Labs(Created by Christine Fernsebner Eslao, last modified on Apr 18, 2017)