用Wikibase创建图书馆关联数据:通道项目的经验

2017-2018年OCLC实施了由16个图书馆参与的“通道项目”(Project Passage),用Wikibase创建图书馆关联数据。2019年8月项目报告发布,参见:OCLC发布报告:用Wikibase创建图书馆关联数据(2019-10-10)

报告发布前,报告作者之一Karen Smith-Yoshimura在研究部博客Hanging Together上发表了2篇介绍博文。以下摘译部分看后有所感的内容:

Summarizing Project Passage experiences in creating library linked data in Wikibase (1 of 2) (July 11, 2019)

【一、多语言作品】
Karen Smith-Yoshimur和加州大学戴维斯校区的Xiaoli Li在2019年6月18日举行的本项目网络会议Works in Progress Webinar: Case Studies from Project Passage Focusing on Wikidata’s Multilingual Support上有关多语言支持的报告,认为,规范和书目数据之间的传统区别在Wikibase描述中消失了【BF2.0模型中可见】。多语言描述不需要受“首选形式”的约束【BF2.0没有规范检索点、只有标签】,也不需要输入音译,因为其他人可以在不同语言和书写系统中添加描述。“编目语言”的概念在这种环境中消失了。【编目语言恐怕还是会存在的——“转录”或“检索点”自然无所谓语言,但还是有其他描述需求与语言有关,比如载体形态:1册,1 volume,1 band】

【二、图像资源】
1、历史地图:包括自然特征、人造建筑、土地所有者名称、道路和区域边界。地图与出版商、地点和日期之间有复杂联系,也需要新“角色”如“测量员”。项目的编辑工作流程允许开放式添加细节和关系,如在地图上直观显示的特征,但除自由文本外,在MARC中难以或不可能表达。【BF2.0模型中新增“事件”对此会有所帮助】
2、音乐会海报、人物明信片、抗议集会照片:3个用例都与一个事件相关联,元数据专家必须努力解决投入多少精力来创建相关实体,以便为解释提供机器可理解的上下文,以及什么时候理智地停止。【事件,描述的深度、粒度】
3、教会的音乐作品(1436年在佛罗伦萨大教堂的奉献下委托并演出):描述乐谱、奉献事件以及两者之间相互关联的单件和属性产生了关系网络,超越目前基于MARC的图书馆规范档中表示的细节。【事件】【5个案例,均表明“事件”与“关系”的重要性——对内容的深度揭示,是编目未来的重点】
Summarizing Project Passage experiences in creating library linked data in Wikibase (2 of 2) (July 17, 2019)
一些思考:
【1】范式转换:从人类可读的记录到知识图谱的转换代表了范式转换。即使输出看起来不同,编目人员在当前和新工作流程中为描述资源而进行的智力工作有许多相似之处,但某些任务和实践将变得过时,需要一些新的任务【以下有若干例子】。最重要的新任务是将焦点从“手头单件”更改为“什么实体对该对象重要?”
【2 过时的实践】【1)规范形式】在书目和规范记录中创建和规范自然语言文本字符串的工作已成为过时的任务【联想:GDPR的个人隐私包括出生日期】。【2)ISBD标点】一些当前实践显得微不足道、毫无意义,如在MARC记录中花费在ISBD标点上的时间。【3)音译】在本质上是多语言的环境中,MARC的编目语言概念以及提供音译的要求变得过时了。
【3 需要最佳实践】在关联数据环境中创建元数据时,仍然需要解释性上下文、结构化和叙述性数据、最佳实践以及坚持权威性和质量的价值。对“实体化”的强调自然是从图书馆当前的实践演变而来的。当社区将Wiki内容纳入其工作流程时,我们将需要确定适当的上下文、结构化和叙述性数据以及维护我们价值观的最佳实践。
【4】重塑众包:参与者看到了众包潜力,可以丰富在Wikibase编辑界面中创建的知识图谱。修订历史和讨论页面可以支持此工作,该页面跟踪给定Wikibase实体的每个编辑,每个页面都与注册的用户名和时间戳相关联。对比当前资源描述工作流程中,MARC记录只能标记为“已修改”却没有书面记录谁更改了什么内容,因此妨碍了质量管理;而讨论在编辑环境之外进行(通常在专业邮件组),丢失了与受影响内容的连接。
【5 众包的质量控制】试验参与者担心,在Wikibase环境中进行众包仍可能会添加来自未知来源的未经审查的信息,这会削弱已策展的图书馆数据的完整性。众包人群可能具有一系列的技能和专长,这些技能和专长并不都适合于给定的描述任务或用例。但是毫无疑问,某些人群确实拥有补充或辅助图书馆和档案馆工作人员知识的知识。如熟悉非英语和非拉丁文字材料的学者可以充实缺乏这种专业知识的图书馆员和档案管理员创建的元数据。 

OCLC发布报告:用Wikibase创建图书馆关联数据

在MARC时代,由于工作界面和读者界面分离,编目员习惯了只求耕耘、不问收获,大多埋头填写MARC字段,很少甚至从来不用OPAC,既不关心编目结果如何呈现给读者(并非所有字段、子字段都会在OPAC上显示),也不了解读者有哪些途径查找目录(很多图书馆自动化系统,工作人员内部与外部OPAC的检索途径不尽一致)。当大环境发生改变,编目的作用一再被忽视后,其结果是编目员自己也不免对编目产生怀疑。

OCLC的“通道项目”(Project Passage)基于Wikidata所用的Wikibase,在关联数据环境下进行描述图书馆和档案馆资源的试验,达到无需了解关联数据的技术机制,也无需离开元数据创建工作流程,通过项目团队开发的工具:1) 发现界面Explorer,即能查看他们的工作成果;2) 检索器Retriever可将外部数据引入Wikibase实例,作为新资源描述的基础。这两个工具简化了描述任务,又可使人们看到正在进行的工作的效果,不仅有助于编目员理解关联数据的作用,也可激发编目员的工作热情。用项目介绍博文的说法是,“使他们能够在当前和新的实践标准之间进行直接比较,同时保留最重要的图书馆员的价值观。”

项目实施于2017-2018年,之前OCLC并没有提到项目名称。参见博文:OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)(2018-11-24)。文中对Wikibase作了介绍。

项目主页:Linked Data Wikibase Prototype
其中提到项目在三个主要领域实现了目标:
1. 协作:OCLC员工团队和来自16个机构的数十名图书馆员在关联数据生态系统中创建了用例,创建了实体并进行了编辑,使用OCLC社区中心讨论工作流程和提出问题,并参加了28个月的会议和每周的“办公时间”会议。
2. 调和服务:使用SPARQL端点和一个名为“Explorer”的用户界面,尝试对实体协调/协调的编目工作流程。
3. 编辑:在原生Wikibase用户界面中管理实体,Explorer,以及另一个实验性应用程序“The Retriever检索器”。
在项目开始时描述的简单原型已经逐渐成熟,可以使用一组强大的第三方工具和本地应用程序来管理超过100万个Wikidata实体。由项目参与者的新想法、要求的功能以及对应用程序和原型使用指南的反馈,推动了该项目向更全面的工具和应用程序集的演进。

项目结束将近一年,OCLC发布了报告《用Wikibase创建图书馆关联数据》,由部分参与项目的合作图书馆成员及OCLC人员共同完成:

Creating Library Linked Data with Wikibase: Lessons Learned from Project Passage / By Jean Godby, Karen Smith-Yoshimura, Bruce Washburn, Kalan Knudson Davis, Karen Detling, Christine Fernsebner Eslao, Steven Folsom, Xiaoli Li, Marc McGee, Karen Miller, Honor Moody, Craig Thomas, and Holly Tomren. 2019-8

在报告发布前,报告作者之一Karen Smith-Yoshimura在研究部博客Hanging Together上发表了2篇介绍博文:
Summarizing Project Passage experiences in creating library linked data in Wikibase (1 of 2) (July 11, 2019)
Summarizing Project Passage experiences in creating library linked data in Wikibase (2 of 2) (July 17, 2019)
[update 2019-10-15] 内容参见:用Wikibase创建图书馆关联数据:通道项目的经验(2019-10-15)

图书馆在编目领域采用关联数据应该是一个确定的方向,不清楚的是如何采用。各家都在探索,既包括标准,也包括工具。OCLC作为业界大腕,也是最早且持续的探索者。不知此项目对OCLC的工作会有怎样的实际影响。参见:

ALA 2019仲冬会议的BIBFRAME更新论坛

德国国家图书馆的Reinhold Heuvelmann在BIBFRAME邮件组发消息,看到BIBFRAME更新论坛的所有报告都上线了(官方未发信息)。

2011年书目框架行动启动以来,自2012年冬起更新论坛每年2次在ALA仲冬和夏季年会中举办。参见:
LC书目框架转换行动:首届更新论坛(2012-2-7)
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29)
2016 ALA年会BIBFRAME更新论坛(2016-8-27)
2017年BIBFRAME更新论坛(2017-7-26)
2018年BIBFRAME更新论坛(2018-11-14)

今年照例除美国国会图书馆(LC)本身外,还请了其他机构,除从不缺席的OCLC,特别是欧洲的出席,共4家5个报告。
BIBFRAME Update Forum at ALA Midwinter Meeting 2019 (2019-1-27)

一、LC的BIBFRAME试验扩展
1、Expanding the Pilot / Sally McCallum, Library of Congress (PPT, 76KB)
【完成了从MARC到BIBFRAME转换,开始反向转换。】
转换的动机。
转换中遇到的问题,包括:BIBFRAME作品到MARC题名规范或者书目作品?非拉丁文字880字段;来自BIBFRAME数据的URI(带入MARC);MARC子字段末尾标点(不再有)。

2、Anonymous Resources, Blank Nodes, And Providers, Oh My! / Kevin Ford, Library of Congress (PPT, 392KB)
【本次会议最有意思的报告:BIBFRAME转换的匿名资源或空节点问题,实验通过规范控制或实体URI减少空节点】
使用匿名资源会导致大量重复资源,匿名资源的数量正在导致或将导致性能和扩展问题。
以“提供者”(主要是出版者)为例:在1800万MARC书目记录中=约1500万匿名提供者Agent资源。其中许多(大多数?)表达相同实体,比如Harcourt Brace, Penguin Books, Harper Collins。1500万中有120万独特提供者。
因此我们创建了一个“提供者”文档……做实验【即出版社规范档:id.loc.gov/bfentities/providers/…,实验对出版社使用URI】

二、LD4P2
3、LD4P Status update / Philip Schreur, Stanford University (PPT, 868KB)
介绍使用Sinopia作为BIBFRAME编辑器,使用SHARE-VDE转换记录为BIBFRAME(2018年BIBFRAME更新论坛上有SHARE-VDE介绍),以及LD4P的成果。
参见:
BIBFRMAE应用进展:LD4P实施之路(2018-7-8)
LD4P2走向实施之路:目标与工作(附LD4系列)(2019-1-8)

三、欧洲BIBFRAME研讨会
4、European BIBFRAME Workshop / Reinhold Heuvelmann, German National Library (PPT, 3.23MB)
欧洲BIBFRAME研讨会已经召开两届,每年9月召开:
2017.9.26-27 European BIBFRAME Workshop 2017, German National Library, Frankfurt https://wiki.dnb.de/display/EBW
2018.9.17-19 European BIBFRAME Workshop 2018, European University Institute, Fiesole (Florence), Italy http://www.casalini.it/EBW2018
2019.9.17-18 European BIBFRAME Workshop 2019, National Library of Sweden, Stockholm,

四、OCLC
5、OCLC BIBFRAME Update / Nathan Putnam, OCLC (PPT, 13.61MB)
介绍OCLC研究部的BIBFRAME相关工作:
* 使用LC的转换器,将WorldCat中的MARC记录转换为BIBFRAME数据,得到的经验教训是:[1]作品ID很重要,在处理开始就有用;[2]URI很重要,空节点=不可互操作;[3]OCLC处理书目记录=很少单件/实例数据【?】。
* OCLC研究部当前活动:创建可用的BIBFRAME数据图,供最终用户测试,已经完成:[1]Hash URI代替空节点;[2]移除已经有VIAF或FAST的额外实体属性【指哪些?】;[3]评审BIBFRAME管理数据【BF管理元数据放在作品下有点奇怪】;[4]在WorldCat记录集上测试图修改。
* 现在:OCLC研究部与全球产品管理部共享信息,前进的道路取决于回答有关问题:[1]工作流程,[2]用例,[3]期望成果/服务。
* 向前走,我们知道我们将提供BIBFRAME数据,需要答案的问题集中在社区需要和期望的内容上:[1]重要的是什么(标识符来源,转换选项,质量等);[2]如何评估数据?(API、下载、导出等)[3]应当强化什么?[4]WorldCat中的编目工作流程是什么?
* 与成员馆合作:
与RLP成员合作:[1]焦点小组,[2]收集需求,[3]期望的工作流程,[4]实践工作流程开发。
与成员馆和小组合作,如PCC、OCLC元数据首创咨询组、MOUG(音乐OCLC用户组 )、OLAC(关注非印刷资料的编目员组织)、OCLC CJK用户组等。