SWIB19:语义网在图书馆会议(报告概要)

第11届语义网在图书馆会议(SWIB19)将于2019年11月25-27日在德国汉堡举行。第1天下午是培训讲习班;第2-3天会议,主旨发言分别是Saskia Scheltjens和曾蕾教授。会议议程有报告摘要,可以先了解大致情况。

首次SWIB会议2009年举办,会名缩写来自德文(SEMANTIC WEB IN BIBLIOTHEKEN),历届会议报告也大都来自欧州。本次会议可见欧洲对语义网/关联数据在图书馆应用探索深入,尤其是多国的国家图书馆。

培训班(半天)

教授相关软件的实际操作,可了解语义网/关联数据在图书馆领域的在用工具。今年有5个培训:

  • 1、Jupyter Notebooks入门(交互式笔记本)
  • 2、用Cocoda映射受控词表
  • 3、OpenRefine入门【参见:OpenRefine数据处理工具(2016-7-9)】
  • 4、用Annif自动化主题标引
  • 5、动手IIIF:如何安装、配置和准备简单的IIIF服务(国际图像互操作框架International Image Interoperability Framework)

第1天会议

1、(主旨报告)永远在两者之间:图档博关联开放数据(LODLAM)的异同、机遇与责任 / Saskia Scheltjens(荷兰国立博物馆)

2、在Data.Bibliotheken.nl上发布关联数据 / René Voorburg(荷兰国家图书馆)荷兰国家图书馆的data.bibliotheken.nl,目前以schema.org序列化,正在进行基于LRM和PREMIS的模型。

3、2千万个URI和芬兰图书馆界主题索引的全面改革 / Matias Frosterus等(芬兰国家图书馆)从叙词表YSA转换到本体YSO;不仅全国联合目录Melinda转换,还有开源转换程序提供其他图书馆本地使用。

4、进出:西班牙国家图书馆的图书馆数据和关联数据之间的工作流程 / Ricardo Santos(西班牙国家图书馆)由VIAF标识符数据包文件抽取Wikidata标识符,加载到规范记录;再从Wikidata提取8万多人的属性信息,丰富规范数据。

5、从原始数据到更丰富的数据:汇总元数据时的经验教训 / Julia Beck(德国法兰克福大学图书馆)汇总德语文化遗产机构的演艺元数据(异构数据)于VuFind搜索门户

6、NAISC:图书馆领域的权威关联数据互连方法 / Lucy McKenna等(爱尔兰都柏林三一学院)继续SWIB 2018曾介绍的NAISC,创建实体(如人、地点或作品)间链接,采用PROV-O作为基础本体加以扩展。

7、酷和BnF帮:法国国家图书馆关于处理永久标识符的一些想法 / Raphaëlle Lapôtre(法国国家图书馆)

第2天会议

1、(主旨报告)用于数字人文的智慧数据 / 曾蕾(美国肯特州立大学)

2、数字资源和研究数据:链接且可用 / Florian Kräutli等(德国马克斯·普朗克科学史研究所)马克斯·普朗克人文数字研究基础设施(MP-DRIH),基础架构的中心是知识图谱,使用CIDOC-CRM作为通用模型,采用基于语义数据平台Metaphactory的软件系统ResearchSpace使用生成的图谱。

3、BIBFRAME内外的数据建模 / Tiziana Possemato(意大利@Cult and Casalini Libri公司)依据BIBFRAME,Share-VDE已进入生产阶段。扩展BF本体,增加概念:超级作品、主实例。【其用户界面与早先的Share目录类似。参见:BIBFRAME 2.0实施注册新增项目(附:意大利SHARE目录)(2017-7-25】

4、图书馆目录的实证评估 / Péter Király(德国GWDG)用工具分析MARC目录的问题:字段/子字段/指示符、词典取值等错误;计算完整性,基于FRBR用户任务运行功能分析。

5、简单应用纲要/应用程序配置文件设计 / Karen Coyle / Tom Baker(DCMI)2019.4成立的DCMI AP兴趣小组的工作

6、SkoHub:通过ActivityPub基于KOS的内容联合 / Adrian Pohl等(德国hbz)/ Felix Ostrowski(graphthinking GmbH)2家企业合作的SkoHub项目,利用社交网络协议ActivityPub,发送和订阅受控词表中定义的主题的通知。

7、提出丰富的关联开放数据集视图:S路径原型和data.bnf.fr中FRBR化数据的可视化 / Raphaëlle Lapôtre等(法国国家图书馆,法国国家信息与自动化研究所)data.bnf.fr团队与人机交互研究团队ILDA合作,设计交互数据可视化界面“S路径”,使用户可以更直观地导航关联开放数据。S路径对于揭示数据源中的缺陷、可视化建模特性以及显示可用于与最终用户进行通信的数据趋势非常有用。

8、目标词汇表映射 / Niklas Lindström(瑞典国家图书馆)

9、在OCLC研究部的关联数据Wikibase原型中表示图书馆元数据的经验教训 / Karen Smith-Yoshimura(美国OCLC)

参见:
OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)(2018-11-24)
OCLC发布报告:用Wikibase创建图书馆关联数据(2019-10-10)
用Wikibase创建图书馆关联数据:通道项目的经验(2019-10-15)

用Wikibase创建图书馆关联数据:通道项目的经验

2017-2018年OCLC实施了由16个图书馆参与的“通道项目”(Project Passage),用Wikibase创建图书馆关联数据。2019年8月项目报告发布,参见:OCLC发布报告:用Wikibase创建图书馆关联数据(2019-10-10)

报告发布前,报告作者之一Karen Smith-Yoshimura在研究部博客Hanging Together上发表了2篇介绍博文。以下摘译部分看后有所感的内容:

Summarizing Project Passage experiences in creating library linked data in Wikibase (1 of 2) (July 11, 2019)

【一、多语言作品】
Karen Smith-Yoshimur和加州大学戴维斯校区的Xiaoli Li在2019年6月18日举行的本项目网络会议Works in Progress Webinar: Case Studies from Project Passage Focusing on Wikidata’s Multilingual Support上有关多语言支持的报告,认为,规范和书目数据之间的传统区别在Wikibase描述中消失了【BF2.0模型中可见】。多语言描述不需要受“首选形式”的约束【BF2.0没有规范检索点、只有标签】,也不需要输入音译,因为其他人可以在不同语言和书写系统中添加描述。“编目语言”的概念在这种环境中消失了。【编目语言恐怕还是会存在的——“转录”或“检索点”自然无所谓语言,但还是有其他描述需求与语言有关,比如载体形态:1册,1 volume,1 band】

【二、图像资源】
1、历史地图:包括自然特征、人造建筑、土地所有者名称、道路和区域边界。地图与出版商、地点和日期之间有复杂联系,也需要新“角色”如“测量员”。项目的编辑工作流程允许开放式添加细节和关系,如在地图上直观显示的特征,但除自由文本外,在MARC中难以或不可能表达。【BF2.0模型中新增“事件”对此会有所帮助】
2、音乐会海报、人物明信片、抗议集会照片:3个用例都与一个事件相关联,元数据专家必须努力解决投入多少精力来创建相关实体,以便为解释提供机器可理解的上下文,以及什么时候理智地停止。【事件,描述的深度、粒度】
3、教会的音乐作品(1436年在佛罗伦萨大教堂的奉献下委托并演出):描述乐谱、奉献事件以及两者之间相互关联的单件和属性产生了关系网络,超越目前基于MARC的图书馆规范档中表示的细节。【事件】【5个案例,均表明“事件”与“关系”的重要性——对内容的深度揭示,是编目未来的重点】
Summarizing Project Passage experiences in creating library linked data in Wikibase (2 of 2) (July 17, 2019)
一些思考:
【1】范式转换:从人类可读的记录到知识图谱的转换代表了范式转换。即使输出看起来不同,编目人员在当前和新工作流程中为描述资源而进行的智力工作有许多相似之处,但某些任务和实践将变得过时,需要一些新的任务【以下有若干例子】。最重要的新任务是将焦点从“手头单件”更改为“什么实体对该对象重要?”
【2 过时的实践】【1)规范形式】在书目和规范记录中创建和规范自然语言文本字符串的工作已成为过时的任务【联想:GDPR的个人隐私包括出生日期】。【2)ISBD标点】一些当前实践显得微不足道、毫无意义,如在MARC记录中花费在ISBD标点上的时间。【3)音译】在本质上是多语言的环境中,MARC的编目语言概念以及提供音译的要求变得过时了。
【3 需要最佳实践】在关联数据环境中创建元数据时,仍然需要解释性上下文、结构化和叙述性数据、最佳实践以及坚持权威性和质量的价值。对“实体化”的强调自然是从图书馆当前的实践演变而来的。当社区将Wiki内容纳入其工作流程时,我们将需要确定适当的上下文、结构化和叙述性数据以及维护我们价值观的最佳实践。
【4】重塑众包:参与者看到了众包潜力,可以丰富在Wikibase编辑界面中创建的知识图谱。修订历史和讨论页面可以支持此工作,该页面跟踪给定Wikibase实体的每个编辑,每个页面都与注册的用户名和时间戳相关联。对比当前资源描述工作流程中,MARC记录只能标记为“已修改”却没有书面记录谁更改了什么内容,因此妨碍了质量管理;而讨论在编辑环境之外进行(通常在专业邮件组),丢失了与受影响内容的连接。
【5 众包的质量控制】试验参与者担心,在Wikibase环境中进行众包仍可能会添加来自未知来源的未经审查的信息,这会削弱已策展的图书馆数据的完整性。众包人群可能具有一系列的技能和专长,这些技能和专长并不都适合于给定的描述任务或用例。但是毫无疑问,某些人群确实拥有补充或辅助图书馆和档案馆工作人员知识的知识。如熟悉非英语和非拉丁文字材料的学者可以充实缺乏这种专业知识的图书馆员和档案管理员创建的元数据。 

OCLC发布报告:用Wikibase创建图书馆关联数据

在MARC时代,由于工作界面和读者界面分离,编目员习惯了只求耕耘、不问收获,大多埋头填写MARC字段,很少甚至从来不用OPAC,既不关心编目结果如何呈现给读者(并非所有字段、子字段都会在OPAC上显示),也不了解读者有哪些途径查找目录(很多图书馆自动化系统,工作人员内部与外部OPAC的检索途径不尽一致)。当大环境发生改变,编目的作用一再被忽视后,其结果是编目员自己也不免对编目产生怀疑。

OCLC的“通道项目”(Project Passage)基于Wikidata所用的Wikibase,在关联数据环境下进行描述图书馆和档案馆资源的试验,达到无需了解关联数据的技术机制,也无需离开元数据创建工作流程,通过项目团队开发的工具:1) 发现界面Explorer,即能查看他们的工作成果;2) 检索器Retriever可将外部数据引入Wikibase实例,作为新资源描述的基础。这两个工具简化了描述任务,又可使人们看到正在进行的工作的效果,不仅有助于编目员理解关联数据的作用,也可激发编目员的工作热情。用项目介绍博文的说法是,“使他们能够在当前和新的实践标准之间进行直接比较,同时保留最重要的图书馆员的价值观。”

项目实施于2017-2018年,之前OCLC并没有提到项目名称。参见博文:OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)(2018-11-24)。文中对Wikibase作了介绍。

项目主页:Linked Data Wikibase Prototype
其中提到项目在三个主要领域实现了目标:
1. 协作:OCLC员工团队和来自16个机构的数十名图书馆员在关联数据生态系统中创建了用例,创建了实体并进行了编辑,使用OCLC社区中心讨论工作流程和提出问题,并参加了28个月的会议和每周的“办公时间”会议。
2. 调和服务:使用SPARQL端点和一个名为“Explorer”的用户界面,尝试对实体协调/协调的编目工作流程。
3. 编辑:在原生Wikibase用户界面中管理实体,Explorer,以及另一个实验性应用程序“The Retriever检索器”。
在项目开始时描述的简单原型已经逐渐成熟,可以使用一组强大的第三方工具和本地应用程序来管理超过100万个Wikidata实体。由项目参与者的新想法、要求的功能以及对应用程序和原型使用指南的反馈,推动了该项目向更全面的工具和应用程序集的演进。

项目结束将近一年,OCLC发布了报告《用Wikibase创建图书馆关联数据》,由部分参与项目的合作图书馆成员及OCLC人员共同完成:

Creating Library Linked Data with Wikibase: Lessons Learned from Project Passage / By Jean Godby, Karen Smith-Yoshimura, Bruce Washburn, Kalan Knudson Davis, Karen Detling, Christine Fernsebner Eslao, Steven Folsom, Xiaoli Li, Marc McGee, Karen Miller, Honor Moody, Craig Thomas, and Holly Tomren. 2019-8

在报告发布前,报告作者之一Karen Smith-Yoshimura在研究部博客Hanging Together上发表了2篇介绍博文:
Summarizing Project Passage experiences in creating library linked data in Wikibase (1 of 2) (July 11, 2019)
Summarizing Project Passage experiences in creating library linked data in Wikibase (2 of 2) (July 17, 2019)
[update 2019-10-15] 内容参见:用Wikibase创建图书馆关联数据:通道项目的经验(2019-10-15)

图书馆在编目领域采用关联数据应该是一个确定的方向,不清楚的是如何采用。各家都在探索,既包括标准,也包括工具。OCLC作为业界大腕,也是最早且持续的探索者。不知此项目对OCLC的工作会有怎样的实际影响。参见: