维基数据与图书馆(IFLA Wikidata Working Group系列会议)

IFLA维基数据工作组(IFLA Wikidata Working Group)于2019年底成立,旨在探索和倡导图书馆和信息专业人士使用并贡献于Wikidata,将Wikidata和Wikibase与图书馆系统集成,以及将Wikidata本体与图书馆元数据格式(如BIBFRAME、RDA和MARC)对齐。其背景是:2016年IFLA白皮书《学术研究图书馆和维基百科的机会》(Opportunities for Academic and Research Libraries and Wikipedia)指出:“Wikidata潜在地将关联数据和关联数据规范一起跨世界的各种语言以及许多不同的本体和分类法吸引到全世界的研究人员。”许多图书馆越来越多地利用Wikidata的功能,但是,缺乏国际协调和交流阻碍了这种潜力。

工作组得到Wikimedia基金资助,原计划在2020年IFLA年会举办卫星会议。年会因新冠肺炎(COVID-19)大流行而取消,卫星会议则改为6-8月的6场线上报告/讨论,时长半到一小时不等。视频于2020-9-24在IFLA油管频道发布,其中3场有中文字幕。报告主要涉及维基项目中的Wikidata、Wikibase和Wikisource,也提到Wikicite、Wikimedia Commons等。主持人Stacy Allison-Cassin(IFLA维基数据工作组领导,加拿大约克大学)、多个主讲人本身是积极参与维基项目者。

会议介绍:IFLA releases 6 videos on Wikidata and Wikibase in Libraries (24 September 2020)

油管会议网页:Wikicite + Libraries Discussion Series

(部分报告视频中的标题与页面显示标题不同,以下所列为视频中标题)

1. Wikidata和图书馆的数字转型(Wikidata and Digital Transformation in Libraries / Jason Evans and Simon Cobb)

  • 威尔士国家图书馆介绍与Wikidata的合作项目:上传图片到Wikimedia Commons,作者、出版社数据可视化;最终希望Wikidata ID出现在图书馆目录中……。
  • Simon Cobb介绍Wikidata数据处理,提到其中的Wikicite有2500万文章,Wikidata有作者消歧工具。

2. 当德语规范库GND遇到Wikibase(GND meets Wikibase / Barbara Fischer and Sarah Hartman)

  • 德国国家图书馆介绍2019年开始的项目:使用Wikibase发布GND规范库,本地安装、可控、具有持久性,又可与外部连接。

3. Wikisource如何管理数据?(How do Wikisources manage data? / Nicolas Vigneron)

  • 从2004年项目开始即参与的报告人介绍维基的免费在线合作图书馆(https://en.wikisource.org/)。
  • 其中提到应用FRBR层次,但简化为三层——内容表达和载体表现合并为版本(与BIBFRAME异曲同工)。
  • 报告及问答阶段提到图书馆目录与规范的不完善。

4. 关注差距:Wikidata数据如何补充和完善元数据工作(Mind the Gap! How Wikidata complements and completes metadata work / Ahava Cohen)

  • 以色列国家图书馆介绍本馆项目如何使用Wikidata。
  • 最有激情的报告,前12分钟讲述自己为什么会参与Wikidata项目——因为以色列国家图书馆的多语言文字现状、以色列人名广泛重复……。
  • 具体介绍的6个项目:1)修改Wikidata非拉丁人物姓名(原拉丁字母拼写);2)WikiCommons照片库,3)IFLA匿名经典,希伯亚姓名,加上本馆/LC/VIAF/Wikidata的ID;4)本馆制作的以色列出版社数据库放到Wikidata;5)利用Wikidata为本馆规范档批添加ORCID;6)使用Wikidata连接Ben-Yehuda作者ID与本馆ID。
  • 问答阶段,提问涉及Wikidata的权威性,依赖它是否可靠?回答是该馆与作者接触紧密,有很多鲜活的例子可以说明没有什么机构的记录是权威的(比如作者本人都常不确定自己姓名的写法,因为离婚要求修改自己的规范名称……)。

5. 知识平等、图书馆元数据和Wikidata(Knowledge Equity, Library Metadata & Wikidata / Stacy Allison-Cassin and Karim Tharani)

  • 围绕Wikimedia运动战略中的“知识平等”展开讨论,涉及Wikidata的多语言支持、非西方中心论。
  • 知识平等(Knowledge equity):作为一项社会运动,我们将努力集中于权力和特权结构所遗漏的知识和社区。我们欢迎来自各个背景的人们建立强大而多样的社区。我们将打破阻止人们获取和贡献自由知识的社会、政治和技术障碍。(Strategy/Wikimedia movement/2018-20)】

6. 学术档案[学者身份]、Wikidata和学术图书馆(Scholarly Profiles, Wikidata and Academic Libraries / Meg Wacha)

  • 提到开源工具Scholia(https://github.com/fnielsen/scholia)使用Wikidata创建学者、机构、出版物等的档案。

LD4P2走向实施之路:目标与工作(附LD4系列)

LD4P2是Andrew W. Mellon基金会资助的LD4系列的第4个2年期项目(2018-2020),成员为康奈尔大学、哈佛大学、美国国会图书馆?、斯坦福大学和爱荷华大学。本期项目的终级目标是实施,即以关联数据来描述图书馆资源。特别值得注意的是与合作编目项目(PCC)和Wikidata的合作。
先前曾关注项目的7个目标(见下参见),现在已看到2个有所进展,因此再重复记录如下;项目维基网站还有6个工作包,在此一并记录:
Linked Data for Production: Pathway to Implementation (LD4P2)

7个目标:
[1] 由一个学术图书馆的核心小组,创建以BIBFRAME表示的关联数据的连续馈送池
[2] 开发基于云的沙箱编辑环境,以支持扩展的图书馆合伙人创建和重用关联数据【2018.11.1宣布已招募到17家学术图书馆承担子项目:Stanford Libraries announces Linked Data for Production (LD4P) cohort members and subgrant recipients;先前已召开合伙人会议,定下2019.4开始生成数据的目标】
[3] 开发用于使用标识符自动增强MARC数据的策略、技术和工作流程,以便尽可能干净地转换为关联数据
[4] 开发用于创建和重用关联数据及其支持标识符作为图书馆核心元数据的策略、技术和工作流程
[5] 通过与Wikidata的协作,更好地将图书馆元数据和标识符与Web集成【2018.8.27 斯坦福大学为此公开招聘一位驻留维基媒体人:Wikimedian-in-Residence position at Stanford University
[6] 使用基于关联数据的发现技术增强广泛采用的图书馆发现环境(Blacklight)
[7] 通过开发一个名为LD4的组织框架来协调持续的社区协作,确保在分布式发展社区中不断交流思想和技术。

6个工作包:
WP1:Sinopia:基于云的合作编目环境/原编元数据创建环境
WP2:元数据重用(MARC-to-BIBFRAME转换管道+直接使用原生RDF描述)
WP3:链接到外部规范和Web语境数据(标识符URI+Wikidata发布、链接和丰富)
WP4:发现(Blacklight+知识面板+语义搜索+浏览+可视化+微数据)
WP5:原生关联数据描述生产流程(特藏=电影+地图+音乐+唱片:与数字化配套、与Wikimedia链接)
WP6:社区协作(建立LD4社区+2次国际会议)

——— 附:LD4L: Linked Data for Libraries (The Gateway) ———
LD4L 2014 (2014-2016):“创建一个模型,既可以在各机构内部又可以通过一个协调可扩展的关联开放数据网络运作”(100万美元;斯坦福、康奈尔、哈佛)
LD4L Labs (2016-2018):“帮助图书馆使用关联数据来改善对学术资源信息的交流和理解”(150万美元;康奈尔、哈佛、爱荷华、斯坦福)
LD4P (2016-2018):“转变技术服务生产工作流程”(150万美元;斯坦福、哥伦比亚、康奈尔、哈佛、普林斯顿、美国国会图书馆)
参见:重量级图书馆关联数据项目LD4P获得资助(2016-5-10)
LD4P2 (2018-2020):“为编目社区建立一条途径,开始转向关联数据来描述图书馆资源”(400万美元;斯坦福、康奈尔、哈佛、爱荷华)
参见:BIBFRMAE应用进展:LD4P实施之路(2018-7-8)

OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)

2017-2018年,OCLC与16所美国图书馆合作,开发基于Wikibase的原型系统,展示关联数据的价值,改善图书馆的资源描述(编目)工作流程。项目提供两方面的服务:
– 调和服务(实体解析?):连接遗留书目信息到关联数据实体
– 编辑器服务:查看、创建和编辑关联数据描述和关系
Linked Data Wikibase Prototype
我的理解,前者是自动识别与获取书目信息中实体的URI,通常通过批处理方式;后者是编目时辅助获取实体及其属性和关系URI,应该是实时处理方式。
项目已经完成,工作报告将于2019年公布。

项目主页:Linked Data Wikibase Prototype
主页下有与项目有关的会议报告PPT,项目团队领导Andrew K. Pace和多个参与图书馆谈各自参与此项目的体会。比如康奈尔大学谈为什么已经有LD4系列项目,还要参加OCLC的项目?
Andrew K. Pace还在OCLC博客NEXT上写了一篇博文,介绍此项目:
Linked data in libraries: From disillusionment to productivity / Andrew K. Pace. 2018-11-08
标题“图书馆关联数据:从幻灭到生产力”,源自在前述会议报告中,最早在2018年4月,他几次借用Gartner新兴技术炒作周期图,标出他认为的图书馆关联数据历年位置,认为关联数据在2015年达到膨胀期望的顶峰(Peak of Inflated Expectation),2017年落入幻灭的谷底(Trough of Disillusionment),估计2018年开始攀爬启蒙的斜坡(Slope of Enlightenment),到2020年进入生产力高原(Plateau of Productivity)。
LD2015-2020
没想到8月Gartner发布的2018年新兴技术炒作周期中,被认为关联数据同义语的知识图谱还处于初期的攀升期(还要5-10年到达高原)。
无论如何,经过十多年的发展,production/productivity已经成为当前图书馆关联数据关注的重点。

——— 关于维基库(Wikibase) ———
源于维基百科、维基数据(Wikidata)、MediaWiki的开源项目:
Wikibase是用于创建、管理和共享结构化数据的应用程序和库的集合。这是一个开源项目,欢迎大家加入开发。
– 主要项目
Wikibase Repository:MediaWiki扩展,允许您在中央协作管理的存储库中存储和管理结构化的非关系数据。
Wikibase Client:MediaWiki扩展,允许您从中央存储库检索和嵌入结构化数据到您的wiki中。
— 查询服务:允许您使用SPARQL查询Wikibase安装的内容
— Wikibase也是一组可重用的组件,为同一域中的任务提供基础。
– 为什么要使用Wikibase
— Wikibase提供了一个通用的数据模型,可以认真对待知识多样性、来源和多语言使用。
— Wikibase由维基数据和维基百科开发和使用,Wikidata是免费知识库,维基百科是任何人都可以编辑的百科全书。
— Wikibase使用基于组件的软件设计,允许重用而不指定您应该使用哪个框架。