Wikidata的数据类型及属性

Wikidata(维基数据)是Wikimedia旗下的免费知识库,拥有近1亿数据项(2022-9-7当下为 99,164,932 项)。

关于Wikidata(维基数据)

  • Wikidata 是一个免费且开放的知识库,可供人和机器阅读和编辑。
  • Wikidata 作为其姊妹项目(包括 Wikipedia、Wikivoyage、Wiktionary、Wikisource 等)的结构化数据的中央存储。
  • Wikidata 还为许多其他站点和服务提供支持,而不仅仅是 Wikimedia 项目! Wikidata 的内容在免费许可下可用,使用标准格式导出,并且可以与关联数据网上的其他开放数据集相互链接。

维基数据的项(item)在维基数据主命名空间中有对应页面,相当于一个条目(在维基数据中以Q起首的数字表示)。不同于维基百科为相同内容的不同语种建立不同文章,维基数据的项针对 Thing:“被用来代表人类知识中,包括主题、概念和对象的所有‘东西’”,“项是独一无二的。每个项都应该清晰地定义一个概念或者事物,或者一个清晰可识别的概念或事物的实例。比如,在维基数据,我们可以使项既是[星球]planet (Q634)的概念,又是星球的实例 Earth (Q2)。”

维基数据的项包含4个部分:

  • 1、标签和描述(多语种),同义词
  • 2、声明/语句(Statements),主要数据部分,由 属性+取值 组成,其中取值(客体)很多情况也是数据项,以标识符实现数据项间的相互链接。
  • 3、标识符(Identifiers),其他系统描述同一内容的条目(如图书馆目录、百科全书条目等等),相当于参见、链接到其他系统。
  • 4、Wikimedia系列(如Wikipedia维基百科的不同语种条目)。

为结构化维基媒体中的数据,Wikidata定义了庞大的属性(目前有10292个属性),分别归属17个数据类型,另有14个数据类型有待完成。以下为现有数据类型及其属性数量:

  • Commons media 共享媒体。参引Wikimedia Commons上的文件。【74属性】
  • Globe coordinate 地球坐标【12属性】(待计划属性中另有 Celestial coordinates 天空坐标)
  • Item 项/数据项。维基数据中给出标识符的现实世界对象(RWO)、概念或事件以及关于它的信息。每个项在维基数据主命名空间中都有对应页面。项的主要数据部分是关于该项的声明/语句的列表。项可被视为关联数据中三元组的主体部分。内部链接到另一个项。【1562属性】
  • Property 属性。指向属性的内部链接。【19属性】
  • String 字符串。不需要翻译成不同语言或数字格式的字符链、数字和符号。【324属性】
  • Monolingual text 单语文本。不翻译为其他语言的字符串。这种类型的字符串定义一次,并在所有语言中重复使用。典型用途是使用当地语言编写的地理位置实体名称、某种标识符、化学式或拉丁学名。【59属性】(待计划属性中有多语文本Multilingual text)
  • External identifier 外部标识符。表示外部系统中使用的标识符的字符串。 如果定义了“格式化URL”(属性P1630),将显示为外部链接。【7339属性】
  • Quantity 数量【636属性】
  • Time 时间。以格里高利或儒略历存储日期。【62属性】(待完成属性中另有Duration 持续时间,格式为 HH:MM:SS)
  • URL 一种通用的网址,用于标识某种外部资源,可能是某种外部网站的链接,或者是用于在某种专用资源中查找的标识符。【89属性】
  • Mathematical expression 数学表达式。显示为数学公式的格式化字符串。【36属性】
  • Geographic shape 地理形状【3属性】
  • Musical Notation 乐谱【6属性】
  • Tabular data 表格式数据【6属性】
  • Lexeme 词位【14属性】
  • Form 词形【7属性】
  • Sense 语义【16属性】

除了数量庞大的外部标识符属性(7339个,如图书馆员最熟悉的ISBN、ISSN、OCLC控制号、LC规范号、CALIS号、VIAF号,DOI、ISNI、CAS注册号等等),属性最多的就是数据项了,是声明/语句(Statements)中最通用的属性(1562个,以项为主体)。

PCC考虑用Wikibase进行实体管理

合作编目项目(PCC)正考虑使用Wikibase进行实体管理的可能性。相比于任何人都可以更改数据的Wikidata,Wikibase(实例)作为独立维基库,机构可以对其中的数据有更多控制权。

PCC政策委员会于2022年7月14日召开会议,讨论由PCC安装wikibase.cloud实例供PCC成员使用的可能性。由于希望通过Wikibase帮助PCC社区进一步开展工作和实验,目前正在ld4-wikidata邮件组征求意见,对于PCC是否应该这么做,PCC wikibase.cloud实例有哪些用例等。

此前,PCC应用常务委员会(SCA)于2022年6月发布《PCC Wikibase探索报告》(PCC Wikibase Exploration Report),这是2个月前就Wikibase的安装、管理和使用所做的一个问卷调查的结果报告。执行摘要如下:

针对2022年2月PCC参与者会议上提出的关于建立PCC Wikibase实例的建议,PCC主席要求应用常务委员会(SCA)探讨这样做的利弊(包括技术和非技术方面)。SCA于2022年4月对许多拥有Wikibase实例的组织进行了调查,并询问了他们在安装和实施Wikibase实例方面的经验。根据调查结果,SCA建议PCC探索加入Wikibase.cloud的候补名单,这是一个“‘Wikibase即服务’平台,为开放知识项目提供了一种快速轻松地创建Wikibases的新方法”。Wikibase.cloud 不需要安装——这可能有助于减轻对IT安全和基础设施的任何担忧——并且允许创建外部用户帐户和更轻松的管理。

问卷定向发送给已知参与Wikibase工作的10个人,其中6位回复了调查、1位参与者以不同的身份回答了两次,共7份结果。

从报告看,安装使用Wikibase的原因有:管理词表、关联数据存储、关联数据基础设施等。

从结果看,目前大多数Wikibase实例未与机构的现有系统集成,将Wikibase纳入现有工作流程也有不少障碍,另外Wikibase不接受数据批量加载(对有大量现成数据的图书馆是需要应对的问题)。

但结论上,对Wikibase预期用途的总体满意度,有5人表示满意(1-5级中选4)。

问卷调查时Wikibase实例还是本地的WBStack,目前已由云服务Wikibase Cloud取代(任何人都可以查看数据库的内容)。

报告附录1为问卷本身;附录2为问卷回复者提供的附加资料,其中“管理”部分链接到LD4 Wikibase Working Hour WBStack实例,内容为2021年10-12月LD4探索用Wikibase和WBStack如何有助于跟踪LCSH标题的替代标签的使用

BIBFRAME用于“关联图书馆服务”

《图书馆技术通讯》第1卷第4期,有篇关于把MARC格式记录转换为BIBFRAME,生成关联数据,形成多样化的网络服务:

EBSCO和Novelist使用BIBFRAME来促进可发现性EBSCO and Novelist use BIBFRAME to facilitate discoverability

EBSCO旗下NoveList的“关联图书馆服务”产品(Linked Library Service),利用关联数据启用多种途径,使图书馆及其馆藏在网络上更加可见。途径之一是EBSCO与Google合作,提供从Google搜索中的知识面板借书的选项。

“关联图书馆服务”作为Novelist的订阅服务提供。大多数订阅者是公共图书馆,但也有其他图书馆类型。SirsiDynix还提供名为BLUEcloud Visibility+的服务,据称有10个国家/地区的6,000多家图书馆参与“关联图书馆服务”。
Novelist Linked Library Servicehttps://librarytechnology.org/images-bib/27302-lls.jpg图1说明了与“关联图书馆服务”相关的数据流及其启用的用户路径:

  • 订阅该服务的图书馆以MARC格式导出其馆藏数据。
  • 这些记录被转换成BIBFRAME并并入Library.Link网络。
  • 图书馆可以访问管理界面和仪表板,以查看其关联数据结构以及通过该服务促进的使用事务的统计信息。
  • Library.Link中的数据流入多个目的地,包括
    • 用于在搜索结果中启用“借阅”操作的Google知识图谱,
    • 谷歌图书,
    • 互联网档案(Internet Archive)以启用开放图书馆(Open Library)中的选项,以便从附近的图书馆借阅馆藏,并为参与此服务的图书馆启用受控数字借阅。
  • 图书馆的关联数据还可用于生成与指定列表或主题选择相对应的书流(book rivers)或其他小部件(widget),然后可以将其集成到图书馆的网站、目录或任何其他资源中。
  • 搜索结果中显示的Google知识面板中的借阅操作根据JSON提要中指定的语法将用户连接到图书馆的目录。“关联图书馆服务”启用的借阅操作适用于任何图书馆集成系统(ILS)产品的联机目录。

以上为摘译。另查本项目始于2015年,可谓历史悠久:

EBSCO Information Services and NoveList Show Commitment to BIBFRAME and Linked Data through Sponsorship Agreement with Zepheira ~ Development Initiatives and Support for Libhub Initiative Seen as Natural Outgrowth of Continuing Efforts to Provide More Visibility for Library Collections ~

当时是EBSCO与Zepheira合作、应用Libhub。2020年初Zepheira被EBSCO收购。

Zepheira在2012年受美国国会图书馆(LC)委托开发BIBFRAME 1.0的公司。开发合约完成后,Zepheira在2014年推出Libhub,2015年将其使用的BIBFRAME称为bibfra.me,2016年Libhub演变为Library.Link。2017年LC提供2500万书目记录免费批下载,曾被导入Library.Link(目前页面无法访问)。Library.Link通过关联数据公开图书馆馆藏,当2019年秋Google在其图书知识面板中启动Borrow Action,Zepheira调整策略以利用这种更优雅的方法(目前仅在美国、加拿大和澳大利亚提供)。

参见: