Wikidata的图书-版本两层结构(属性清单)

参见:Wikidata的数据类型及属性(2022-9-7)

Wikidata(维基数据)是Wikimedia旗下的免费知识库,拥有近1亿数据项(2022-9-7当下为 99,164,932 项)。作为一个关联数据源,Wikidata得到海外图书馆的利用,图书馆界也为Wikidata贡献数据。

2022年夏秋,LD4维基数据亲和组(LD4 Wikidata Affinity Group)正举办名为Wikidata Working Hours的系列活动。活动共10次,针对Wikidata中的儿童图书条目。使用威斯康星大学麦迪逊分校合作儿童图书中心的数据,让参与者尝试不同的 Wikidata 相关技能和工具。涵盖的主题包括:使用 OpenRefine 清理数据,使用 OpenRefine 协调数据,为个人作者、团体实体和作品/版本创建项(item),使用 OpenRefine 和 QuickStatements 批量上传项,以及编写 SPARQL 查询。

9月2日的第5次活动(Wikidata:WikiProject LD4 Wikidata Affinity Group/Wikidata Working Hours/Wikidata Working Hour Summer-Fall Project 2022/2022-September-2 Wikidata Working Hour)是用现有的儿童图书元数据电子表格,在 Wikidata 中创建作品和版本的数据项。

项(或数据项)相当于条目,其主要内容是一系列声明/语句(Statements),由属性+取值组成。活动页面分别列出了作品、版本及涉及的丛编对应的 Wikidata 属性(标识符为以P起首的数字),清单如下(应该只是常用而非完整属性):

作品基本语句(这些属性用于在 FRBR作品级别 表示一本书的项。作品应该是书面作品(Q47461344)的实例。作品的标签应该是题名,题名中大写的字母在 Wikidata 标签中是大写的。作品描述通常包括作品的形式和作者。)【中文名称取自Wikidata属性页中的简体中文[方括号中为自译];以下数据类型Item省略不注】

  • instance of 隶属于[…的实例](P31)取值:written work 
  • title 标题[题名](P1476,数据类型Monolingual text
  • author 作者(P50)当Wikidata项未知或不存在时使用author name string 作者姓名字符串(P2093,数据类型String
  • editor 编辑者(P98)
  • language of work or name 作品或名称的语言(P407)
  • has edition or translation 版本[有版本或译本](P747)
  • form of creative work 作品形式(P7937)
  • part of the series 所属系列[丛编](P179)

作品可选语句

  • genre 类型[体裁](P136)
  • main subject 作品主题(P921)
  • follows 之前是[先前](P155)followed by 之后是[后继](P156)
  • 【以下数据类型External identifier:分类法、作品ID】
  • Dewey Decimal Classification (P1036)Library of Congress Classification(P1149)Chinese Library Classification(P1189)Universal Decimal Classification(P1190)
  • OCLC work ID(P5331)Open Library ID(P648)LibraryThing work ID(P1085)Goodreads work ID(P8383)Babelio work ID(P3631)

版本基本语句(这些属性用于在 FRBR 内容表达/载体表现级别 表示一本书版本的项。 一本书的每个版本都应该有一个单独的维基数据项;如果内容(前言、后记、插图)、页码(页码)、出版商或出版地点发生变化,则应为该版本创建一个新项目;如果一本书是以前版本的相同再版(上述属性没有变化),则不需要新项目[特别注意:出版时间不在其列]。版本标签应该是书名。书名中大写的字母在 Wikidata 标签中是大写的。版本说明通常包括版本和作者的形式,以及与作品的区别,如出版日期、版本或插图画家。版本应该是version, edition, or translation (Q3331189)的实例。)【以下数据类型Item省略不注】

  • instance of(P31)取值:version, edition, or translation
  • edition or translation of(P629)
  • language of work or name(P407)
  • author(P50)P2093同作品
  • editor(P98)
  • illustrator(P110)
  • title(P1476,数据类型Monolingual text)subtitle(P1680,数据类型Monolingual text
  • edition number(P393,数据类型String
  • publisher(P123)publication date(P577,数据类型Point in time[即Time]
  • ISBN-10(P957,数据类型External identifier)ISBN-13(P212,数据类型External identifier

版本可选语句

  • translator(P655)
  • number of page(P1104,数据类型Quantity)
  • 【以下数据类型External identifier:图书ID】
  • SUDOC editions(P1025)K10plus PPN ID(P6721)EUL editions(P1084)BN (Argentine) editions(P1143)DNB editions(P1292)OCLC control number(P243)Open Library ID(P648)Google Books ID(P675)Internet Archive ID(P724)Project Gutenberg ebook ID(P2034)Bibliothèque nationale de France ID(P268)English Short Title Catalogue ID(P3939)Czech National Bibliography ID(P3184)Library of Congress Control Number (LCCN) (bibliographic)(P1144)RSL scanned books identifier
  • (P1815,数据类型String [未列入External identifier属性])

Series 所属系列[丛编]

  • instance of(P31)written work
  • title(P1476,数据类型Monolingual text)
  • author(P50)
  • publisher(P123)
  • has part(s)(P527)
  • genre(P136)

图书条目(作品或版本)即项(Item),其标识符为以Q起首的数字,其中的声明(Statements)默认三元组为:项(主体)+属性+取值(客体)。但如上所列属性,其中有数据类型非item的,比如文本title、时间publication date、外部标识符ISBN-13等,如何确定这些三元组的主体?有待了解。

参见实例:Snow Angel, Sand Angel / picture book by Ashley Lukashevsky,作品 Q113622633(https://www.wikidata.org/wiki/Q113622633),版本 Q113622573(https://www.wikidata.org/wiki/Q113622573

总结:Wikidata 采用作品-版本双层结构,其中作品对图书指 written work 书面作品(Q47461344),在条目的properties for this type部分列有如下属性:language of work or name,VIAF ID,genre。版本包括FRBR/LRM的内容表达和载体表现2个级别,指 version, edition, or translation 版本或译本(Q3331189),以expression、manifestation、adaptation等为其同义词,在本条目的properties for this type部分列有很多专用属性(可与上列属性清单对应)。

Wikidata的数据类型及属性

Wikidata(维基数据)是Wikimedia旗下的免费知识库,拥有近1亿数据项(2022-9-7当下为 99,164,932 项)。

关于Wikidata(维基数据)

  • Wikidata 是一个免费且开放的知识库,可供人和机器阅读和编辑。
  • Wikidata 作为其姊妹项目(包括 Wikipedia、Wikivoyage、Wiktionary、Wikisource 等)的结构化数据的中央存储。
  • Wikidata 还为许多其他站点和服务提供支持,而不仅仅是 Wikimedia 项目! Wikidata 的内容在免费许可下可用,使用标准格式导出,并且可以与关联数据网上的其他开放数据集相互链接。

维基数据的项(item)在维基数据主命名空间中有对应页面,相当于一个条目(在维基数据中以Q起首的数字表示)。不同于维基百科为相同内容的不同语种建立不同文章,维基数据的项针对 Thing:“被用来代表人类知识中,包括主题、概念和对象的所有‘东西’”,“项是独一无二的。每个项都应该清晰地定义一个概念或者事物,或者一个清晰可识别的概念或事物的实例。比如,在维基数据,我们可以使项既是[星球]planet (Q634)的概念,又是星球的实例 Earth (Q2)。”

维基数据的项包含4个部分:

  • 1、标签和描述(多语种),同义词
  • 2、声明/语句(Statements),主要数据部分,由 属性+取值 组成,其中取值(客体)很多情况也是数据项,以标识符实现数据项间的相互链接。
  • 3、标识符(Identifiers),其他系统描述同一内容的条目(如图书馆目录、百科全书条目等等),相当于参见、链接到其他系统。
  • 4、Wikimedia系列(如Wikipedia维基百科的不同语种条目)。

为结构化维基媒体中的数据,Wikidata定义了庞大的属性(目前有10292个属性),分别归属17个数据类型,另有14个数据类型有待完成。以下为现有数据类型及其属性数量:

  • Commons media 共享媒体。参引Wikimedia Commons上的文件。【74属性】
  • Globe coordinate 地球坐标【12属性】(待计划属性中另有 Celestial coordinates 天空坐标)
  • Item 项/数据项。维基数据中给出标识符的现实世界对象(RWO)、概念或事件以及关于它的信息。每个项在维基数据主命名空间中都有对应页面。项的主要数据部分是关于该项的声明/语句的列表。项可被视为关联数据中三元组的主体部分。内部链接到另一个项。【1562属性】
  • Property 属性。指向属性的内部链接。【19属性】
  • String 字符串。不需要翻译成不同语言或数字格式的字符链、数字和符号。【324属性】
  • Monolingual text 单语文本。不翻译为其他语言的字符串。这种类型的字符串定义一次,并在所有语言中重复使用。典型用途是使用当地语言编写的地理位置实体名称、某种标识符、化学式或拉丁学名。【59属性】(待计划属性中有多语文本Multilingual text)
  • External identifier 外部标识符。表示外部系统中使用的标识符的字符串。 如果定义了“格式化URL”(属性P1630),将显示为外部链接。【7339属性】
  • Quantity 数量【636属性】
  • Time 时间。以格里高利或儒略历存储日期。【62属性】(待完成属性中另有Duration 持续时间,格式为 HH:MM:SS)
  • URL 一种通用的网址,用于标识某种外部资源,可能是某种外部网站的链接,或者是用于在某种专用资源中查找的标识符。【89属性】
  • Mathematical expression 数学表达式。显示为数学公式的格式化字符串。【36属性】
  • Geographic shape 地理形状【3属性】
  • Musical Notation 乐谱【6属性】
  • Tabular data 表格式数据【6属性】
  • Lexeme 词位【14属性】
  • Form 词形【7属性】
  • Sense 语义【16属性】

除了数量庞大的外部标识符属性(7339个,如图书馆员最熟悉的ISBN、ISSN、OCLC控制号、LC规范号、CALIS号、VIAF号,DOI、ISNI、CAS注册号等等),属性最多的就是数据项了,是声明/语句(Statements)中最通用的属性(1562个,以项为主体)。

PCC考虑用Wikibase进行实体管理

合作编目项目(PCC)正考虑使用Wikibase进行实体管理的可能性。相比于任何人都可以更改数据的Wikidata,Wikibase(实例)作为独立维基库,机构可以对其中的数据有更多控制权。

PCC政策委员会于2022年7月14日召开会议,讨论由PCC安装wikibase.cloud实例供PCC成员使用的可能性。由于希望通过Wikibase帮助PCC社区进一步开展工作和实验,目前正在ld4-wikidata邮件组征求意见,对于PCC是否应该这么做,PCC wikibase.cloud实例有哪些用例等。

此前,PCC应用常务委员会(SCA)于2022年6月发布《PCC Wikibase探索报告》(PCC Wikibase Exploration Report),这是2个月前就Wikibase的安装、管理和使用所做的一个问卷调查的结果报告。执行摘要如下:

针对2022年2月PCC参与者会议上提出的关于建立PCC Wikibase实例的建议,PCC主席要求应用常务委员会(SCA)探讨这样做的利弊(包括技术和非技术方面)。SCA于2022年4月对许多拥有Wikibase实例的组织进行了调查,并询问了他们在安装和实施Wikibase实例方面的经验。根据调查结果,SCA建议PCC探索加入Wikibase.cloud的候补名单,这是一个“‘Wikibase即服务’平台,为开放知识项目提供了一种快速轻松地创建Wikibases的新方法”。Wikibase.cloud 不需要安装——这可能有助于减轻对IT安全和基础设施的任何担忧——并且允许创建外部用户帐户和更轻松的管理。

问卷定向发送给已知参与Wikibase工作的10个人,其中6位回复了调查、1位参与者以不同的身份回答了两次,共7份结果。

从报告看,安装使用Wikibase的原因有:管理词表、关联数据存储、关联数据基础设施等。

从结果看,目前大多数Wikibase实例未与机构的现有系统集成,将Wikibase纳入现有工作流程也有不少障碍,另外Wikibase不接受数据批量加载(对有大量现成数据的图书馆是需要应对的问题)。

但结论上,对Wikibase预期用途的总体满意度,有5人表示满意(1-5级中选4)。

问卷调查时Wikibase实例还是本地的WBStack,目前已由云服务Wikibase Cloud取代(任何人都可以查看数据库的内容)。

报告附录1为问卷本身;附录2为问卷回复者提供的附加资料,其中“管理”部分链接到LD4 Wikibase Working Hour WBStack实例,内容为2021年10-12月LD4探索用Wikibase和WBStack如何有助于跟踪LCSH标题的替代标签的使用