Wikidata的图书-版本两层结构(属性清单)

参见:Wikidata的数据类型及属性(2022-9-7)

Wikidata(维基数据)是Wikimedia旗下的免费知识库,拥有近1亿数据项(2022-9-7当下为 99,164,932 项)。作为一个关联数据源,Wikidata得到海外图书馆的利用,图书馆界也为Wikidata贡献数据。

2022年夏秋,LD4维基数据亲和组(LD4 Wikidata Affinity Group)正举办名为Wikidata Working Hours的系列活动。活动共10次,针对Wikidata中的儿童图书条目。使用威斯康星大学麦迪逊分校合作儿童图书中心的数据,让参与者尝试不同的 Wikidata 相关技能和工具。涵盖的主题包括:使用 OpenRefine 清理数据,使用 OpenRefine 协调数据,为个人作者、团体实体和作品/版本创建项(item),使用 OpenRefine 和 QuickStatements 批量上传项,以及编写 SPARQL 查询。

9月2日的第5次活动(Wikidata:WikiProject LD4 Wikidata Affinity Group/Wikidata Working Hours/Wikidata Working Hour Summer-Fall Project 2022/2022-September-2 Wikidata Working Hour)是用现有的儿童图书元数据电子表格,在 Wikidata 中创建作品和版本的数据项。

项(或数据项)相当于条目,其主要内容是一系列声明/语句(Statements),由属性+取值组成。活动页面分别列出了作品、版本及涉及的丛编对应的 Wikidata 属性(标识符为以P起首的数字),清单如下(应该只是常用而非完整属性):

作品基本语句(这些属性用于在 FRBR作品级别 表示一本书的项。作品应该是书面作品(Q47461344)的实例。作品的标签应该是题名,题名中大写的字母在 Wikidata 标签中是大写的。作品描述通常包括作品的形式和作者。)【中文名称取自Wikidata属性页中的简体中文[方括号中为自译];以下数据类型Item省略不注】

  • instance of 隶属于[…的实例](P31)取值:written work 
  • title 标题[题名](P1476,数据类型Monolingual text
  • author 作者(P50)当Wikidata项未知或不存在时使用author name string 作者姓名字符串(P2093,数据类型String
  • editor 编辑者(P98)
  • language of work or name 作品或名称的语言(P407)
  • has edition or translation 版本[有版本或译本](P747)
  • form of creative work 作品形式(P7937)
  • part of the series 所属系列[丛编](P179)

作品可选语句

  • genre 类型[体裁](P136)
  • main subject 作品主题(P921)
  • follows 之前是[先前](P155)followed by 之后是[后继](P156)
  • 【以下数据类型External identifier:分类法、作品ID】
  • Dewey Decimal Classification (P1036)Library of Congress Classification(P1149)Chinese Library Classification(P1189)Universal Decimal Classification(P1190)
  • OCLC work ID(P5331)Open Library ID(P648)LibraryThing work ID(P1085)Goodreads work ID(P8383)Babelio work ID(P3631)

版本基本语句(这些属性用于在 FRBR 内容表达/载体表现级别 表示一本书版本的项。 一本书的每个版本都应该有一个单独的维基数据项;如果内容(前言、后记、插图)、页码(页码)、出版商或出版地点发生变化,则应为该版本创建一个新项目;如果一本书是以前版本的相同再版(上述属性没有变化),则不需要新项目[特别注意:出版时间不在其列]。版本标签应该是书名。书名中大写的字母在 Wikidata 标签中是大写的。版本说明通常包括版本和作者的形式,以及与作品的区别,如出版日期、版本或插图画家。版本应该是version, edition, or translation (Q3331189)的实例。)【以下数据类型Item省略不注】

  • instance of(P31)取值:version, edition, or translation
  • edition or translation of(P629)
  • language of work or name(P407)
  • author(P50)P2093同作品
  • editor(P98)
  • illustrator(P110)
  • title(P1476,数据类型Monolingual text)subtitle(P1680,数据类型Monolingual text
  • edition number(P393,数据类型String
  • publisher(P123)publication date(P577,数据类型Point in time[即Time]
  • ISBN-10(P957,数据类型External identifier)ISBN-13(P212,数据类型External identifier

版本可选语句

  • translator(P655)
  • number of page(P1104,数据类型Quantity)
  • 【以下数据类型External identifier:图书ID】
  • SUDOC editions(P1025)K10plus PPN ID(P6721)EUL editions(P1084)BN (Argentine) editions(P1143)DNB editions(P1292)OCLC control number(P243)Open Library ID(P648)Google Books ID(P675)Internet Archive ID(P724)Project Gutenberg ebook ID(P2034)Bibliothèque nationale de France ID(P268)English Short Title Catalogue ID(P3939)Czech National Bibliography ID(P3184)Library of Congress Control Number (LCCN) (bibliographic)(P1144)RSL scanned books identifier
  • (P1815,数据类型String [未列入External identifier属性])

Series 所属系列[丛编]

  • instance of(P31)written work
  • title(P1476,数据类型Monolingual text)
  • author(P50)
  • publisher(P123)
  • has part(s)(P527)
  • genre(P136)

图书条目(作品或版本)即项(Item),其标识符为以Q起首的数字,其中的声明(Statements)默认三元组为:项(主体)+属性+取值(客体)。但如上所列属性,其中有数据类型非item的,比如文本title、时间publication date、外部标识符ISBN-13等,如何确定这些三元组的主体?有待了解。

参见实例:Snow Angel, Sand Angel / picture book by Ashley Lukashevsky,作品 Q113622633(https://www.wikidata.org/wiki/Q113622633),版本 Q113622573(https://www.wikidata.org/wiki/Q113622573

总结:Wikidata 采用作品-版本双层结构,其中作品对图书指 written work 书面作品(Q47461344),在条目的properties for this type部分列有如下属性:language of work or name,VIAF ID,genre。版本包括FRBR/LRM的内容表达和载体表现2个级别,指 version, edition, or translation 版本或译本(Q3331189),以expression、manifestation、adaptation等为其同义词,在本条目的properties for this type部分列有很多专用属性(可与上列属性清单对应)。

Wikidata的数据类型及属性

Wikidata(维基数据)是Wikimedia旗下的免费知识库,拥有近1亿数据项(2022-9-7当下为 99,164,932 项)。

关于Wikidata(维基数据)

  • Wikidata 是一个免费且开放的知识库,可供人和机器阅读和编辑。
  • Wikidata 作为其姊妹项目(包括 Wikipedia、Wikivoyage、Wiktionary、Wikisource 等)的结构化数据的中央存储。
  • Wikidata 还为许多其他站点和服务提供支持,而不仅仅是 Wikimedia 项目! Wikidata 的内容在免费许可下可用,使用标准格式导出,并且可以与关联数据网上的其他开放数据集相互链接。

维基数据的项(item)在维基数据主命名空间中有对应页面,相当于一个条目(在维基数据中以Q起首的数字表示)。不同于维基百科为相同内容的不同语种建立不同文章,维基数据的项针对 Thing:“被用来代表人类知识中,包括主题、概念和对象的所有‘东西’”,“项是独一无二的。每个项都应该清晰地定义一个概念或者事物,或者一个清晰可识别的概念或事物的实例。比如,在维基数据,我们可以使项既是[星球]planet (Q634)的概念,又是星球的实例 Earth (Q2)。”

维基数据的项包含4个部分:

  • 1、标签和描述(多语种),同义词
  • 2、声明/语句(Statements),主要数据部分,由 属性+取值 组成,其中取值(客体)很多情况也是数据项,以标识符实现数据项间的相互链接。
  • 3、标识符(Identifiers),其他系统描述同一内容的条目(如图书馆目录、百科全书条目等等),相当于参见、链接到其他系统。
  • 4、Wikimedia系列(如Wikipedia维基百科的不同语种条目)。

为结构化维基媒体中的数据,Wikidata定义了庞大的属性(目前有10292个属性),分别归属17个数据类型,另有14个数据类型有待完成。以下为现有数据类型及其属性数量:

  • Commons media 共享媒体。参引Wikimedia Commons上的文件。【74属性】
  • Globe coordinate 地球坐标【12属性】(待计划属性中另有 Celestial coordinates 天空坐标)
  • Item 项/数据项。维基数据中给出标识符的现实世界对象(RWO)、概念或事件以及关于它的信息。每个项在维基数据主命名空间中都有对应页面。项的主要数据部分是关于该项的声明/语句的列表。项可被视为关联数据中三元组的主体部分。内部链接到另一个项。【1562属性】
  • Property 属性。指向属性的内部链接。【19属性】
  • String 字符串。不需要翻译成不同语言或数字格式的字符链、数字和符号。【324属性】
  • Monolingual text 单语文本。不翻译为其他语言的字符串。这种类型的字符串定义一次,并在所有语言中重复使用。典型用途是使用当地语言编写的地理位置实体名称、某种标识符、化学式或拉丁学名。【59属性】(待计划属性中有多语文本Multilingual text)
  • External identifier 外部标识符。表示外部系统中使用的标识符的字符串。 如果定义了“格式化URL”(属性P1630),将显示为外部链接。【7339属性】
  • Quantity 数量【636属性】
  • Time 时间。以格里高利或儒略历存储日期。【62属性】(待完成属性中另有Duration 持续时间,格式为 HH:MM:SS)
  • URL 一种通用的网址,用于标识某种外部资源,可能是某种外部网站的链接,或者是用于在某种专用资源中查找的标识符。【89属性】
  • Mathematical expression 数学表达式。显示为数学公式的格式化字符串。【36属性】
  • Geographic shape 地理形状【3属性】
  • Musical Notation 乐谱【6属性】
  • Tabular data 表格式数据【6属性】
  • Lexeme 词位【14属性】
  • Form 词形【7属性】
  • Sense 语义【16属性】

除了数量庞大的外部标识符属性(7339个,如图书馆员最熟悉的ISBN、ISSN、OCLC控制号、LC规范号、CALIS号、VIAF号,DOI、ISNI、CAS注册号等等),属性最多的就是数据项了,是声明/语句(Statements)中最通用的属性(1562个,以项为主体)。

FOLIO:新一波实施的冲击力

Marshall Breeding在最新2022年6月号《图书馆技术通讯》发表文章“FOLIO:新一波实施的冲击力”。

有关该刊,参见:开放获取新刊《图书馆技术通讯》(2022-5-27)

【乱侃】Marshall Breeding的《2022图书馆系统报告》有不少篇幅涉及FOLIO(参见:2022图书馆系统报告(含FOLIO相关信息),2022-6-9)。但据说问世后,国际FOLIO社区相当不满,大概是觉得评价不够到位(我承认自己无感)。这篇新文除标题之意,在正文后还有“早期报道”,摘录“Library Technology Newsletter 及其前身 Smart Libraries Newsletter 提供从 FOLIO 最初发布到当前实施阶段的广泛报道”,最早在2016年。用现在的流行话语,此文可说是“求生欲满满”。以下为摘译。

Breeding, Marshall(2022). FOLIO: Momentum building with new wave of implementations. Library Technology Newsletter, 1(6). https://librarytechnology.org/document/27574

基于开源软件的FOLIO图书馆服务平台在图书馆实施方面取得了飞速发展。经过五年的开发努力,FOLIO 的主要模块已经完成,实施工作正在顺利进行。这些实现跨越多种支持安排,包括大型、中型和小型图书馆。本文描述了 FOLIO 在学术图书馆领域取得的进展,并探讨了它在这种竞争环境中的未来定位。

“随着 FOLIO 完成这些新一轮的实施,该产品现在被定位为 Ex Libris Alma 新采购的主要竞争对手。与 Alma 同时推出的 OCLC WorldShare 管理服务[WMS]仍然是该领域的重要竞争对手。”

[1] 开源软件和开放系统架构

“FOLIO 是作为开源软件开发的,它的数据和功能也遵循开放系统方法。与当前的预期一致,FOLIO 提供了一个强大的 API,它提供对平台内管理的所有数据以及功能元素的编程访问。FOLIO API 的文档可在项目网站上找到。International Journal of Librarianship最近的一篇文章描述了德鲁大学如何在其 FOLIO 实施中使用 API。”

引用加州理工图书馆基于FOLIO API实施的7项功能;芝加哥大学图书馆对FOLIO API的观点。

[2] 实施FOLIO

[2.1] EBSCO FOLIO

“作为开源产品,图书馆可以自行或通过商业支持服务实施 FOLIO。EBSCO FOLIO 包括由 EBSCO信息服务提供的托管和支持服务,以及相关组件,例如 EBSCO发现服务、支持电子资源管理的 EBSCO 知识库、用于订阅管理的 EBSCONET、用于图书和其他内容的 GOBI 市场,以及最近推出的 全景分析(Panorama Analytics)套件。这套集成产品使 EBSCO FOLIO 成为跨印刷和电子资源管理、发现和分析的学术图书馆的综合产品。”

“EBSCO 列出了当今使用 EBSCO FOLIO 的全球 50 多个站点 ,该公司报告称,这个数字逐月快速增长。”【Current EBSCO FOLIO Sites,2022-8-14有北美37个、欧洲9个、拉美3个、中东和非洲2个、亚洲3个、大洋州2个。发现台湾师范大学在列!】

引述康奈尔华盛顿学院选择EBSCO FOLIO的理由。

[2.2] 其他FOLIO实施

  • 使用 Index Data 进行托管和支持,有芝加哥大学等。
  • 在没有商业支持服务的情况下独立实施,有德州农工大学斯坦福

[3] 在研究图书馆协会(ARL)成员中崛起

“研究图书馆协会的成员代表了任何自动化环境中最大和最复杂的实现。在这些图书馆中实现的任何产品都必须提供复杂的功能,并且能够管理非常大的多格式馆藏。在过去的十年中,这些图书馆已经从更倾向于印刷材料的传统集成图书馆系统转向同时处理电子和印刷馆藏的图书馆服务平台。”

据图1“ARL成员馆ILS市场份额”,在127个成员中,第1位Alma有80个(63%),其次是FOLIO和Sierra同为10个(8%)。27个成员馆仍在使用旧的ILS产品,如果升级到图书馆服务平台,Alma、FOLIO 或 WorldShare都有机会。WMS与Alma几乎同时开始实施,但直到2014年才进入ARL成员馆,目前为5个。而FOLIO在2020年首次进入,2022年已增加到10个,发展势头显而易见(图3)。

[4] 对 FOLIO 的兴趣涵盖各种规模的图书馆

“FOLIO 也已由较小的图书馆实施。通过 EBSCO FOLIO 等综合支持服务,图书馆无需额外的本地技术人员即可实施这一开源系统。”(如前引华盛顿学院

[5] 国际调查的迁移意向

“图书馆自动化国际调查(Library Perceptions 2022: Results of the 15th International Survey of Library Automation)包括一个部分,询问图书馆是否正在考虑迁移到新系统以及正在考虑的产品。最新一期的调查反映了对 FOLIO 的浓厚兴趣。Alma 继续被列为最频繁(92 次提及),FOLIO 紧随其后(86 次提及)。很少有回复提到 OCLC WorldShare 管理服务 (34)。对 FOLIO 越来越感兴趣是调查报告中强调的主要观察结果之一:”

“学术图书馆中遗留产品的下降速度加快,17% 的图书馆考虑迁移计划。Voyager 和 Aleph 的满意度排名相当高,忠诚度得分很高,以及有利于 Alma 的迁移意图表明大多数人可能会留在 Ex Libris 阵营。对 FOLIO 的兴趣持续增加,这表明 FOLIO 可能是 Alma 在下一阶段迁移的主要竞争对手。考虑迁移的学术图书馆继续将 WMS 作为候选者,但水平低于 Alma 或 FOLIO。……”

文章最后附“FOLIO实施精选”,列出自2019年Chalmers理工大学以来的重要实施机构,分“完整实施”和“正在实施”两部分,列出如下信息:ERM电子资源管理实施时间、LSP图书馆服务平台实施时间、发现服务平台、支持供应商、先前ILS图书馆集成系统、更多信息(新闻发布链接)。

另外,可以 在 Library Technology Guides 的libraries.org目录中查看所有选择或实施 FOLIO 的图书馆。【2022-8-14有121个结果,一览表中有所在国家支持实施FOLIO的机构(如EBSCO、Index Data)】