Wikidata的数据类型及属性

Wikidata(维基数据)是Wikimedia旗下的免费知识库,拥有近1亿数据项(2022-9-7当下为 99,164,932 项)。

关于Wikidata(维基数据)

  • Wikidata 是一个免费且开放的知识库,可供人和机器阅读和编辑。
  • Wikidata 作为其姊妹项目(包括 Wikipedia、Wikivoyage、Wiktionary、Wikisource 等)的结构化数据的中央存储。
  • Wikidata 还为许多其他站点和服务提供支持,而不仅仅是 Wikimedia 项目! Wikidata 的内容在免费许可下可用,使用标准格式导出,并且可以与关联数据网上的其他开放数据集相互链接。

维基数据的项(item)在维基数据主命名空间中有对应页面,相当于一个条目(在维基数据中以Q起首的数字表示)。不同于维基百科为相同内容的不同语种建立不同文章,维基数据的项针对 Thing:“被用来代表人类知识中,包括主题、概念和对象的所有‘东西’”,“项是独一无二的。每个项都应该清晰地定义一个概念或者事物,或者一个清晰可识别的概念或事物的实例。比如,在维基数据,我们可以使项既是[星球]planet (Q634)的概念,又是星球的实例 Earth (Q2)。”

维基数据的项包含4个部分:

  • 1、标签和描述(多语种),同义词
  • 2、声明/语句(Statements),主要数据部分,由 属性+取值 组成,其中取值(客体)很多情况也是数据项,以标识符实现数据项间的相互链接。
  • 3、标识符(Identifiers),其他系统描述同一内容的条目(如图书馆目录、百科全书条目等等),相当于参见、链接到其他系统。
  • 4、Wikimedia系列(如Wikipedia维基百科的不同语种条目)。

为结构化维基媒体中的数据,Wikidata定义了庞大的属性(目前有10292个属性),分别归属17个数据类型,另有14个数据类型有待完成。以下为现有数据类型及其属性数量:

  • Commons media 共享媒体。参引Wikimedia Commons上的文件。【74属性】
  • Globe coordinate 地球坐标【12属性】(待计划属性中另有 Celestial coordinates 天空坐标)
  • Item 项/数据项。维基数据中给出标识符的现实世界对象(RWO)、概念或事件以及关于它的信息。每个项在维基数据主命名空间中都有对应页面。项的主要数据部分是关于该项的声明/语句的列表。项可被视为关联数据中三元组的主体部分。内部链接到另一个项。【1562属性】
  • Property 属性。指向属性的内部链接。【19属性】
  • String 字符串。不需要翻译成不同语言或数字格式的字符链、数字和符号。【324属性】
  • Monolingual text 单语文本。不翻译为其他语言的字符串。这种类型的字符串定义一次,并在所有语言中重复使用。典型用途是使用当地语言编写的地理位置实体名称、某种标识符、化学式或拉丁学名。【59属性】(待计划属性中有多语文本Multilingual text)
  • External identifier 外部标识符。表示外部系统中使用的标识符的字符串。 如果定义了“格式化URL”(属性P1630),将显示为外部链接。【7339属性】
  • Quantity 数量【636属性】
  • Time 时间。以格里高利或儒略历存储日期。【62属性】(待完成属性中另有Duration 持续时间,格式为 HH:MM:SS)
  • URL 一种通用的网址,用于标识某种外部资源,可能是某种外部网站的链接,或者是用于在某种专用资源中查找的标识符。【89属性】
  • Mathematical expression 数学表达式。显示为数学公式的格式化字符串。【36属性】
  • Geographic shape 地理形状【3属性】
  • Musical Notation 乐谱【6属性】
  • Tabular data 表格式数据【6属性】
  • Lexeme 词位【14属性】
  • Form 词形【7属性】
  • Sense 语义【16属性】

除了数量庞大的外部标识符属性(7339个,如图书馆员最熟悉的ISBN、ISSN、OCLC控制号、LC规范号、CALIS号、VIAF号,DOI、ISNI、CAS注册号等等),属性最多的就是数据项了,是声明/语句(Statements)中最通用的属性(1562个,以项为主体)。

FOLIO:新一波实施的冲击力

Marshall Breeding在最新2022年6月号《图书馆技术通讯》发表文章“FOLIO:新一波实施的冲击力”。

有关该刊,参见:开放获取新刊《图书馆技术通讯》(2022-5-27)

【乱侃】Marshall Breeding的《2022图书馆系统报告》有不少篇幅涉及FOLIO(参见:2022图书馆系统报告(含FOLIO相关信息),2022-6-9)。但据说问世后,国际FOLIO社区相当不满,大概是觉得评价不够到位(我承认自己无感)。这篇新文除标题之意,在正文后还有“早期报道”,摘录“Library Technology Newsletter 及其前身 Smart Libraries Newsletter 提供从 FOLIO 最初发布到当前实施阶段的广泛报道”,最早在2016年。用现在的流行话语,此文可说是“求生欲满满”。以下为摘译。

Breeding, Marshall(2022). FOLIO: Momentum building with new wave of implementations. Library Technology Newsletter, 1(6). https://librarytechnology.org/document/27574

基于开源软件的FOLIO图书馆服务平台在图书馆实施方面取得了飞速发展。经过五年的开发努力,FOLIO 的主要模块已经完成,实施工作正在顺利进行。这些实现跨越多种支持安排,包括大型、中型和小型图书馆。本文描述了 FOLIO 在学术图书馆领域取得的进展,并探讨了它在这种竞争环境中的未来定位。

“随着 FOLIO 完成这些新一轮的实施,该产品现在被定位为 Ex Libris Alma 新采购的主要竞争对手。与 Alma 同时推出的 OCLC WorldShare 管理服务[WMS]仍然是该领域的重要竞争对手。”

[1] 开源软件和开放系统架构

“FOLIO 是作为开源软件开发的,它的数据和功能也遵循开放系统方法。与当前的预期一致,FOLIO 提供了一个强大的 API,它提供对平台内管理的所有数据以及功能元素的编程访问。FOLIO API 的文档可在项目网站上找到。International Journal of Librarianship最近的一篇文章描述了德鲁大学如何在其 FOLIO 实施中使用 API。”

引用加州理工图书馆基于FOLIO API实施的7项功能;芝加哥大学图书馆对FOLIO API的观点。

[2] 实施FOLIO

[2.1] EBSCO FOLIO

“作为开源产品,图书馆可以自行或通过商业支持服务实施 FOLIO。EBSCO FOLIO 包括由 EBSCO信息服务提供的托管和支持服务,以及相关组件,例如 EBSCO发现服务、支持电子资源管理的 EBSCO 知识库、用于订阅管理的 EBSCONET、用于图书和其他内容的 GOBI 市场,以及最近推出的 全景分析(Panorama Analytics)套件。这套集成产品使 EBSCO FOLIO 成为跨印刷和电子资源管理、发现和分析的学术图书馆的综合产品。”

“EBSCO 列出了当今使用 EBSCO FOLIO 的全球 50 多个站点 ,该公司报告称,这个数字逐月快速增长。”【Current EBSCO FOLIO Sites,2022-8-14有北美37个、欧洲9个、拉美3个、中东和非洲2个、亚洲3个、大洋州2个。发现台湾师范大学在列!】

引述康奈尔华盛顿学院选择EBSCO FOLIO的理由。

[2.2] 其他FOLIO实施

  • 使用 Index Data 进行托管和支持,有芝加哥大学等。
  • 在没有商业支持服务的情况下独立实施,有德州农工大学斯坦福

[3] 在研究图书馆协会(ARL)成员中崛起

“研究图书馆协会的成员代表了任何自动化环境中最大和最复杂的实现。在这些图书馆中实现的任何产品都必须提供复杂的功能,并且能够管理非常大的多格式馆藏。在过去的十年中,这些图书馆已经从更倾向于印刷材料的传统集成图书馆系统转向同时处理电子和印刷馆藏的图书馆服务平台。”

据图1“ARL成员馆ILS市场份额”,在127个成员中,第1位Alma有80个(63%),其次是FOLIO和Sierra同为10个(8%)。27个成员馆仍在使用旧的ILS产品,如果升级到图书馆服务平台,Alma、FOLIO 或 WorldShare都有机会。WMS与Alma几乎同时开始实施,但直到2014年才进入ARL成员馆,目前为5个。而FOLIO在2020年首次进入,2022年已增加到10个,发展势头显而易见(图3)。

[4] 对 FOLIO 的兴趣涵盖各种规模的图书馆

“FOLIO 也已由较小的图书馆实施。通过 EBSCO FOLIO 等综合支持服务,图书馆无需额外的本地技术人员即可实施这一开源系统。”(如前引华盛顿学院

[5] 国际调查的迁移意向

“图书馆自动化国际调查(Library Perceptions 2022: Results of the 15th International Survey of Library Automation)包括一个部分,询问图书馆是否正在考虑迁移到新系统以及正在考虑的产品。最新一期的调查反映了对 FOLIO 的浓厚兴趣。Alma 继续被列为最频繁(92 次提及),FOLIO 紧随其后(86 次提及)。很少有回复提到 OCLC WorldShare 管理服务 (34)。对 FOLIO 越来越感兴趣是调查报告中强调的主要观察结果之一:”

“学术图书馆中遗留产品的下降速度加快,17% 的图书馆考虑迁移计划。Voyager 和 Aleph 的满意度排名相当高,忠诚度得分很高,以及有利于 Alma 的迁移意图表明大多数人可能会留在 Ex Libris 阵营。对 FOLIO 的兴趣持续增加,这表明 FOLIO 可能是 Alma 在下一阶段迁移的主要竞争对手。考虑迁移的学术图书馆继续将 WMS 作为候选者,但水平低于 Alma 或 FOLIO。……”

文章最后附“FOLIO实施精选”,列出自2019年Chalmers理工大学以来的重要实施机构,分“完整实施”和“正在实施”两部分,列出如下信息:ERM电子资源管理实施时间、LSP图书馆服务平台实施时间、发现服务平台、支持供应商、先前ILS图书馆集成系统、更多信息(新闻发布链接)。

另外,可以 在 Library Technology Guides 的libraries.org目录中查看所有选择或实施 FOLIO 的图书馆。【2022-8-14有121个结果,一览表中有所在国家支持实施FOLIO的机构(如EBSCO、Index Data)】

2022图书馆系统报告(含FOLIO相关信息)

5月初,《美国图书馆杂志》的年度图书馆系统报告出炉:

2022 Library Systems Report: An industry disrupted / By Marshall Breeding | May 2, 2022

  • 今年报告副标题“一个行业被颠覆”,主要指诸多收购事件,尤其是科睿唯安(Clarivate)收购ProQuest,“推动领先的图书馆技术提供商进入更广泛的学术交流商业领域”。
  • “这一举措将行业整合提升到了一个新的水平。2015年之前图书馆技术领域的并购主要涉及直接竞争对手的整合,例如 SirsiDynix。其后阶段是图书馆技术供应商合并为更大的企业,为图书馆提供内容和不同的产品和服务,ProQuest 对艾利贝斯(Ex Libris)和 Innovative 的收购遵循这种模式。而科睿唯安对ProQuest的收购将这家最大的面向图书馆的公司之一带入了更广泛的学术交流和研究行业”。
  • ProQuest隶属于科睿唯安的科学部门,该部门提供内容和分析产品,包括 EndNote、InCites、Publons、ScholarOne和Web of Science。
  • 之前ProQuest对Innovative的收购,此次科睿唯安对ProQuest的收购,都面临联邦贸易委员会(FTC)的审查,但两项交易最终都得到了批准。
  • 参见:科睿唯安完成对ProQuest收购(2021-12-2)

特别关注的几个产品:Ex Libris的Alma图书馆服务平台保持强劲销售。Innovative的Sierra和Polaris也有新签约;SkyRiver编目服务获得3个新订户,总共20个;INN-Reach网络安装范围扩大到1,700个。

—— 开源产品FOLIO ——

报告在“ 逆势而上”(Bucking the trends)部分介绍不那么强势、但对行业有价值的发展趋势,包括两个开源产品FOLIO和KOHA:

  • FOLIO 项目旨在通过学术图书馆减缓 Alma 的冲击势头,提出了一个问题:一个新来者能否破坏经过十多年持续发展的成熟解决方案的成功?
  • 基于开源软件的图书馆管理系统呈现稳步增长态势。Koha,尤其是在 ByWater Solutions 的支持下,继续在美国公共图书馆和学术图书馆中取得进展。
  • 与FOLIO相关的内容还有(值得注意的交易)
  • 康奈尔大学在EBSCO支持下,从艾利贝斯Voyager切换到FOLIO;
  • 芝加哥大学在Index Data支持下,从已解散的Kuali OLE迁移到FOLIO;
  • 密苏里大学在EBSCO支持下,从Sierra转移到FOLIO。
  • EBSCO【财务支持】
  • EBSCO 是开源平台 FOLIO 开发背后的主要力量,与广泛的图书馆和公司合作。随着越来越多的图书馆实施 FOLIO,这些努力正在取得成果,无论是作为现有 ILS 的完全替代品还是电子资源的管理。FOLIO 与 OCLC WorldShare 管理服务、Ex Libris Alma 和其他专有图书馆服务平台竞争。EBSCO 不拥有或控制 FOLIO 软件,但它是主要的利益相关者,并贡献了大量的财务和开发资源。
  • EBSCO 使用 FOLIO 为 50 多个图书馆提供托管和支持服务,直接向图书馆和通过业务合作伙伴提供。例如,ByWater Solutions 为一些使用 EBSCO FOLIO 托管的图书馆提供支持 [PTFS Europe 也与 EBSCO合作支持 FOLIO]。…… EBSCO 的收入机会被其他供应商稀释;例如,Index Data 提供独立的商业服务和提供商来实施 FOLIO,而无需托管或支持服务。
  • Index Data【技术支持】
  • Index Data长期以来一直参与图书馆的开源技术,开发了许多图书馆产品中使用的开源组件。FOLIO 的初始架构由 Index Data 开发并由 EBSCO 资助。该公司还独立于 EBSCO 为 FOLIO 提供托管和支持服务。
  • Index Data 一直是 Project ReShare 的参与者和主要开发商,这是一项由基于 FOLIO 代码库的软件支持的资源共享计划。…… Index Data 领导了图书馆数据平台(Library Data Platform)报告和分析工具的开发,该工具可与 FOLIO 和其他环境一起使用。