2018国际关联数据实施者调查分析

OCLC研究部曾在2014年和2015年进行过2次国际关联数据实施者调查。为了解近三年的变化,以及格式化元数据为关联数据或者后续使用关联数据的新项目或服务,OCLC研究部于2018.4.17-5.25再次进行同样的调查,Karen Smith-Yoshimura综合三次调查结果,写了分析文章,发表在网刊code4lib Journal:
Karen Smith-Yoshimura. Analysis of 2018 International Linked Data Survey for Implementers. code4lib Journal, Issue 42, 2018-11-08
调查包括:概述,发布什么关联数据及为什么,消费什么关联数据及为什么,忠告,结论。内容太丰富,很难概括总结,只能摘录部分如下。

【一】概述
【机构与项目数量】共有23个国家的143家机构参加了一次或多次调查(见文后附录)。参加2018年调查的81家机构中,46家参加过先前一次或两次调查。但参加过先前调查者介绍的也不一定是同样的关联数据项目或服务【换言之,原项目已不再继续】。在2018年介绍的104个关联数据项目或服务中,仅42个以前介绍过。即使介绍同样的项目或服务,有时回复也与以前不同【应该是项目本身有变化】。
【国别】2018年调查中美国回复34家机构占42%,接下来是西班牙12家,英国8家,荷兰4家,加拿大、德国、挪威各3家,意大利2家,1家的是澳大利亚、奥地利、中国【终于有了,竟然不是上海图书馆,而是敝校】、捷克、芬兰、法国、匈牙利、日本、卢森堡、葡萄牙、南非和瑞士。
【机构类型】研究图书馆23家28%,国家图书馆13家16%,研究机构11家14%,图书馆网络和政策各8家10%,服务供应商6家7%,公共图书馆5家6%,博物馆4家5%,其他2家(1家音乐厅、1家出版社)。此分布基本上与前次调查相同,只有一个例外——第一次收到来自服务供应商的回复,是向其客户提供关联数据服务。
【项目运行时间】2018年的104个关联数据项目或服务中,18个已运行2年以上4年以下,31个已运行4年或以上。3个还不可访问,3个“私有”仅供本机构使用。
【协作】大部分关联数据项目或服务完全在内部完成(61个),部分为多机构实施(23个),20个由外部厂商或服务供应商提供。不过,即使回复说工作所由内部完成的,也报告与外部小组或机构协作。仅25个实施为“仅本机构”。
【员工】大部分机构把关联数据加到了当前员工的职责(86家),仅15家没有。与2015年调查相比最大不同是,有员工专门从事关联数据的数量增加了50%。
【资助】22个关联数据项目或服务收到基金资助,73个由图书馆/档案馆和/或母机构资助。6个关联数据项目接受来自伙伴机构的支持,5个私人资助,1个接受团体资助。8个从未申请项目,但计划申请。
【成功评估】2018年比2015年有更多回复者报告其关联数据项目或服务成功或“大多”成功。已经运作至少4年的提出以下成功指标:[1]使用;[2]数据重用;[3]互操作;[4]用户满意;[5]影响;[6]专业发展
【发布与消费】在2018年和2015年的调查中,大多数项目/服务既消费也发布关联数据。2018年的调查中,只发布关联数据的项目更少。【更重视消费?】

【二】发布什么关联数据、为什么?
【LD类型】鉴于回复者中图书馆的代表性相对较大,描述性元数据(51)和书目数据(47)是最常见的数据类型,规范数据紧随其后(45)。其他数据类型:关于人的数据(33)、本体/词表(33)、数字馆藏(27)、地理数据(23)、数据集(19)、关于博物馆实物的数据(12)、组织数据(12)、编码档案描述EAD(3)和统计数据(3)等。
【三元组数量】超过10亿三元组的关联数据集数量从3个增加到11个,其中3个超过50亿三元组:Biblioteca de Galicia的数字图书馆(63亿三元组)、Europeana (略高于50亿)和OCLC的WorldCat关联数据(超过100亿三元组)。 但是大多数关联数据集都很小。在报告其数据集大小的63个回复中,33个不到1000万个三元组,9个在10到1亿个三元组之间,10个在1亿到10亿个三元组之间。
【发布动机】比较2018年和2015年的调查结果,发布关联数据的主要动机似乎没有变化。2018年依次为:在Web上迥更多受众曝光数据(74%);证明数据集作为关联数据可做什么(65%);听说关联数据,想试试曝光某些本地数据为关联数据(45%);探索发布数据为关联数据,是否会改进本地资源的搜索引擎优化(SEO)(24%);管理层要求我们曝光我们的数据为关联数据(11%)。
【使用情况】超过半数回复要么不知道、未保留或无法访问使用统计数据,要么尚未使用(103家回复中61家) 。通过每天平均请求数衡量的八个使用最多的关联数据集(每天超过10万个请求):
[1]美国钱币学会的nomisma(钱币概念叙词表)
[2]法国国家图书馆的data.bnf.fr
[3] Europeana,汇集欧洲各地博物馆、档案馆和视听档案馆的数字对象元数据
[4]美国国会图书馆的关联数据服务
[5]日本国立国会图书馆的NDL搜索,提供日本图书馆、档案馆、博物馆和学术研究机构的书目数据
[6]北莱茵 – 威斯特伐利亚图书馆服务中心的关联开放数据服务,提供对书目资源、图书馆和相关组织以及规范数据的访问
[7]OCLC的虚拟国际规范档(VIAF),来自不同国家和地区的40多个规范档的汇总
[8]OCLC的WorldCat关联数据,包含超过4亿条书目记录的目录
另外3个关联数据集每天收到5-10万请求:
[9]不列颠图书馆的《英国国家书目》
[10]芬兰国家图书馆的芬兰叙词表和本体服务
[11]OCLC的FAST(标题表的分面应用),一种来自《美国国会图书馆标题表》的分面主题标题表
【RDF词表与本体】大多数项目使用多个。使用SKOS的百分比从2015年的60%下降到2018年的44%【第2位】,这与使用Schema.org的增加相反(2015年为30%,2018年为46%【第1位】)。类似减少出现在使用DC基本元素集【第3位】、DCMI元数据术语【第5位】和foaf【第4位】,使用RDF Schema的略微减少【并列第5位】。BIBFRAME词表使用率从2015年的15%增加到2018年的27%【第7位】。
【许可】32个项目/服务未宣布任何明确的许可,19个采用CC0 1.0 Universal,这是2018年调查受访者使用的最常见的许可。
【访问及格式】在发布关联数据的70个项目或服务中,19个目前不可在其机构之外访问其数据。
那些提供多种访问格式的,网页是最常见的,随后是文件转储【批下载】、内容协商、SPARQL端点、SPARQL编辑器、嵌入式标记和应用程序。
最常用的关联数据序列化是RDF/XML,其他较少使用的序列化,依引用频率:Turtle,JSON-LD,N-Triples,RDF/JSON,RDFa,N3 RDF三元组和N-Quads。
【技术】发布关联数据所使用的技术是多种多样的,并且大多数使用多种技术。最多有20多家提到:SPARQL、Java。……
【障碍】2018年和2015年调查中出版关联数据的障碍或挑战排名大致相同。最大障碍是员工陡峭的学习曲线【要学的东西太多】,其次是遗留数据中的不一致【数据清洗吧】,第三是选择适当的本体。

【三】消费什么关联数据、为什么?
【关联数据源】2018年前10(超过12个项目或服务使用):id.loc.gov;VIAF;DBPedia;GeoNames;Wikidata;WorldCat.org;Getty Vocabularies;FAST;ISNI;我们自己转换为关联数据的资源。
与2015年相比的最大变化:维基数据使用激增(排名第5,2015年排名第15),与WorldCat.org使用情况相当。ISNI也升至“前10名”,而“我们自己转换为关联数据的资源”从2015年的第5下降到2018年的第10。
【动机】消费关联数据的主要原因在2018年和2015年的调查中排名相同:[1]为本地用户提供更丰富的体验;[2]通过消费其他来源的关联数据强化本地数据。百分比及排名下降较多的有:实现更有效的内部元数据管理(从2015年的47%【第3】到2018年的30%【第4】)。
为本地用户提供更丰富的体验
【障碍】主要障碍是对来源数据和关联数据源进行匹配、消歧和对齐。最大的区别在于2018年指向不稳定端点和服务可靠性的回复数量的增加。

【四】忠告【每一句都是经验之谈,须自己看原文体会】

【五】结论
对2018年调查的回应可能被视为仍在发展的关联数据环境的另一部分快照。这种观点受限于哪些机构对调查作出回复以及谁作的回复【这个对结果的影响确实很大】,因为早期调查中描述的关联数据实施的回复可能因个体观点的不同而不同。
【与2015年调查的显著差异】
[1]只发布关联数据的项目或服务更少,对照那些发布和消费链接数据的项目或服务增加。
[2]更多专门从事关联数据的员工。
[3]用schema.org和BIBFRAME发布关联数据的增加,对照用SKOS的减少。
[4]维基数据Wiki作为关联数据源的兴起。

参见:
2018年国际关联数据实施者调查(2018-5-18)
关联数据应用现状:2015国际关联数据实施者调查的分析(2016-9-4)
OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)

OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)

2017-2018年,OCLC与16所美国图书馆合作,开发基于Wikibase的原型系统,展示关联数据的价值,改善图书馆的资源描述(编目)工作流程。项目提供两方面的服务:
– 调和服务(实体解析?):连接遗留书目信息到关联数据实体
– 编辑器服务:查看、创建和编辑关联数据描述和关系
Linked Data Wikibase Prototype
我的理解,前者是自动识别与获取书目信息中实体的URI,通常通过批处理方式;后者是编目时辅助获取实体及其属性和关系URI,应该是实时处理方式。
项目已经完成,工作报告将于2019年公布。

项目主页:Linked Data Wikibase Prototype
主页下有与项目有关的会议报告PPT,项目团队领导Andrew K. Pace和多个参与图书馆谈各自参与此项目的体会。比如康奈尔大学谈为什么已经有LD4系列项目,还要参加OCLC的项目?
Andrew K. Pace还在OCLC博客NEXT上写了一篇博文,介绍此项目:
Linked data in libraries: From disillusionment to productivity / Andrew K. Pace. 2018-11-08
标题“图书馆关联数据:从幻灭到生产力”,源自在前述会议报告中,最早在2018年4月,他几次借用Gartner新兴技术炒作周期图,标出他认为的图书馆关联数据历年位置,认为关联数据在2015年达到膨胀期望的顶峰(Peak of Inflated Expectation),2017年落入幻灭的谷底(Trough of Disillusionment),估计2018年开始攀爬启蒙的斜坡(Slope of Enlightenment),到2020年进入生产力高原(Plateau of Productivity)。
LD2015-2020
没想到8月Gartner发布的2018年新兴技术炒作周期中,被认为关联数据同义语的知识图谱还处于初期的攀升期(还要5-10年到达高原)。
无论如何,经过十多年的发展,production/productivity已经成为当前图书馆关联数据关注的重点。

——— 关于维基库(Wikibase) ———
源于维基百科、维基数据(Wikidata)、MediaWiki的开源项目:
Wikibase是用于创建、管理和共享结构化数据的应用程序和库的集合。这是一个开源项目,欢迎大家加入开发。
– 主要项目
Wikibase Repository:MediaWiki扩展,允许您在中央协作管理的存储库中存储和管理结构化的非关系数据。
Wikibase Client:MediaWiki扩展,允许您从中央存储库检索和嵌入结构化数据到您的wiki中。
— 查询服务:允许您使用SPARQL查询Wikibase安装的内容
— Wikibase也是一组可重用的组件,为同一域中的任务提供基础。
– 为什么要使用Wikibase
— Wikibase提供了一个通用的数据模型,可以认真对待知识多样性、来源和多语言使用。
— Wikibase由维基数据和维基百科开发和使用,Wikidata是免费知识库,维基百科是任何人都可以编辑的百科全书。
— Wikibase使用基于组件的软件设计,允许重用而不指定您应该使用哪个框架。

OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

OCLC的网站存档元数据(WAM)工作组2016年初开始工作。在与国际互联网保存联盟(International Internet Preservation Consortium)美国档案工作者学会网络存档部(Society of American Archivists Web Archiving Section)和互联网档案(Internet Archive)Archive-It计划的协商下完成工作,并得到很多社区的意见和反馈。2018年初发布成果,共3个出版物:建议、用户需求文献综述、网络收割工具述评。

Web Archiving Metadata Working Group 网站存档元数据工作组
* Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group 网站存档的描述性元数据:OCLC研究图书馆合作伙伴网站存档元数据工作组的建议
* Descriptive Metadata of Web Archiving: Literature Review of User Needs 网站存档的描述性元数据:用户需求文献综述
* Descriptive Metadata of Archiving: Review of Harvesting Tools 存档的描述性元数据:收割工具评述

《建议》为网站存档描述元数据的使用指南,含14个描述数据元素的定义、详细说明、举例、取值以及与其他标准的对照(DC、EAD、MARC21、MODS、Schema.org)
本元数据建议使用DC 15个基本元素中的12个:完全沿用9个,其中Contributor还用于Collector,Description还用于Source of description(泛指用于专指);名称有所变化3个(泛指用于专指):Format用于Extent,Type用于Genre/Form,Identifier用于URL)。

以下摘译自《建议》(电子版有信纸58页和A4纸54页2个版本)。

【标准,p.14/58p;数据元素(p.15/58p)】小组既评估现有标准《描述档案:内容标准》(DACS)、《资源描述和检索》(RDA)、《都柏林核心》(Dublin Core),以及编码档案描述(EAD),MARC 21和MODS(元数据对象描述规范),也抽样了解实际做法,包括WorldCat(MARC记录)、ArchiveGrid(MARC记录和检索工具)、Archive-It(都柏林核心)和发现系统中存档网站的现有描述。结果未发现新的数据元素,但某些数据元素的做法或者理解存在不一致
网站创建者/所有者:是出版者、创建者、主体还是三者?
托管机构:选择、收割和托管网站的机构是否应被视为存储库、收集者、出版者、选择者或创建者?
题名:是否应该从网站头逐字转录?编辑以澄清网站的性质/范围?是否应该拼写首字母缩略词?题名是否应包含诸如“……的网站”之类的短语?
日期:哪些日期既重要又可用于记录?网站存在的开始/结束、抓取日期、内容日期或版权日期?
数量:如何最有效地表达? 1个存档的网站、1个在线资源、6.25 GB或约300个网站?
出处(Provenance):出处是指网站的创建者、收割网站和托管网站档案的存储库、网站进化的方式、抓取的频率和日期,还是所有这些?
评估(Appraisal):评估意味着网站保证存档的原因、存储库命名的网站集合或网站的部分是否已被收割?
格式:描述是否清楚地表明资源是网站档案是不是很重要?如果是这样,在题名、数量或描述中如何最好地做到这一点?
URL:应包含哪些URL?种子、访问或登陆页面?
MARC 21记录的类型:当以MARC 21格式编码时,网站是否应被视为连续性资源、集成资源、电子资源、文本出版物、混合资料、手稿或其中任何一种,取决于具体情况?

【数据元素和使用指南(p.17/58)】14个元素及其定义(选摘对应的DC、schema.org元素)
[1] Collector 收集者:负责存档网站或集合的保管和管理的组织。(DC-contributor;schema:OwnershipInfo)
[2] Contributor 贡献者:对存档网站或集合的内容负有次要责任的组织或个人。(DC=;schema:contributor)
[3] Creator 创作者:对创建存档网站或集合的知识内容负有主要负责的组织或个人。(DC=;schema:creator)
[4] Date 日期:与存档网站或集合的生命周期中的事件关联的单个日期或日期范围。(DC=;schema:dateCreated,schema:dateModified,schema:datePublished)【DC Term另有专指时间:dateAccepted,dateCopyrighted,dateSubmitted,不太适合】
[5] Description 描述:一个或多个注释,用于解释存档网站或集合的内容、上下文和其他方面。(DC=;schema:description)
[6] Extent 范围:存档网站或集合大小的指示。(DC-format;schema:description)
[7] Genre/Form 类型/形式:指定存档网站或集合中内容类型的术语。(DC-Type;schema:genre)
[8] Language 语言:存档内容的语言,包括带有语言组件的影音资源。(DC=;schema:inLanguage)
[9] Relation 关系:用于表示单个存档网站与其所属的任何集合之间的部分/整体关系。(DC=;schema 无)
[10] Rights 权利:知识产权法或其他法律协议授予的合法权利和许可声明。(DC=;schema:license,schema:isAccessiblrForFree)【DC Term另有专指权利:accessRights, rightsHolder,类RightsStatement】
[11] Source of description 描述来源:有关收集或创建元数据本身的信息,例如数据源或获取源数据的日期。(DC-Description;schema:description,schema:disambiguatingDescription)
[12] Subject 主题:描述存档网站或集合内容的主要主题。(DC=;schema:about)
[13] Title 标题:存档网站或集合为人所知的名称。(DC=;schema:name)
[14] URL:存档网站或集合的网址。(DC-Identifier;schema:url)

P.S.:纽约艺术资源联盟(NYARC)是Archive-It项目成员,其《描述存档版网站的元数据应用纲要》(27个元素)提到OCLC的“网站存档描述元数据指南”即本建议,并有两种元数据的对照。
参见:为网站编目:《描述存档版网站的元数据应用纲要》(2018-9-9)