2018国际关联数据实施者调查分析

OCLC研究部曾在2014年和2015年进行过2次国际关联数据实施者调查。为了解近三年的变化,以及格式化元数据为关联数据或者后续使用关联数据的新项目或服务,OCLC研究部于2018.4.17-5.25再次进行同样的调查,Karen Smith-Yoshimura综合三次调查结果,写了分析文章,发表在网刊code4lib Journal:
Karen Smith-Yoshimura. Analysis of 2018 International Linked Data Survey for Implementers. code4lib Journal, Issue 42, 2018-11-08
调查包括:概述,发布什么关联数据及为什么,消费什么关联数据及为什么,忠告,结论。内容太丰富,很难概括总结,只能摘录部分如下。

【一】概述
【机构与项目数量】共有23个国家的143家机构参加了一次或多次调查(见文后附录)。参加2018年调查的81家机构中,46家参加过先前一次或两次调查。但参加过先前调查者介绍的也不一定是同样的关联数据项目或服务【换言之,原项目已不再继续】。在2018年介绍的104个关联数据项目或服务中,仅42个以前介绍过。即使介绍同样的项目或服务,有时回复也与以前不同【应该是项目本身有变化】。
【国别】2018年调查中美国回复34家机构占42%,接下来是西班牙12家,英国8家,荷兰4家,加拿大、德国、挪威各3家,意大利2家,1家的是澳大利亚、奥地利、中国【终于有了,竟然不是上海图书馆,而是敝校】、捷克、芬兰、法国、匈牙利、日本、卢森堡、葡萄牙、南非和瑞士。
【机构类型】研究图书馆23家28%,国家图书馆13家16%,研究机构11家14%,图书馆网络和政策各8家10%,服务供应商6家7%,公共图书馆5家6%,博物馆4家5%,其他2家(1家音乐厅、1家出版社)。此分布基本上与前次调查相同,只有一个例外——第一次收到来自服务供应商的回复,是向其客户提供关联数据服务。
【项目运行时间】2018年的104个关联数据项目或服务中,18个已运行2年以上4年以下,31个已运行4年或以上。3个还不可访问,3个“私有”仅供本机构使用。
【协作】大部分关联数据项目或服务完全在内部完成(61个),部分为多机构实施(23个),20个由外部厂商或服务供应商提供。不过,即使回复说工作所由内部完成的,也报告与外部小组或机构协作。仅25个实施为“仅本机构”。
【员工】大部分机构把关联数据加到了当前员工的职责(86家),仅15家没有。与2015年调查相比最大不同是,有员工专门从事关联数据的数量增加了50%。
【资助】22个关联数据项目或服务收到基金资助,73个由图书馆/档案馆和/或母机构资助。6个关联数据项目接受来自伙伴机构的支持,5个私人资助,1个接受团体资助。8个从未申请项目,但计划申请。
【成功评估】2018年比2015年有更多回复者报告其关联数据项目或服务成功或“大多”成功。已经运作至少4年的提出以下成功指标:[1]使用;[2]数据重用;[3]互操作;[4]用户满意;[5]影响;[6]专业发展
【发布与消费】在2018年和2015年的调查中,大多数项目/服务既消费也发布关联数据。2018年的调查中,只发布关联数据的项目更少。【更重视消费?】

【二】发布什么关联数据、为什么?
【LD类型】鉴于回复者中图书馆的代表性相对较大,描述性元数据(51)和书目数据(47)是最常见的数据类型,规范数据紧随其后(45)。其他数据类型:关于人的数据(33)、本体/词表(33)、数字馆藏(27)、地理数据(23)、数据集(19)、关于博物馆实物的数据(12)、组织数据(12)、编码档案描述EAD(3)和统计数据(3)等。
【三元组数量】超过10亿三元组的关联数据集数量从3个增加到11个,其中3个超过50亿三元组:Biblioteca de Galicia的数字图书馆(63亿三元组)、Europeana (略高于50亿)和OCLC的WorldCat关联数据(超过100亿三元组)。 但是大多数关联数据集都很小。在报告其数据集大小的63个回复中,33个不到1000万个三元组,9个在10到1亿个三元组之间,10个在1亿到10亿个三元组之间。
【发布动机】比较2018年和2015年的调查结果,发布关联数据的主要动机似乎没有变化。2018年依次为:在Web上迥更多受众曝光数据(74%);证明数据集作为关联数据可做什么(65%);听说关联数据,想试试曝光某些本地数据为关联数据(45%);探索发布数据为关联数据,是否会改进本地资源的搜索引擎优化(SEO)(24%);管理层要求我们曝光我们的数据为关联数据(11%)。
【使用情况】超过半数回复要么不知道、未保留或无法访问使用统计数据,要么尚未使用(103家回复中61家) 。通过每天平均请求数衡量的八个使用最多的关联数据集(每天超过10万个请求):
[1]美国钱币学会的nomisma(钱币概念叙词表)
[2]法国国家图书馆的data.bnf.fr
[3] Europeana,汇集欧洲各地博物馆、档案馆和视听档案馆的数字对象元数据
[4]美国国会图书馆的关联数据服务
[5]日本国立国会图书馆的NDL搜索,提供日本图书馆、档案馆、博物馆和学术研究机构的书目数据
[6]北莱茵 – 威斯特伐利亚图书馆服务中心的关联开放数据服务,提供对书目资源、图书馆和相关组织以及规范数据的访问
[7]OCLC的虚拟国际规范档(VIAF),来自不同国家和地区的40多个规范档的汇总
[8]OCLC的WorldCat关联数据,包含超过4亿条书目记录的目录
另外3个关联数据集每天收到5-10万请求:
[9]不列颠图书馆的《英国国家书目》
[10]芬兰国家图书馆的芬兰叙词表和本体服务
[11]OCLC的FAST(标题表的分面应用),一种来自《美国国会图书馆标题表》的分面主题标题表
【RDF词表与本体】大多数项目使用多个。使用SKOS的百分比从2015年的60%下降到2018年的44%【第2位】,这与使用Schema.org的增加相反(2015年为30%,2018年为46%【第1位】)。类似减少出现在使用DC基本元素集【第3位】、DCMI元数据术语【第5位】和foaf【第4位】,使用RDF Schema的略微减少【并列第5位】。BIBFRAME词表使用率从2015年的15%增加到2018年的27%【第7位】。
【许可】32个项目/服务未宣布任何明确的许可,19个采用CC0 1.0 Universal,这是2018年调查受访者使用的最常见的许可。
【访问及格式】在发布关联数据的70个项目或服务中,19个目前不可在其机构之外访问其数据。
那些提供多种访问格式的,网页是最常见的,随后是文件转储【批下载】、内容协商、SPARQL端点、SPARQL编辑器、嵌入式标记和应用程序。
最常用的关联数据序列化是RDF/XML,其他较少使用的序列化,依引用频率:Turtle,JSON-LD,N-Triples,RDF/JSON,RDFa,N3 RDF三元组和N-Quads。
【技术】发布关联数据所使用的技术是多种多样的,并且大多数使用多种技术。最多有20多家提到:SPARQL、Java。……
【障碍】2018年和2015年调查中出版关联数据的障碍或挑战排名大致相同。最大障碍是员工陡峭的学习曲线【要学的东西太多】,其次是遗留数据中的不一致【数据清洗吧】,第三是选择适当的本体。

【三】消费什么关联数据、为什么?
【关联数据源】2018年前10(超过12个项目或服务使用):id.loc.gov;VIAF;DBPedia;GeoNames;Wikidata;WorldCat.org;Getty Vocabularies;FAST;ISNI;我们自己转换为关联数据的资源。
与2015年相比的最大变化:维基数据使用激增(排名第5,2015年排名第15),与WorldCat.org使用情况相当。ISNI也升至“前10名”,而“我们自己转换为关联数据的资源”从2015年的第5下降到2018年的第10。
【动机】消费关联数据的主要原因在2018年和2015年的调查中排名相同:[1]为本地用户提供更丰富的体验;[2]通过消费其他来源的关联数据强化本地数据。百分比及排名下降较多的有:实现更有效的内部元数据管理(从2015年的47%【第3】到2018年的30%【第4】)。
为本地用户提供更丰富的体验
【障碍】主要障碍是对来源数据和关联数据源进行匹配、消歧和对齐。最大的区别在于2018年指向不稳定端点和服务可靠性的回复数量的增加。

【四】忠告【每一句都是经验之谈,须自己看原文体会】

【五】结论
对2018年调查的回应可能被视为仍在发展的关联数据环境的另一部分快照。这种观点受限于哪些机构对调查作出回复以及谁作的回复【这个对结果的影响确实很大】,因为早期调查中描述的关联数据实施的回复可能因个体观点的不同而不同。
【与2015年调查的显著差异】
[1]只发布关联数据的项目或服务更少,对照那些发布和消费链接数据的项目或服务增加。
[2]更多专门从事关联数据的员工。
[3]用schema.org和BIBFRAME发布关联数据的增加,对照用SKOS的减少。
[4]维基数据Wiki作为关联数据源的兴起。

参见:
2018年国际关联数据实施者调查(2018-5-18)
关联数据应用现状:2015国际关联数据实施者调查的分析(2016-9-4)
OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)

OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议

OCLC研究部2014年7月7日到8月15日在网上做了一个关联数据项目与服务调查,针对图书馆档案馆发布关联数据,以及在自己的数据或应用中摄入关联数据资源,目的在于了解谁、为什么使用关联数据。
调查信息通过其博客hangingtogether.org发布,8月底Karen Smith-Yoshimura在该博客上分6次发布了调查分析结果,并提供原始调查结果汇总表供下载。
调查对象要求是已经或正在实施关联数据项目的,但在收到的122个参与者,有26个目前并未实施,只是有计划或兴趣。其余96个实施了172个关联数据项目/服务,其中76个项目被描述:25个消费关联数据,4个发布关联数据,47个既消费也发布。对项目进行描述的47个机构有很好的国际代表,过半在美国,其余来自14个国家:澳大利亚、加拿大、捷克、法国、德国、爱尔兰、意大利、荷兰、挪威、新加坡、韩国、西班牙、瑞士、英国。调查得到的数据及分析,对了解当前国际上图博档领域关联数据应用现状很有参考价值。
以下概述7篇博文内容:

So who is using linked data? And for what? / July 7, 2014
发布调查邀请,说明调查目的等(调查链接已失效)

Linked Data Survey results 1 – Who’s doing it (Updated) / August 28, 2014
关联数据调查结果1:谁在做
调查结果概述(见前),参与调查机构、日均请求、是否成功达到期望结果、机构中参与的部门等

Linked Data Survey results 2: Examples in production (Updated) / August 29, 2014
关联数据调查结果2:成果举例
关联数据项目简介

Linked Data Survey results 3–Why and what institutions are consuming (Updated) / September 1, 2014
关联数据调查结果3:为什么及什么机构在消费
消费关联数据的理由、方法、关联数据源、面临的障碍或挑战。

用得最多的关联数据源
* id.loc.gov – 30
* DBpedia – 25
* GeoNames – 25
* VIAF – 24

Linked Data Survey results 4–Why and what institutions are publishing (Updated) / September 3, 2014
关联数据调查结果4:为什么及什么机构在发布
发布关联数据的理由、发布的数据类型、许可、面临的障碍或挑战。

用得最多的RDF词表与本体
* SKOS – 38
* FOAF – 30
* Dublin core terms – 29
* Dublin core – 27
* Schema.org – 22
(关注:RDA–10;BIBFRAME–6)

Linked Data Survey results 5 – Technical details / September 5, 2014
关联数据调查结果5:技术细节
访问方法、序列化、消费技术、发布技术。

访问方法前3位
* Web pages 网页 – 25
* SPARQL Endpoint – 24
* file dump 文件下载 – 23

序列化前3位
* RDF/XML – 47
* Turtle – 30
* RDF/JSON – 26

Linked Data Survey results 6 – Advice from the implementers / September 8, 2014
关联数据调查结果6:来自实施者的忠告
建议、资源推荐、调查结果源数据下载

忠告:困难的是什么?[1]组织支持与人员配置;[2]词表;[3]技术;[4]法律问题……

[update 2014-10-29] 参见荔园图志:OCLC发布关联数据调查报告 (2014-10-21)

EURIG采用RDA调查-2013报告

欧洲RDA兴趣小组(EURIG)在2012年1、2月间首次对成员机构进行了采用RDA调查,报告7月发布。在20个回复机构中,4个有明确实施计划(荷兰国家图书馆、不列颠图书馆和德国国家图书馆2013年,芬兰国家图书馆2015年),12个在2012-2015年间做决定。(见:EURIG采用RDA调查-2012报告,2013年1月27日)
2013年7月EURIG进行了第二次采用RDA调查,报告2013年12月发布。EURIG目前有32个成员机构,收到回复24个。对实施RDA的问题,在23个回复机构中,13个有明确实施计划。与2012年调查相比,采用RDA的确定性有明显增加。法国国家图书馆的决定尤其令我印象深刻。
看不同机构对实施或不实施等的说明,可以对不同国家或机构眼中的RDA有更好的了解。

———-EURIG采用RDA调查-2013报告(不完全翻译)———-
EURIG survey on adoption of RDA – 2013: report / K Gryspeerdt (18 December 2013)

1、实施RDA
23个机构回答。
– 13个机构有明确实施计划,其中12个给出了进一步信息:
4个机构在2013年实施:荷兰国家图书馆、不列颠图书馆、Casalini Libri(为图书馆提供欧洲书籍、期刊、编目资料以及电子内容的意大利供应商),OCLC开始逐步实施。
4个机构计划2015年实施:瑞士国家图书馆、德国图书馆网络联盟(Arbeitsgemeinschaft der Verbundsysteme)、芬兰国家图书馆、德国国家图书馆
1个机构2016年实施:拉脱维亚国家图书馆
3个机构尚未决定实施日期:冰岛国家与大学图书馆、瑞典国家图书馆、法国国家图书馆
– 10个机构没有明确实施计划,其中3个进一步说明:
丹麦文化与书目机构:是否实施不是问题,只是何时未定。
— 挪威国家图书馆:没有正式决定。
— 葡萄牙国家图书馆:还没有决定。

2、实施RDA理由
12个机构回答。
– 可互操作性:12
– 当前编目规则需要修订或替代:11
– 想实施FRBR:7
– RDA包含收藏资料范围:5
– 费用效益:4
一些机构的说明:
– OCLC莱顿:荷兰图书馆有强烈的国际化与标准化需求,想尽可能在元数据管理领域减少本国准则与实践。注意:不确定RDA的“费用效益”是否会实现,我们期望不会增加成本(cost-neutral)。
– Casalini Libri:我们的美国顾客需要RDA记录。
法国国家图书馆:FRBR化目录是主要目标,RDA只是一个补充方式。因此RDA实施必须满足并兼容FRBR模型。我们把实施RDA作为未来目标的决定,也由于我们决心参与互操作框架中的国际元数据交换,尽可能避免国家特异性

3、不实施RDA理由
仅7个机构回复。
7个均选择理由:当前不实施,等其他机构实施的证明
个别机构选择的其他理由:订购费太贵;没有合适的译本;不具有费用效益
一些机构的说明:
– 丹麦文化与书目中心机构:我们仍在决定采用RDA的条件与时机的过程中。
波兰国家图书馆:我们正在进行RDA测试。
克罗地亚国家与大学图书馆:仍在考虑选择修订或制订本国编目规则。
– ISSN国际中心:ISSN网络使用ISSN手册中的ISSN规则。ISSN评审组(由ISSN国际中心和若干ISSN国家中心代表组成)参与协调ISBN、RDA和ISSN规则的国际努力,这对ISSN网络尤其重要,因为某些ISSN国家中心的主管机构已经开始或将在未来数月/数年中使用RDA。
葡萄牙国家图书馆:正进行RDA研究与翻译。
挪威国家图书馆:我们很可能实施,但还未正式决定。

4、实施RDA的期望益处
20个机构回答。
对5个方面,分短期(18-24月)和长期(2年以上):
应对变化:长期:5,短期:10
改进资源发现:长期:10,短期:8
可互操作性:长期:8,短期:12
提高生产率:长期:8
费用效益:长期:10
一些机构的说明:
– OCLC:区分“内容-载体”和“作品/内容表达-载体表现”,肯定有助于最终用户改进发现其所需资源。
– 法国国家图书馆:期望RDA(作为FRBR化我们资源的手段)提供展示书目信息的途径,对最终用户更直观,更符合Web环境中信息研究与发现的普遍趋势。
– 不列颠图书馆:希望看到节省费用,但不是主要动机;喜欢实施FRBR,但在实现前有很多依赖条件。但RDA比AACR2对电子资源更好,对于英国正实施的电子法定呈缴,现在成为我们编目生产的更重要组成部分。RDA也正被作为我们套录编目来源的其他主要图书馆和书目机构所采用。

5、RDA对生产率的影响
只要求已实施机构回答,开放性问题。4个机构回答。
– Casalini Libri:现在评估还太早
– 瑞士国家图书馆(2015年实施):必须调整工作流程……
– 德国国家图书馆:共享数据、共享知识、共享经验、协同合作
– 不列颠图书馆:对大部分资料类型没有太大变化,但对会议录和其他灰色文献,规范工作量增加。这不可持续,因此我们指导编目员遵从关于此类出版物规范检索点的核心需求。

6、数据库结构(略)

7、FRBR化
23个机构回答了全部2个FRBR化问题。
– 回溯FRBR化其数据【从底层处理数据】
— 未决定:13
— 计划:7
— 未打算:3
– FRBR化用户界面
— 未决定:14
— 计划:7
— 未打算:2

8、EURIG会议
最后一组问题关于EURIG会议日程与主办。
15个机构反对一年召开一次以上会议,若干选择本机构财政状况偏紧。更合适的替代论坛是视频会议与活跃的工作小组
12个机构愿意主办EURIG成员会议。【仍是一个有凝聚力的组织】
15个机构(大多数)表示倾向于在2014年3、4月举行EURIG会议,这样有时间计划向JSC的2014年11月会议准备讨论提案。【目前EURIG网站上还没有会议信息】