关联数据应用现状:2015国际关联数据实施者调查的分析

OCLC研究部在2014年面向国际关联数据实施者进行过一次问卷调查。参见:OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)。
由于缺少欧洲几个著名的关联数据项目,因此OCLC研究部在2015.6.1-7.31再次做了同样的调查。两次调查去重后合计有20国90个机构参与,主要是图书馆,大部分项目主要是实验性质的。主持者Karen Smith-Yoshimura在D-Lib上发文,综合两次调查结果,并对2015年调查中提供详细信息的112个项目/服务进行了详细分析。文章最后有调查回复者对其他考虑关联数据项目者的建议。
Smith-Yoshimura, Karen. Analysis of International Linked Data Survey for Implementers. D-Lib Magazine, 22(7/8) doi:10.1045/july2016-smith-yoshimura

如何评估关联数据项目是否成功?参加调查的项目很少做了评估,但有46个认为项目是成功或基本成功的。评估点涉及:数据重用、增加可发现性、新知识创建、思想领导力、为语义网做准备、运作成功、组织发展、组织转型。个人感觉最有意思的是“思想领导力”和“组织发展”两个方面:前者是用“关联数据工作证明,机构正在采取主动,为未来不同环境奠定基础”,后者认为“即使缺乏计量法证明关联数据对其他方面的价值,关联数据项目仍对员工提供了专业发展。”也就是说,做关联数据项目本身并非唯一目的,机构形象及员工发展也是重要考量。
以下为文章编译。

——— 参与调查机构基本数据 ———
【2014年和2015年全部90个机构按国别】依次是美国39个占43%,西班牙10个、英国9个、荷兰6个、挪威4个、加拿大3个,澳大利亚、法国、德国、意大利和瑞士各2个,奥地利、捷克、匈牙利、爱尔兰、日本、马来西亚、葡萄牙、新加坡和瑞典各1个。
【2015年71个机构按图书馆类型】国家图书馆14个占20%(2014年4个),高校图书馆23个占31%,多机构网络9个占14%,政府7个占10%,学术项目6个占8%,公共图书馆5个占6%,博物馆、学会各3个各占4%,出版社1个。
2015年的71个机构报告168个项目,其中112个有不同程度的详细描述。2/3项目在运行中,其中运行超过2年的“成熟”项目比2014年增加了一倍(46对24,表1)。有10个项目是“私有的”,仅供本机构使用。
如何利用关联数据(表2,2015对2014):消费关联数据(38对25),发布关联数据(10对4),同时消费与发布(64对47)。【只是消费的项目也有1/3!】

——— 发布的关联数据 ———
– 数据类型,依次是:书目数据56,规范数据45,描述元数据43,本体/词表30、数字馆藏26、地理数据18、数据集16,、博物馆实物数据10、编码档案描述5、组织数据5、有关研究者或馆员数据2。
– 数据集大小(三元组数量):大部分数据集很小。67个报告数据集大小,39个少于1千万,19个多于1亿。超过10亿的仅3个:北莱茵-威斯特伐利亚图书馆服务中心(10-15亿),挪威理工大学不同关联数据项目合计150亿,OCLC的WorldCat关联数据150亿。【欧洲确实有相当大的关联数据项目】
– 访问量(日均请求数):大部分已实施项目近6个月平均少于1千。
超10万的7个数据集是:Europeana, Getty词表3个,LC关联数据服务超过50个词表,日本国会图书馆NDL搜索,北莱茵威斯特伐利亚图书馆服务中心的LOD服务,OCLC的WorldCat关联数据,OCLC的VIAF。
另有6个数据集为1-5万:美国钱币学会nomisma词表,法国国家图书馆data.bnf.fr,不列颠图书馆英国国家书目,日本国会图书馆规范数据,OCLC的WorldCat作品,OCLC的FAST分面主题词表
– 使用的RDF词表和本体:数据集使用不同RDF词表和本体,很多使用多个。按提及频率,依次是【仅列10次以上,计数由本人据原始数据统计】:
1. Simple Knowledge Organization System (skos)【59】
2. Friend of a Friend (foaf)【55】
3. DCMI Metadata Terms (dcterms)【52】
4. Dublin Core Metadata Element Set (dce)【约49】
5. Schema.org vocabulary (schema)【30】
6. The Bibliographic Ontology (bibo)【25】
7. 本地词表【19?】;VOCABS rda【链接RDA第2组实体间关系,非官方版】【约19】
8. Europeana Data Model vocabulary (edm)【15】
9. ISBD elements (isbd)【13】;WGS84 Geo Positioning (geo)【13】
10. BIBFRAME Vocabulary (bf)【15?】
11. Expression of Core FRBR Concepts in RDF (frbr)【链接2005非官方版】【11】
– 许可:26个项目未宣布明确的许可,同样数量采用CC0 1.0。
– 可访问性:在74个发布关联数据的项目中,19个目前不能在机构外访问【超过1/4】。其他大多数提供多种(访问)方法。最通用的方法是网页,其后依次是:内容协调、文件转储、SPARQL端点、SPARQL编辑器和应用。
– 序列化:最通用的是RDF/XML,其他依次是:Turtle, JSON-LD, N-Triples, RDFa Core, RDF/JSON, Notation3 和 N-Quads。
– 技术:形形色色,最常使用多种技术。见表4。
– 障碍:发布关联数据的主要障碍依次是:
1、员工的陡峭学习曲线
2、选择适当的本体以表达数据
3、建立链接
4、对如何建立系统鲜有文档或建议【缺少先例】
5、缺少工具
6、不成熟的软件
7、弄清谁拥有数据【版权】
其他障碍:限制性许可,资源不足,数据集太大不能作为整体发布(且难以供他方消费),机构支持不足,适应当前关联数据技术的基础结构。

——— 消费的关联数据 ———
– 消费资源:2015年调查被12个及以上项目消费的依次是(星号来自参与调查机构)
1、VIAF *
2、DBpedia
3、GeoNames
4、id.loc.gov *
5、自己转换为关联数据的资源
6、AAT *
7、FAST关联数据 *
8、WorldCat.org *
9、data.bnf.fr *
10、DNB德国国家图书馆关联数据服务 *
从被消费看,以上可视为成功的关联数据发布方。参加调查的图书馆消费其他来源时,总体上选择图书馆领域的来源而不扩展到非图书馆来源,DBPeida和GeoNames是两个例外。
– 障碍:消费关联数据的主要障碍依次是:
1、匹配、消歧和校准来源数据及关联数据资源
2、映射词表
3、发布为关联数据的,不总是可重用的或者缺少URI
4、缺少规范控制
5、数据集不更新
6、RDF存储的大小;使用前了解数据如何结构化的
7、存储的数据格式的波动性
8、缺少工具;端点不稳定
9、 难以让其他机构做对象与概念之间的协调;服务可靠性
10、难以跨语言术语消歧
其他障碍:许可比ODC-BY更限制,机构把关联数据当作研究项目而非基础结构,本地感兴趣的关联数据集数量不足,API限制,结合消费关联数据到日常工作流程的资源不足。

——— 项目实例(按机构类型)———
– 国家图书馆:16个国家图书馆项目,美国、法国、德国居12个消费最多项目之列。
英国国家书目的SPARQL Query Viewer(图1)
德国国家图书馆的4个项目:国家书目,德国集成规范档GND,BIBFRAME原型,实体事实(图2)
日本国会图书馆的5个项目:书目数据、规范数据、日本图书馆和相关组织的国际标准标识符ISIL、有关2011年关东大地震的集成资源、日本十进分类法
– 网络
美国数字公共图书馆DPLA
欧洲Europeana
德国北莱茵威斯特伐利亚图书馆服务中心(hbz):发布最大关联数据集之一(10-15亿三元组),其关联开放数据API提供访问hbz联合目录的2000万书目记录及4500万馆藏,德国集成规范档(GND),以及图书馆地址数据(来自图书馆及相关组织德国国际标准标识符注册库ISIL)。
OCLC:发布抽取自自MARC记录和图书馆规范档的200亿RDF三元组,是世界上最大的图书馆集成关联数据资源,其中FAST、VIAF和WorldCat居2015年调查10个最高关联数据来源。
– 高校图书馆:大部分高校馆的关联数据项目是实验性质的
– 公共图书馆:很少公共馆参与调查,仅2个有项目运行中,其一是【Zepheira公司】LibHub项目的早期采用者;另一是奥斯陆公共图书馆,转换MARC目录为RDF关联数据,用外部收割来的信息强化,由SPARQL更新查询构建,挪威图书馆所写书评集链接到书目数据。
– 博物馆:很少博物馆参与调查
– 学术项目【由原始资料转换为结构化数据、生成三元组】
Dalhousie University’s Institute for Big Data Analytics:集成全世界一战档案中数据。从数字化文献中抽取数据,转换为可支持进一步研究的结构化数据库
Pratt Institute’s Linked Jazz project:“关联爵士乐”项目:从5个爵士乐档案的访谈文字内容生成三元组,即从数据而非转换现有元数据。(参见:BIBFRAME试验项目培训资料
Nomisma:美国钱币学会主持的国际协作项目,提供钱币术语和标识符的关联数据叙词表。
– 出版社
斯普林格是唯一参与调查的出版社。正把科学会议数据,以LOD提供关于出版物、作者、论题和会议的信息,方便探索、促进分析作者、研究机构和会议的生产力和影响。

参见:
hangingtogether.org: More on international linked data survey for implementers (2016-7-11) by Karen Smith-Yoshimura
圖書館觀點:全球關聯數據(Linked Data) 實施情況(2016-8-1)

腾讯“开放的传统游戏数字图书馆”项目

最近关注了一下非遗,正好看到腾讯互动娱乐与联合国教科文组织(UNESCO)合作的“开放的传统游戏数字图书馆”项目(Open Digital Library on Traditional Games)。传统游戏现在已是亟需保护的非物质文化遗产,而这也成为腾讯体现“企业社会责任”的一个项目。
这个由腾讯提出、UNESCO名下的公益项目,“旨在充分利用信息通信技术(ICTs),在全球范围内收集、保护和传承传统游戏这一活态遗产。作为主要合作方,腾讯互娱提供互联网技术支持,协助UNESCO对各国传统游戏进行探寻、识别、收集、编目,保存和与公众分享等工作”,同时“商业化恰恰是一种非常好的保护形式”(腾讯互娱“传统游戏的保护与传承”公开课在希腊大学举办,2016-06-17 )。由此不难推测,腾讯希望从传统游戏中获取灵感、借鉴到它的游戏开发中,由此而与致力于非遗保护的UNESCO一拍即合。

对腾讯如何编目与保存传统游戏,以及如何使用自由和开源软件建立此图书馆很感兴趣。根据:腾讯聂志明:打造“开放的传统游戏数字图书馆”(2015-11-26)介绍:聂志明在论坛现场用三个关键词介绍了腾讯将如何利用互联网技术实现对于传统游戏的存储与保护,打造一座不一样的开放的线上图书馆。
第一个关键词: 连接器——建一座“过去”与“未来”的连接器。希望能将过去这些传统游戏及其蕴含的文化挖掘出来,包括:传统文化、传统竞技与体育、民俗文化等等。对于挖掘出的传统游戏的内容,根据联合国教科文组织专家研究的分类,腾讯并不会简单地停留于文字的介绍,而会通过图片、视频及多维体验的方式,来帮助传统游戏最大限度的还原与传播。
第二个关键词: 交互——数字图书馆应该是基于互联网与移动信息技术的,多维立体的数字图书馆。这个图书馆不是一个单向的存储器,而是能与用户互动,并可以体验这些传统游戏的玩法。而在此基础上,腾讯会尝试通过这一些前沿的技术,给用户提供更鲜活更真实的体验。腾讯多年积累的强大社交媒体和海量用户基础,帮助项目最大限度的传播和传承。
第三个关键词: 开放——“开放的传统游戏线上图书馆”必须是一个开放的平台,每个用户都可以成为图书馆内容的贡献者。纵然有再强的技术支撑与互联网手段,腾讯也只能做到全球传统游戏收集与传播的万分之一,而那万分之九千九百九十九,更多是靠更多社会力量、大家共同努力才能完成。

项目2015年3月启动,到本月已完成孟加拉、蒙古、希腊、巴西四国传统游戏的收集,并且南亚及蒙古馆在今年3月已经上线。只是各种报道都没有提供链接,通过几种搜索引擎也没找到入口。项目官网“数字图书馆”下标注日期为2016年4月,点击却仍显示“敬请期待”。

——— “开放的传统游戏数字图书馆”时间线 ———
2015-3-30项目启动:携手UNESCO(官网报道:UNESCO and TENCENT partner to Create an Open Digital Library on Traditional Games;UNESCO网站上另有多篇项目信息)
2015-9 搭建项目官网(http://odltg.qq.com/
2015-10全球专家招募:专家团队为探索工作坊提供支持
2015-11高峰论坛:探讨项目的开展(2015腾讯互动娱乐艺术高峰论坛:互联网时代下传统游戏的保护与传承。前引聂志明演讲出自此论坛)
2016-1千年游戏-探索工作坊:孟加拉、蒙古实地探索和保护传统游戏(并与孟加拉当地游戏企业探讨助力政府推动实现“数字孟加拉”的可能性)
(以上日期来自因赛集团:腾讯互动娱乐:品牌整合营销传播策划案例
2016-3-25“开放的传统游戏数字图书馆1.0南亚及蒙古馆”上线(via腾讯互动娱乐2016年度发布会:让游戏回归游戏 开放的传统游戏数字图书馆1.0上线
2016-6 第3站:希腊(腾讯互娱“传统游戏的保护与传承”公开课在希腊大学举办,2016-06-17 ,含李明的问答;腾讯李明:搭建一座数字图书馆 让更多年轻用户了解传统游戏,2016-6-21,报道6-15公开课上的演讲)
2016-8-17 第4站:巴西(腾讯与UNESCO让开放的传统游戏图书馆进巴西,2016-8-12;新华网:腾讯携手联合国机构赴巴西考察传统游戏,2016-8-22)

CLOCKSS及其开放获取期刊

成立于2006年的CLOCKSS由若干学术出版社和研究图书馆发起,是致力于电子资源存档的非营利组织,采用始于1998年的LOCKSS技术保存电子资源。其方式是参与出版社在CLOCKSS存档其电子资源(目前主要是电子期刊),当因停刊等原因不再提供访问时,即触发CLOCKSS将这些内容开放获取。参与图书馆秉持信息不受限制获取的图书馆核心价值,提供现有基础设施保存电子资源(现有12个存档节点),或者基于购买资源预算、自愿支付相应费用(年费从$450到$15000不等),支持CLOCKSS。最近有8家出版社、14家图书馆加入(来自巴西、印度、澳大利亚、日本、英国、加拿大),累计参与出版社200+,图书馆700+。
via CLOCKSS News: CLOCKSS Announces 8 Additional Publishers and Support from 14 More Libraries (JUNE 8, 2016)

目前CLOCKSS网站上发布开放获取期刊有29种,大多仅部分卷期(估计较早卷期没有电子版)。根据说明,这些期刊大多在其他联机资源中没有提供。清单附后。

——— CLOCKSS宣传资料 ———
摘录CLOCKSS中文传单部分内容如下:

“图书馆过去已经拥有它们的资源,为 了将来,必须妥善地保护这些资源. 我们应该准备好迎接这样的挑战, CLOCKSS 让我们能共同去履行这一使命.” — Patricia A. Steele, Ruth Lilly Dean of University Libraries, Indiana University

CLOCKSS:一个值得信赖的共同管理档案
图书馆和出版商通力合作
在2006年,数间世界最大的学术出版商和顶尖的研究图书馆,面对保护其共同电子资源的责任所带来的挑战,联合起来建立了一个全球黑暗档案系统的原型.他们独特的合作,旨在建立一个由出版商和图书馆共同管理的“合作性”档案. 今天,CLOCKSS (控制大量副本以安全保存电子资源) 是一个由董事会成员和咨询委员会共同管理的非牟利机构. CLOCKSS的创立成员诚邀图书馆和出版商参与这一档案的建设,并由此进一步推进我们共同的利益.

分散式保存:被证实的可持续发展的
利用低成本,开源性LOCKSS™技术建立起来的CLOCKSS档案,包括位于12个主要图书馆的地理上分散的节点,电子资源由此被摄入及保存其中. 储存于CLOCKSS的内容是不能被访问的,只有当触发事件出现,CLOCKSS董事会投票决定“点亮”受影响的资源时,才能恢复用户对它的再次使用. 在过去一年里,CLOCKSS曾经历过三次触发事件,均相应地公开受触动的内容,不但供CLOCKSS的参与者或这些资源的现行和过去的订购者使用,而且,任何人在互联网上都可以免费使用.

长期平台中立性
商业,非牟利和社团出版商将源文件及图像的前后文件存放于CLOCKSS中作长期保存.

参加CLOCKSS的福利
– 档案由持有者而非第三者自行管理. 出版商和图书馆员在决定管理 程序, 重点及何时触发内容方面,拥有同等的权利.
– CLOCKSS的分散式,地区间不同的保存模式,能确保共同的数字资源得以完整的保存.此外,到2010年,CLOCKSS在全世界将增至15个节点,以 满足位于地方的档案的需要.
– 低廉的运行成本,使任何规模和经费的机构都能够参加CLOCKSS.
– CLOCKSS的成员有机会参与我们所有业务,帮助将大家共同的最佳利益保持在最重要的位置. CLOCKSS已经对我们业务的政策和实践产生 着影响.
– 图书馆和出版商需要选择一个存档的解决方案.与其将“所有的鸡蛋放在同一个篮子里面”,不如参加多种不同的档案计划.
– CLOCKSS将那些不再为出版商支援的内容公开给任何人使用.

——— CLOCKSS开放获取期刊(Triggered Content———
(括号中为出版者)
Annals of Clinical Psychiatry (Taylor and Francis)
Archives of Family Medicine (American Medical Association (AMA))
Autism Insights (Libertas Academics)
Auto/Biography (SAGE Publications)
Brief Treatment and Crisis Intervention (Oxford University Press)
Cell Biology Insights (Libertas Academica)
Clinical Medicine Insights: Dermatology (Libertas Academics)
Graft: Organ and Cell Transplantation (Sage)
He@lth Information on the Internet (Royal Society of Medicine)
Human Genomics and Proteomics (Sage)
Immunotherapy Insights (Libertas Academica)
International Journal of Aerospace Innovations (Multi-Science Publishing)
International Journal of Emerging Multidisciplinary Fluid Sciences (Multi-Science Publishing)
International Journal of Flow Control (Multi-Science Publishing)
International Journal of Hypersonics (Multi-Science Publishing)
International Journal of Micro-Nano Scale Transport (Multi-Science Publishing)
International Journal of Self-Help and Self-Care (Baywood Publishing Company)
JAMA Français (American Medical Association)
Journal of Collective Negotiations Journal of Collective Negotiations (Baywood Publishing Company)
Journal of Dental Biomechanics (SAGE)
Journal of Environmental Systems (Baywood Publishing Company)
Journal of Individual Employment Rights (Baywood Publishing Company)
Journal of Pharmacy Teaching (Taylor and Francis)
Journal of Workplace Rights (Baywood Publishing Company)
MD Conference Express (SAGE)
Molecular Interventions (American Society for Pharmacology and Experimental Therapeutics)
Noise Notes (Multi-Science Publishing)
Particle Physics Insights (Libertas Academica)
Science Foundation in China (IOP)