关联数据应用现状:2015国际关联数据实施者调查的分析

OCLC研究部在2014年面向国际关联数据实施者进行过一次问卷调查。参见:OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)。
由于缺少欧洲几个著名的关联数据项目,因此OCLC研究部在2015.6.1-7.31再次做了同样的调查。两次调查去重后合计有20国90个机构参与,主要是图书馆,大部分项目主要是实验性质的。主持者Karen Smith-Yoshimura在D-Lib上发文,综合两次调查结果,并对2015年调查中提供详细信息的112个项目/服务进行了详细分析。文章最后有调查回复者对其他考虑关联数据项目者的建议。
Smith-Yoshimura, Karen. Analysis of International Linked Data Survey for Implementers. D-Lib Magazine, 22(7/8) doi:10.1045/july2016-smith-yoshimura

如何评估关联数据项目是否成功?参加调查的项目很少做了评估,但有46个认为项目是成功或基本成功的。评估点涉及:数据重用、增加可发现性、新知识创建、思想领导力、为语义网做准备、运作成功、组织发展、组织转型。个人感觉最有意思的是“思想领导力”和“组织发展”两个方面:前者是用“关联数据工作证明,机构正在采取主动,为未来不同环境奠定基础”,后者认为“即使缺乏计量法证明关联数据对其他方面的价值,关联数据项目仍对员工提供了专业发展。”也就是说,做关联数据项目本身并非唯一目的,机构形象及员工发展也是重要考量。
以下为文章编译。

——— 参与调查机构基本数据 ———
【2014年和2015年全部90个机构按国别】依次是美国39个占43%,西班牙10个、英国9个、荷兰6个、挪威4个、加拿大3个,澳大利亚、法国、德国、意大利和瑞士各2个,奥地利、捷克、匈牙利、爱尔兰、日本、马来西亚、葡萄牙、新加坡和瑞典各1个。
【2015年71个机构按图书馆类型】国家图书馆14个占20%(2014年4个),高校图书馆23个占31%,多机构网络9个占14%,政府7个占10%,学术项目6个占8%,公共图书馆5个占6%,博物馆、学会各3个各占4%,出版社1个。
2015年的71个机构报告168个项目,其中112个有不同程度的详细描述。2/3项目在运行中,其中运行超过2年的“成熟”项目比2014年增加了一倍(46对24,表1)。有10个项目是“私有的”,仅供本机构使用。
如何利用关联数据(表2,2015对2014):消费关联数据(38对25),发布关联数据(10对4),同时消费与发布(64对47)。【只是消费的项目也有1/3!】

——— 发布的关联数据 ———
– 数据类型,依次是:书目数据56,规范数据45,描述元数据43,本体/词表30、数字馆藏26、地理数据18、数据集16,、博物馆实物数据10、编码档案描述5、组织数据5、有关研究者或馆员数据2。
– 数据集大小(三元组数量):大部分数据集很小。67个报告数据集大小,39个少于1千万,19个多于1亿。超过10亿的仅3个:北莱茵-威斯特伐利亚图书馆服务中心(10-15亿),挪威理工大学不同关联数据项目合计150亿,OCLC的WorldCat关联数据150亿。【欧洲确实有相当大的关联数据项目】
– 访问量(日均请求数):大部分已实施项目近6个月平均少于1千。
超10万的7个数据集是:Europeana, Getty词表3个,LC关联数据服务超过50个词表,日本国会图书馆NDL搜索,北莱茵威斯特伐利亚图书馆服务中心的LOD服务,OCLC的WorldCat关联数据,OCLC的VIAF。
另有6个数据集为1-5万:美国钱币学会nomisma词表,法国国家图书馆data.bnf.fr,不列颠图书馆英国国家书目,日本国会图书馆规范数据,OCLC的WorldCat作品,OCLC的FAST分面主题词表
– 使用的RDF词表和本体:数据集使用不同RDF词表和本体,很多使用多个。按提及频率,依次是【仅列10次以上,计数由本人据原始数据统计】:
1. Simple Knowledge Organization System (skos)【59】
2. Friend of a Friend (foaf)【55】
3. DCMI Metadata Terms (dcterms)【52】
4. Dublin Core Metadata Element Set (dce)【约49】
5. Schema.org vocabulary (schema)【30】
6. The Bibliographic Ontology (bibo)【25】
7. 本地词表【19?】;VOCABS rda【链接RDA第2组实体间关系,非官方版】【约19】
8. Europeana Data Model vocabulary (edm)【15】
9. ISBD elements (isbd)【13】;WGS84 Geo Positioning (geo)【13】
10. BIBFRAME Vocabulary (bf)【15?】
11. Expression of Core FRBR Concepts in RDF (frbr)【链接2005非官方版】【11】
– 许可:26个项目未宣布明确的许可,同样数量采用CC0 1.0。
– 可访问性:在74个发布关联数据的项目中,19个目前不能在机构外访问【超过1/4】。其他大多数提供多种(访问)方法。最通用的方法是网页,其后依次是:内容协调、文件转储、SPARQL端点、SPARQL编辑器和应用。
– 序列化:最通用的是RDF/XML,其他依次是:Turtle, JSON-LD, N-Triples, RDFa Core, RDF/JSON, Notation3 和 N-Quads。
– 技术:形形色色,最常使用多种技术。见表4。
– 障碍:发布关联数据的主要障碍依次是:
1、员工的陡峭学习曲线
2、选择适当的本体以表达数据
3、建立链接
4、对如何建立系统鲜有文档或建议【缺少先例】
5、缺少工具
6、不成熟的软件
7、弄清谁拥有数据【版权】
其他障碍:限制性许可,资源不足,数据集太大不能作为整体发布(且难以供他方消费),机构支持不足,适应当前关联数据技术的基础结构。

——— 消费的关联数据 ———
– 消费资源:2015年调查被12个及以上项目消费的依次是(星号来自参与调查机构)
1、VIAF *
2、DBpedia
3、GeoNames
4、id.loc.gov *
5、自己转换为关联数据的资源
6、AAT *
7、FAST关联数据 *
8、WorldCat.org *
9、data.bnf.fr *
10、DNB德国国家图书馆关联数据服务 *
从被消费看,以上可视为成功的关联数据发布方。参加调查的图书馆消费其他来源时,总体上选择图书馆领域的来源而不扩展到非图书馆来源,DBPeida和GeoNames是两个例外。
– 障碍:消费关联数据的主要障碍依次是:
1、匹配、消歧和校准来源数据及关联数据资源
2、映射词表
3、发布为关联数据的,不总是可重用的或者缺少URI
4、缺少规范控制
5、数据集不更新
6、RDF存储的大小;使用前了解数据如何结构化的
7、存储的数据格式的波动性
8、缺少工具;端点不稳定
9、 难以让其他机构做对象与概念之间的协调;服务可靠性
10、难以跨语言术语消歧
其他障碍:许可比ODC-BY更限制,机构把关联数据当作研究项目而非基础结构,本地感兴趣的关联数据集数量不足,API限制,结合消费关联数据到日常工作流程的资源不足。

——— 项目实例(按机构类型)———
– 国家图书馆:16个国家图书馆项目,美国、法国、德国居12个消费最多项目之列。
英国国家书目的SPARQL Query Viewer(图1)
德国国家图书馆的4个项目:国家书目,德国集成规范档GND,BIBFRAME原型,实体事实(图2)
日本国会图书馆的5个项目:书目数据、规范数据、日本图书馆和相关组织的国际标准标识符ISIL、有关2011年关东大地震的集成资源、日本十进分类法
– 网络
美国数字公共图书馆DPLA
欧洲Europeana
德国北莱茵威斯特伐利亚图书馆服务中心(hbz):发布最大关联数据集之一(10-15亿三元组),其关联开放数据API提供访问hbz联合目录的2000万书目记录及4500万馆藏,德国集成规范档(GND),以及图书馆地址数据(来自图书馆及相关组织德国国际标准标识符注册库ISIL)。
OCLC:发布抽取自自MARC记录和图书馆规范档的200亿RDF三元组,是世界上最大的图书馆集成关联数据资源,其中FAST、VIAF和WorldCat居2015年调查10个最高关联数据来源。
– 高校图书馆:大部分高校馆的关联数据项目是实验性质的
– 公共图书馆:很少公共馆参与调查,仅2个有项目运行中,其一是【Zepheira公司】LibHub项目的早期采用者;另一是奥斯陆公共图书馆,转换MARC目录为RDF关联数据,用外部收割来的信息强化,由SPARQL更新查询构建,挪威图书馆所写书评集链接到书目数据。
– 博物馆:很少博物馆参与调查
– 学术项目【由原始资料转换为结构化数据、生成三元组】
Dalhousie University’s Institute for Big Data Analytics:集成全世界一战档案中数据。从数字化文献中抽取数据,转换为可支持进一步研究的结构化数据库
Pratt Institute’s Linked Jazz project:“关联爵士乐”项目:从5个爵士乐档案的访谈文字内容生成三元组,即从数据而非转换现有元数据。(参见:BIBFRAME试验项目培训资料
Nomisma:美国钱币学会主持的国际协作项目,提供钱币术语和标识符的关联数据叙词表。
– 出版社
斯普林格是唯一参与调查的出版社。正把科学会议数据,以LOD提供关于出版物、作者、论题和会议的信息,方便探索、促进分析作者、研究机构和会议的生产力和影响。

参见:
hangingtogether.org: More on international linked data survey for implementers (2016-7-11) by Karen Smith-Yoshimura
圖書館觀點:全球關聯數據(Linked Data) 實施情況(2016-8-1)

WorldCat 45周年 & OCLC API访问每天300万

上月OCLC的WorldCat庆祝了它的45周年1971年8月26日,当时名为OCLC联机联合目录的WorldCat在那天接受了来自俄亥俄大学编目员联机编目的133种图书。45年后,WorldCat已收录3.8亿多条记录、涉及世界各国图书馆24亿多件馆藏。资料类型包括图书、连续出版物、乐谱、地图、录音、视频资料、DVD、计算机文档、电子书、数字资源、混合资料等,涉及491种语言文字,其中62%为非英语。看WorldCat记录实时增长(Watch WorldCat Grow),最近加入的是哪条记录,哪个机构上传?

也是在上月,OCLC的API每天点击超过了300万。OCLC在2003年开始Open WorldCat项目,试验结束时每天的点击是4千,已被认为相当成功。之后OCLC开始提供API,目前有十多种,超过4500机构个人申请了API Key,用这些API开发的应用超过了100种。
用得最多的是WorldCat Search API,有超过50种应用,使用机构超过500家,贡献了约一半的点击。
现在甚至可以通过API,用手机向WorldCat提交简编记录,这就是供非馆员使用的Bib It,采用的是WorldCat Metadata API。

Bib It

相关:
OCLC News release: Celebrating 45 years of WorldCat (DUBLIN, Ohio, 26 August 2016)
Next: 3 million knocks on library doors every day (2016-8-3)
参见:OCLC的Open WorldCat计划(2004-10-28)

——— OCLC的Web Service一览Gallery) ———
– Article Exchange API
– Classify
– FAST API
– OpenURL Gateway
– QuestionPoint knowledge base API
– Terminology Services
– VIAF API
– WMS Acquisitions API
– WMS Collection Management API
– WorldCat Basic API
– WorldCat Discovery API
– WorldCat Identities
– WorldCat Metadata API
– WorldCat Recommender Service
– WorldCat Registry
– WorldCat Search API
– WorldCat knowledge base API
– xID API

Schema.org 3发布(附:书目扩展和旅馆业词表)

Schema.org在2011-6-2首次发布(0.X版),2013-4-5发布1.0a版,2015-5-12发布2.0版,2016-5-4发布3.0版
3.0版包括了正式版(Finalized first release)汽车扩展和书目扩展,这是托管扩展的首次正式发布。对书目扩展来说,这应该是很重要的消息,但其W3C社区wiki上最新信息仍停留在一年前,最相关的是2015年6月24日宣布bib.schema.org。

3.0版同时新增3个扩展:元扩展、待定扩展和健康-生命科学扩展。
– 元扩展(meta.schema.org):用于schema.org本身(2个类:类、属性;5个属性:类别、定义域、值域、反向属性、替代)
– 待定扩展(pending.schema.org):收录未批准术语,其中术语可能被接受、也可能有变化,使用需谨慎。
– 健康-生命科学扩展(health-lifesci.schema.org):这是个庞大的扩展,目前有99个类、179个属性、149个取值词表。
核心词表中医学/健康相关术语移入此扩展。这应该是首次对核心词表做某种程度的瘦身(参见:Schema.org: Web上结构化数据的演变(笔记),发布时297个类、187个关系,四年后增加至638个类、965个关系)。

2016-8-9发布的3.1版对旅馆相关词表(hotel/accomodation vocabulary)做了较多增补。网站上还有一个专门网页(Markup for Hotels),详述住宿行业如何在旅馆、房间、订单三个层次使用schema.org。样例所用描述旅馆的元素基于STI Accommodation Ontology

via schema blog: schema.org update: hotels, datasets, “health-lifesci” and “pending” extensions… (AUGUST 9, 2016)

——— 附:书目扩展与OCLC ———
书目扩展(Finalized first release)
Comics Types (5)
ComicCoverArt, ComicIssue, ComicSeries, ComicStory, CoverArt
Comics Properties (7)
artist, colorist, inker, letterer, penciler, publisherImprint, variantCover
Comics Enumeration values (1)
GraphicNovel

Types (6)
Atlas, Audiobook, Chapter, Collection, Newspaper, Thesis
Properties (11)
abridged, duration, inSupportOf, pageEnd, pageStart, pagination, publishedBy, readBy, translationOfWork, translator, workTranslation

对照书目扩展(Final review),正式版把漫画部分抽出来单列(参见:Schema.org扩展机制(及汽车&书目扩展),2016-2-18)。
与OCLC最初设想的“Schema.org的图书馆扩展”(2012-6-22)相比,现在的版本少了很多内容。部分原因可由“解惑Schema书目扩展”(2014-1-29)得知。
OCLC等不及官方扩展,在Schema.org 2.0版宣布可以有外部扩展前,自己弄了个定制版(参见:OCLC低调注册BiblioGraph.net扩展Schema.org,2014-12-1),目前为BiblioGraph.net Version 1.1(2015-2-16发布)、基于Schema.org Version 1.93(2015-02-04发布),之后未同步更新
经初步比对类,其中包括Schema.org书目扩展中的4个类:Atlas,Chapter,Newspaper,Thesis。

扩展阅读:私人定制版Schema.org(2016-2-18)