重量级图书馆关联数据项目LD4P获得资助

尽管近来关联数据(LD/LOD)的前途不断受到质疑,但在美国图书馆界却仍然欣欣向荣,新资助项目源源不断。今年LOD最大新闻:
4月22日,斯坦福大学图书馆宣布Linked Data for Production (LD4P)项目获得安德鲁梅隆基金150万美元资助。项目为期两年(2016-2018),斯坦福主持,哥伦比亚、康奈尔、哈佛、普林斯顿大学及美国国会图书馆(LC)6家机构协作。

Linked Data for Production (LD4P)
项目维基首页介绍:“LD4P是六个机构间的一项合作(哥伦比亚、康奈尔、哈佛、国会图书馆、普林斯顿和斯坦福大学),在安德鲁梅隆基金提供的150万美元支持下,开始转换技术服务生产流程至关联开放数据(LOD)。转换的第一阶段将致力于【1】开发生产元数据为公有LOD的能力,【2】扩展BIBFRAME本体以包含图书馆必须处理的众多资源格式,【3】更广泛图书馆社区的参与以确保一个可持续、可扩展的环境。”(编号为本人所加)

LD4P准备已久,今年初ALA仲冬会议的BIBFRAME更新论坛上,LD4P曾集体亮相,3家参与馆做相关报告:普林斯顿(德里达特藏)、哥伦比亚(艺术收藏品)和康奈尔(嘻哈音乐传单)。今年夏天ALA年会也会有相关报告。从项目时间表看,其他3家关注重点是:斯坦福(表演音乐)、哈佛(地图、动态图像)、LC(音像与录音、印刷图片与照片、一般馆藏、BIBFRAME 2.0)。
各家都会对BIBFRAME作出评估,并做必要扩展。项目背景对BIBFRAME有较多涉及。

项目维基很多内容还在建设中。列出的相关项目4个(其中3个为官方IMLS资助,1个为机构内部项目[梅隆基金资助项目]):
BIBFLOW和Linked Open Data for Special Collections(即伊得诺伊大学的BIBFRAME项目),介绍见后“参见”
Western Name Authority File 和 National Strategy for Shareable Local Name Authorities:2016年美国IMLS资助的2个关联开放数据项目,分别资助犹他大学5万美元、康奈尔大学9.8万余美元。

2014年安德鲁梅隆基金曾资助康奈尔主持的Linked Data for Libraries (LD4L)项目100万美元,哈佛和斯坦福3家大学协作,寻求开发新的基于关联数据的工具和方法,以更好地描述图书馆的学术信息资源。LD4L同样为期两年(2014-2016),斯坦福在新闻发布中称,“两项目将协同工作、相互促进各自目标”。
参见LD4L项目维基:Linked Data for Libraries (LD4L)

via [BIBFRAME] Linked Data for Production / by Philip E. Schreur. 2016-5-9

参见:
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29;对LD4P有简单介绍,其中提到后加入的第7家马里兰大学最终未列入)
“德里达图书馆”关联数据计划(2016-1-29;普林斯顿的LD4P)
伊利诺伊大学的BIBFRAME项目(2016-1-17)[并非前述项目]
推动关联数据应用:《数据技术新视界——与汤贝克面对面》参会记录(2015-5-6;将BIBFLOW列为当时的4个项目之一)
小河尘在书社会的日志:Bibflow简介(2015-05-08)

LOV关联开放词表:词表&本体查询工具

关联数据有一个重要的最佳实践,即重用已有词表。寻找可用词表或术语是关联数据项目设计中很重要的一个环节。关联开放词表(Linked Open Vocabularies, LOV)就是专为此目的的词表与本体查找网站。

Linked Open Vocabularies (LOV)
关联开放词表(LOV)由Pierre Yves Vandenbussche和Bernard Vatant创始于2011年3月,在DataLift研究项目框架内,托管于开放知识基金(Open Knowledge Foundation)
截止2016年5月1日,LOV收入词表548个,较2个月前增加10个,是个维护中的关联数据词表和本体查询工具。
由于LOV存档了所有词表的各种版本,可以不访问词表网站直接使用,是个相当方便的一站式工具。

网站分四个主要部分,即VOCABS(词表)、TERMS(术语)、AGENTS(贡献者)、SPARQL/DUMP(词表查询及下载),提供不同角度的查询与使用。比如知道词表名,可在VOCABS(词表)查询,了解详情;想知道某个术语在哪些词表中有使用,可在TERMS(术语)查询。

对每种词表,均提供基本元数据:URI、命名空间、主页、描述、语种、创建者,评论部分为LOV的维护日志。
此外,还以可视化方式提供词表间的关联关系(链入与链出)、版本历史,以及统计(类、属性、数据类型、实例)、表达方式、标签、使用该词表的数据集数量。
以BIBFRAME为例,目前还未更新到2.0版,基本元数据以外的信息如下(BIBFRAME Vocabulary
词表关系图(点击访问相应词表LOV页面):1个链入(复用BIBFRAME的词表),holding;4个链出(BBIFRAME复用的词表):rdfs扩展、专门化,rdf、dcterms。
词表版本历史(点击下载词表,.n3格式):2个版本:v2014-06-05;v2014-12-10。
统计:类52个,属性277个,数据类型0,实例0。
表达性:RDF、RDFS
标签:Catalogs
LOD:词表用于0个数据集。

[update 2016-5-4 感谢匿名网友指点] 页底文档链接中有LOV提供的API,通过简单的调用就可以远程、动态查询词表的类、属性等信息或者将这些信息取回到本地。在评估一个数据集所使用的类、属性是否正确使用上可以参照。

——— LOV四大特色 ———
两位创建者总结的LOV四大特色【括号中为本人总结概要】:
文档:发布有关词表信息的最佳方法,是正式在词表本身中声明其元数据。文档帮助用户理解每个词表术语的语义及使用数据。例如,有关创建者与发布者的信息,在需要得到作者帮助或澄清、或者评估其稳定性时,对词表用户是关键指标。约55%的词表指明至少一个创建者、贡献者或编者。我们采用非正式定义和人工收集信息来增强此信息,使LOV中词表创建者的数据超过85%。【强化词表本身的元数据信息】
版本:LOV数据库存储各词表自首次发布以来的每个不同版本。对每个版本,用户可访问文档(即使原始联机文档不再存在),以及自前一版本以来的修订日志。【历史版本存档+修订日志】
依赖关系:互联网的本质是分布式与不受控。由于词表生态系统的复杂性,为评估修改的影响,需要了解特定词表术语参引了哪些词表与数据集。LOV首次提供了这样的视角。【揭示词表术语间的引用关系:词表关系图:链入、链出】
搜索:LOV搜索特色在于查询存储库,该库包括整个词表生态系统,配以LOV元数据和关联开放数据云所用的词表术语计量。为帮助用户选择词表术语,对结果做排序,排序算法基于在LOD数据集和LOV生态系统中的术语流行度。【搜索全文本+元数据,排序基于使用计量】

via: Linked Open Vocabularies / by Pierre-Yves Vandenbussche and Bernard Vatant. ERCIM News 96, January 2014.

Schema.org: Web上结构化数据的演变(笔记)

来自谷歌和微软的三位Schema.org开发者,2015年底发表了一篇介绍四年来Schema.org演变的文章,在追求“结构化数据”的大背景下,详述开发的前因后果,以及与关联数据的关系:

R.V. Guha, Dan Brickley, Steve Macbeth. Schema.org: Evolution of Structured Data on the Web. Queue vol. 13, no. 9 (December 15, 2015)

文章小标题:Big data makes common schemas even more necessary.
体现在文章结论的最后:“对大数据的增长兴趣使得对共同schema的需求比以往更相关。当数据科学家探索数据驱动分析的价值,需要从不同来源把数据抓在一起,因此对共享词表的需求正在增长。我们希望schema.org将对此有所贡献。”

【结构化数据标准的发展】
早期(1997年前?)有XML和MCF (Meta Content Framework)。
1997-2004年间针对语法和数据模型开发了不同的标准(RDF、RDFS和OWL)。针对具体行业提出许多词表,某些得到广泛采用,如hCard、FOAF。不同垂直领域的词表完全独立,导致大量重复和混乱。更糟的是,不同搜索引擎推荐不同的词表。
针对此问题,2011年主要搜索引擎公司Bing, Google, Yahoo(及后来加入的Yandex)创建Schema.org,目的是提供跨领域的单一词表。最初是三个公司关起门来做决定,后来逐步开放,先是在W3C公共论坛讨论,后来改变模式为所有决定都公开做出[在GitHub上],有一个来自资助公司、学界及W3C的指导委员会。
Schema.org发布时297个类、187个关系,四年后增加至638个类、965个关系。

愿景图“来自多个网站的知识库样例”比以前看到过的图更具说明性

【Schema.org应用】
– 首个应用是谷歌搜索结果的丰富片断(Rich Snippets)在2011年转用Schema.org词表。[snippet最早由雅虎采用、谷歌跟进,当时依据垂直领域词表]
– 用作谷歌知识图谱(Knowledge Graph)的数据源,显示在检索结果侧栏的事实面板。
– 电子邮件。预订饭店、旅馆、航班等电邮嵌入Schema.org标记,电邮辅助工具可抽取结构化数据,通过手机通知、地图、日历等使用。Gmail和Google搜索产品使用此数据提供提醒,如订餐会基于饭店位置、用户、交通状况等,触发提醒去饭店。
微软小娜(Cortana)通过电邮讯息利用schema.org
Pinterest利用Schema.org提供针对菜谱、电影、文章、产品或地点的丰富钉板(rich pins)。
苹果的Searchlight/Siri使用Schema.org提供搜索特性,包括集成评分、供应者、产品、价格、互动计数、机构、图像、电话号码及潜在的网站搜索行动。还用于新闻RSS。

【采用统计及原因分析】
在100亿网页的样本中,31.3%网页有Schema.org标记,1年前是22%。含有标记的网页平均参引6个实体、作出26个逻辑断言。估计至少1200万网站使用Schema.org标记。结构化数据标记现在与Web本身是一个数量级的了。
快速增长的原因是第三方工具的扩展支持,如Drupal和Wordpress,以及垂直内容管理系统(如Bandsintown和Ticketmaster)。

【设计决策:成功原因分析】
设计Schema.org的驱动因素是方便站长发布其数据。总体上,设计决策把更多负担放在标识的消费者。
– 支持多种语法:RDFa、JSON-LD、Microdata
– 多态性:关系/属性可以有多个定义域、多个值域(减少不必要的类)
– 实体参引:只有非常少的部分要求唯一URI
– 增量复杂性:从简单开始,逐步增加表达性。受实用性引导,定义从不为追求完美模型而改变,但回应来自发布者和消费者的反馈。
– 清理:清除无有意义使用的术语[类似文献保障原则]

【扩展】
保持最通用为核心,其他作为扩展。
参见:Schema.org扩展机制(及汽车&书目扩展)

———-关联数据的分割线———-
【对关联数据现状的基本判断】
自2006年,“关联数据”口号重定向W3C的RDF社区,从强调语义网本体和规则语言,到开放数据活动和实践数据共享。
关联数据宣传已经成功地从各种公共部门和开放数据源引起了大量以RDF表达的公开数据(如图书馆、生命科学和政府)。但是,强调标识符调和、复杂的最佳实践规则(包括HTTP的高级使用)、使用任意数量的部分重叠词表(schema),限制了关联数据实践在专业信息管理者以外领域的成长。关联RDF数据发布实践没有在广泛的Web得到采用。
(与“从语义网到知识图谱——语义技术工程化的回顾与反思”文章的认识一致。参见:知识图谱、语义网、关联数据;另见:关联数据注意事项

【与关联数据的异同】
Schema.org分享很多关联数据社区方法:使用相同的数据模型和标记语言(RDFS)和语法(如JSON-LD和RDFa),分享很多相同的目标。也分享了关联数据社区对语义网旗下实施的很多学术工作中发现的对过早成熟的形式主义的怀疑(规则系统、描述逻辑等)。尽管Schema.org也避免假定这类基于规则的处理会是普通的,但它不同于典型的关联数据指引,假定来自Web的结构化数据能在应用中利用前,通常会需要不同类型的清理、调和及后处理。【换言之,对Schema.org,数据清洗不是必要的——想起情报检索语言的前控和后控】

关联数据的目标更高,并因此带到Web的数据源数量很小、然而其质量往往很高。这两种方法相结合提供了很多的机会——例如,专业发布关联数据常能规范描述来自更广泛主流Web的schema.org描述中提及的实体。【公共部门继续承担需要更多费用的专业工作】