关联数据有一个重要的最佳实践,即重用已有词表。寻找可用词表或术语是关联数据项目设计中很重要的一个环节。关联开放词表(Linked Open Vocabularies, LOV)就是专为此目的的词表与本体查找网站。
Linked Open Vocabularies (LOV)
关联开放词表(LOV)由Pierre Yves Vandenbussche和Bernard Vatant创始于2011年3月,在DataLift研究项目框架内,托管于开放知识基金(Open Knowledge Foundation)。
截止2016年5月1日,LOV收入词表548个,较2个月前增加10个,是个维护中的关联数据词表和本体查询工具。
由于LOV存档了所有词表的各种版本,可以不访问词表网站直接使用,是个相当方便的一站式工具。
网站分四个主要部分,即VOCABS(词表)、TERMS(术语)、AGENTS(贡献者)、SPARQL/DUMP(词表查询及下载),提供不同角度的查询与使用。比如知道词表名,可在VOCABS(词表)查询,了解详情;想知道某个术语在哪些词表中有使用,可在TERMS(术语)查询。
对每种词表,均提供基本元数据:URI、命名空间、主页、描述、语种、创建者,评论部分为LOV的维护日志。
此外,还以可视化方式提供词表间的关联关系(链入与链出)、版本历史,以及统计(类、属性、数据类型、实例)、表达方式、标签、使用该词表的数据集数量。
以BIBFRAME为例,目前还未更新到2.0版,基本元数据以外的信息如下(BIBFRAME Vocabulary)
– 词表关系图(点击访问相应词表LOV页面):1个链入(复用BIBFRAME的词表),holding;4个链出(BBIFRAME复用的词表):rdfs扩展、专门化,rdf、dcterms。
– 词表版本历史(点击下载词表,.n3格式):2个版本:v2014-06-05;v2014-12-10。
– 统计:类52个,属性277个,数据类型0,实例0。
– 表达性:RDF、RDFS
– 标签:Catalogs
– LOD:词表用于0个数据集。
[update 2016-5-4 感谢匿名网友指点] 页底文档链接中有LOV提供的API,通过简单的调用就可以远程、动态查询词表的类、属性等信息或者将这些信息取回到本地。在评估一个数据集所使用的类、属性是否正确使用上可以参照。
——— LOV四大特色 ———
两位创建者总结的LOV四大特色【括号中为本人总结概要】:
– 文档:发布有关词表信息的最佳方法,是正式在词表本身中声明其元数据。文档帮助用户理解每个词表术语的语义及使用数据。例如,有关创建者与发布者的信息,在需要得到作者帮助或澄清、或者评估其稳定性时,对词表用户是关键指标。约55%的词表指明至少一个创建者、贡献者或编者。我们采用非正式定义和人工收集信息来增强此信息,使LOV中词表创建者的数据超过85%。【强化词表本身的元数据信息】
– 版本:LOV数据库存储各词表自首次发布以来的每个不同版本。对每个版本,用户可访问文档(即使原始联机文档不再存在),以及自前一版本以来的修订日志。【历史版本存档+修订日志】
– 依赖关系:互联网的本质是分布式与不受控。由于词表生态系统的复杂性,为评估修改的影响,需要了解特定词表术语参引了哪些词表与数据集。LOV首次提供了这样的视角。【揭示词表术语间的引用关系:词表关系图:链入、链出】
– 搜索:LOV搜索特色在于查询存储库,该库包括整个词表生态系统,配以LOV元数据和关联开放数据云所用的词表术语计量。为帮助用户选择词表术语,对结果做排序,排序算法基于在LOD数据集和LOV生态系统中的术语流行度。【搜索全文本+元数据,排序基于使用计量】
via: Linked Open Vocabularies / by Pierre-Yves Vandenbussche and Bernard Vatant. ERCIM News 96, January 2014.
还有就是LOV开放了API,通过简单的调用就可以远程、动态查询词表的类、属性等信息或者将这些信息取回到本地。在评估一个数据集所使用的类、属性是否正确使用上可以参照
专家呀!看到有API,但不知道用途。
把您的评论更新到博文中去啦。
用这个来构建知识库有什么好的处理方法么?
这只是个词表查找工具,用来搜索适用的词表。不知道是不是收录有适合个人知识管理的词表。
至于处理方法,对我来说过于技术了。看您是个玩技术的,去适当的社区找具有软件开发能力的人了解吧。