IFLA命名空间:IFLA标准作为关联数据

在2021-5-27的IFLA元数据在线会议上,Joseph Hafner(IFLA关联数据技术分委员会现任主席(2019-2023)、加拿大麦吉尔大学)介绍:

IFLA命名空间于2020年7月发布

觉得很疑惑,不是多年前就已经发布了吗? 当时就是 iflastandards.info 这个域名。

看IFLA命名空间网站,2020-7-13的新闻就是这样的:IFLA’s Committee on Standards and Linked Data Technical Subcommittee (LIDATEC) are pleased to announce the launch of IFLA Namespaces. https://www.iflastandards.info/

目前列出5个词表,按发布时间排列?MulDiCat似乎早于UNIMARC(附之前写的博文):

关联数据技术分委员会(LIDATEC)前身是2009年成立的命名空间任务组(IFLA Namespaces Task Group),原属IFLA分类与索引部(2016年改为“主题分析与检索部”);2015年改名关联数据技术分委员会、属标准委员会。【参见:IFLA关联技术分委员会公开征求委员(2017-6-12)】

感觉2020年7月发布的应该是LRM词表,之前几个发布时可能没以LIDATEC的名义。

词表注册网站 BARTOC

叙词表、本体和分类法基本注册 BARTOC: Basic Register of Thesauri, Ontologies & Classifications

  • ABOUT
  • BARTOC是知识组织系统(KOS)相关注册表的数据库。
  • BARTOC的主要目标是在一处列出尽可能多的知识组织系统,以实现更高的可见性、突显其功能、使其可搜索和可比较、并促进知识共享。BARTOC包括来自任何主题领域、任何语言、任何发布格式以及任何可访问形式的任何一种KOS。BARTOC的搜索界面支持20种欧洲语言,并提供两种搜索选项:按关键字进行基本搜索和按分类术语进行高级搜索。现已从欧洲各地聚集起一个编辑圈子,并得到国际知识组织学会(ISKO)http://www.isko.org/的认可。
  • BARTOC由Andreas Ledl在瑞士巴塞尔大学图书馆成立,原名:叙词表、本体和分类法的巴塞尔注册。2020年数据库移至德国的Verbundzentrale des GBV(VZG),重命名为BARTOC,并从Drupal移植到新的技术基础架构,该实现完全可以作为开源使用。
  • 更多信息见维基百科:https://en.wikipedia.org/wiki/BARTOC

BARTOC现收录词表3291个,词表注册网站(registry、含资料库repository、服务service)近百个。

  • 收录词表包括以下类型:
  • Gazetteer 地名词典
  • Glossary 词汇表
  • Categorization schema 类别法
  • Classification schema 分类法
  • List 列表
  • Name authority list 名称规范表
  • Ontology 本体
  • Subject heading scheme 主题标目法
  • Semantic network 语义网
  • Synonym ring 同义词环
  • Taxonomy 科学分类
  • Terminology 术语表
  • Thesaurus 叙词表
  • Dictionary 词典
  • BARTOC有3种搜索方法(缺乏自身的术语级搜索):
  • 基本搜索:对词表介绍的全文搜索,按相关性排序
  • 筛选搜索:选择KOS类型、语种、许可、主题及排序方法(主题可选:DDC杜威十进分类法/一级类、EUROVOC欧盟叙词表/大类、ILC综合等级分类/大类)
  • 联合异步搜索工具 BARTOC FAST:访问包含大量词表的23个远程资源,术语级搜索(支持截词和通配府、不支持布尔运算符)

LOV关联开放词表:词表&本体查询工具

关联数据有一个重要的最佳实践,即重用已有词表。寻找可用词表或术语是关联数据项目设计中很重要的一个环节。关联开放词表(Linked Open Vocabularies, LOV)就是专为此目的的词表与本体查找网站。

Linked Open Vocabularies (LOV)
关联开放词表(LOV)由Pierre Yves Vandenbussche和Bernard Vatant创始于2011年3月,在DataLift研究项目框架内,托管于开放知识基金(Open Knowledge Foundation)
截止2016年5月1日,LOV收入词表548个,较2个月前增加10个,是个维护中的关联数据词表和本体查询工具。
由于LOV存档了所有词表的各种版本,可以不访问词表网站直接使用,是个相当方便的一站式工具。

网站分四个主要部分,即VOCABS(词表)、TERMS(术语)、AGENTS(贡献者)、SPARQL/DUMP(词表查询及下载),提供不同角度的查询与使用。比如知道词表名,可在VOCABS(词表)查询,了解详情;想知道某个术语在哪些词表中有使用,可在TERMS(术语)查询。

对每种词表,均提供基本元数据:URI、命名空间、主页、描述、语种、创建者,评论部分为LOV的维护日志。
此外,还以可视化方式提供词表间的关联关系(链入与链出)、版本历史,以及统计(类、属性、数据类型、实例)、表达方式、标签、使用该词表的数据集数量。
以BIBFRAME为例,目前还未更新到2.0版,基本元数据以外的信息如下(BIBFRAME Vocabulary
词表关系图(点击访问相应词表LOV页面):1个链入(复用BIBFRAME的词表),holding;4个链出(BBIFRAME复用的词表):rdfs扩展、专门化,rdf、dcterms。
词表版本历史(点击下载词表,.n3格式):2个版本:v2014-06-05;v2014-12-10。
统计:类52个,属性277个,数据类型0,实例0。
表达性:RDF、RDFS
标签:Catalogs
LOD:词表用于0个数据集。

[update 2016-5-4 感谢匿名网友指点] 页底文档链接中有LOV提供的API,通过简单的调用就可以远程、动态查询词表的类、属性等信息或者将这些信息取回到本地。在评估一个数据集所使用的类、属性是否正确使用上可以参照。

——— LOV四大特色 ———
两位创建者总结的LOV四大特色【括号中为本人总结概要】:
文档:发布有关词表信息的最佳方法,是正式在词表本身中声明其元数据。文档帮助用户理解每个词表术语的语义及使用数据。例如,有关创建者与发布者的信息,在需要得到作者帮助或澄清、或者评估其稳定性时,对词表用户是关键指标。约55%的词表指明至少一个创建者、贡献者或编者。我们采用非正式定义和人工收集信息来增强此信息,使LOV中词表创建者的数据超过85%。【强化词表本身的元数据信息】
版本:LOV数据库存储各词表自首次发布以来的每个不同版本。对每个版本,用户可访问文档(即使原始联机文档不再存在),以及自前一版本以来的修订日志。【历史版本存档+修订日志】
依赖关系:互联网的本质是分布式与不受控。由于词表生态系统的复杂性,为评估修改的影响,需要了解特定词表术语参引了哪些词表与数据集。LOV首次提供了这样的视角。【揭示词表术语间的引用关系:词表关系图:链入、链出】
搜索:LOV搜索特色在于查询存储库,该库包括整个词表生态系统,配以LOV元数据和关联开放数据云所用的词表术语计量。为帮助用户选择词表术语,对结果做排序,排序算法基于在LOD数据集和LOV生态系统中的术语流行度。【搜索全文本+元数据,排序基于使用计量】

via: Linked Open Vocabularies / by Pierre-Yves Vandenbussche and Bernard Vatant. ERCIM News 96, January 2014.