LC关联数据批下载更新

美国国会图书馆(LC)2009年上线id.loc.gov网站,陆续以关联数据形式提供该馆维护的各类词表和书目、规范数据,后来又开始陆续提供数据的批下载。发布的数据可以查询或关联使用,下载的数据还可以整合到自己的应用中。

今天在BIBFRAME邮件组中看到消息,称其中的LCSH(国会图书馆标题表)和LCNAF(名称规范档)已更新,并将持续定期更新:

  • LCSH:每周三更新(如果有变化)
  • LCNAF:每月15日更新
  • 二者均以JSON-LD、N-Triple和XML序列化。

The Library of Congress > Linked Data Service > Download

目前LC关联数据服务的批下载页面有各种主题词表、名称规范、代码表(编目条例、国别、地理区域、语种、体裁、关系词等)数十种,序列化为RDF/XML、Turtle或N-triples。文件大小从数KB到十数GB不等,通常为压缩文件,解压后可能增大10倍。每个文件都显示更新日期。相关背景信息见LC关联数据服务的技术中心(Technical Center),包括:下载数据处理方法、元数据结构标准、搜索使用与SPARQL查询方法、支持的RDF MIME类型和序列化格式。

参见:

关联数据编目走向现实——新项目LD4P3及LD4社区

梅隆基金资助的“图书馆关联数据”LD4系列项目始于2014年,每2年1-2个项目。2020年中,新项目LD4P3“闭环”得到批准(2020/7/1-2022/6/30,250万美元)。历经多年探索、关联数据编目似乎终于开始进入实际应用阶段。

项目名称“闭环”,指创建一个完整周期的工作模型,以进行图书馆元数据的创建、共享和重用。本项目伙伴(partner)即共同申请者为斯坦福、康奈尔和爱荷华大学图情学院,协作方包括Share-VDE(意大利厂商的托管编目环境)、美国国会图书馆(LC)、合作编目计划(PCC)以及OCLC。此外还有合伙人(cohort),即在LD4P2时已参加从MARC到关联数据编目的PCC成员馆。

主管此项目的斯坦福大学技术与访问服务副馆长Philip Schreur在新闻中称此项目的目的是“使图书馆资源超出图书馆目录的可访问性,并利用来自更广泛网络的相关信息来增强基于图书馆的发现,以及从现有但以前未链接的数据中创建新知识”。

七个主要目标:

  • (1)完成能够与多种环境(例如FOLIO)进行交互的开源关联数据编辑器【对Sinopia的功能要求1】
  • (2)扩大查问规范(QA)范围,以在各种传统(例如LCNAF)和非传统(例如Wikidata、Discogs)规范源中为规范和实体查找以及数据导入提供一流的支持【对QA的要求】
  • (3)通过将QA与OCLC提议的“实体主干”相集成来扩展实体管理【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
  • (4)以RDF创建所有PCC原始编目的连续馈送池,该池可在世界范围内免费开放使用【PCC数据池】
  • (5)扩大Sinopia与其他数据源(ILS、发现系统、PCC数据池和其他外部数据源)基于API的集成的能力,使RDF环境中的数据流闭环【对Sinopia的功能要求2】
  • (6)将PCC合伙人的管理和培训从LD4P转移到PCC【从项目试验走向实际应用?】
  • (7)可持续发展计划和建模,包括确定单个组件以及LD4P3主要利益相关者在业务、成员资格、服务、软件、数据和运营方面的几种长期选择

七个目标通过五个工作包实现:

  • (WP1)扩大Sinopia环境
  • (WP2)集成并完成生产就绪的关联数据规范支持服务(QA)
  • (WP3)在Blacklight中实现发现增强功能【那个历史悠久的?Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)】
  • (WP4)通过创建PCC数据池和扩展PCC合伙人来扩展PCC社区的参与
  • (WP5)环境关键部分的可持续性和社区发展

日前LD4社区也宣布成立:ld4.io。“新的LD4社区向任何人开放,供其探索、学习和协作以提高意识和知识,鼓励采用并建立可互操作的标准、工具和服务的生态系统,以将关联开放数据和其他技术从理论付诸实践并规模化。”目前网站汇集LD4年会资料(始于2017)、维基、slack(即时沟通和团队协作)、邮件组(可申请加入发现、Wikidata、非拉丁文字资料3个组)、油管频道、Github等。

  • 社区宪章:LD4是一个共同努力以促进图书馆实践的社区。 我们专注于链接和使用Web上的数据来推进图书馆的使命、宗旨和目标。/ LD4社区的参与对任何人开放——个人或机构、 非营利组织、政府组织或商业组织。通过直接参与,并通过其各种渠道、项目和活动,LD4聚集全球成千上万的个人。
  • 愿景:世界用图书馆数据丰富,图书馆用世界数据丰富。
  • 使命:通过建立一个开放、多样化、可持续和图书馆主导的社区来推进图书馆实践。我们将共同探索、学习和协作,以提高认识和诀窍,鼓励采用,并建立可互操作的标准、工具和服务的生态系统,以便将关联开放数据和其他技术从理论大规模地应用于实践。

参考资料:

LD4系列项目网关 ld4l.org

  • 2014-2016: LD4L (Linked Data for Libraries)
  • 2016-2018: LD4L Labs
  • 2016-2018: LD4P (Linked Data for Production)
  • 2018-2020: LD4P2: Pathway to Implementation
  • 2020-2022: LD4P3: Closing the Loop

W3C数据目录本体(DCAT)入门

11/3收到“W3C数据目录本体(DCAT)入门”网络会议(Webinar – Introduction to the W3C Data Catalog Ontology (DCAT))的邮件,看了是11/13零点的网会。由于前一天刚买好机票,确定11/10-13在海南旅游,不打算玩的时候还听网会,就没有注册,但邮件一直放在收件箱中没有处理,还打算有机会进一步了解。不料11/9上海出现一本地新冠肺炎病例,尽管那地方离我的活动区域有四五十公里(相当于到了江苏昆山),但由于之前一直关注各地疫情防控政策,推测很多地方极有可能小题大作,为免麻烦深夜退票取消了第2天的行程。于是11/10上午用通知上提供的折扣码免费注册了这个ASIS&T主办的DCMI网会。

提早一个多小时就打开网址,测试了网络,不料等会议开始,才弹出下载程序,下载龟速(会议时间近半仍未完成)。改看手机,倒是不必下载程序,但没有声音。所幸找到PPT可以下载,且手机下载速度较快,总算半夜没有白辛苦。第2天一早看PPT,备注中有详细解说,笔记见后。

先访问词表网站:

DCAT于2020-2-4发布了第2版,第1版6年前。粗略对照2个版本,类由7个增加到13个,属性有变化、仍有不少直接复用其他词表属性(仍以都柏林核心dct为主,增加大量prov本体)。

第2版类一览:类=复用词表(属性数量)

  • Catalog (7)、CatalogRecord (6)、Dataset (7)、Distribution (19)
  • ConceptScheme=skos (0)、Concept=skos (0)、Organization/Person=foaf (0)
  • 新增:
  • CatalogedResource (22)、DataService (3)
  • Relationship (2)、Role (0)=provPeriodOfTime(4)、Location(3)

DCAT2附录有与schema.org映射。既然这些属性schema.org都有,为什么需要DCAT?我想是因为它提供了一个针对发布数据的很好框架。看会议PPT,强化了以上初步印象。

W3C数据目录本体入门(笔记)

Introduction to the W3C Data Catalog Ontology (DCAT)

会议介绍主讲Peter Winstanley(Semantic Arts公司的本体专家,W3C Dataset Exchange Working Group共同主席),但PPT上没有署名。

PPT末称会议录音、PPT及后续调查会在48小时内提供。

【背景】“开放数据”运动——互联网的发展意味着信息分发的边际成本接近于零,因此,主张免费获取出自公共钱包支付费用的信息(在某些情况下,这不侵犯个人隐私、 政治敏感度或商业机密性)的观点变得势不可挡。 这在许多国家催生了立法,许多组织致力于推广“开放数据”,并帮助公共和非营利组织的人们将数据公开。(slide 4)

【历史】在此背景下,Vassilios Peristeras等从2006/2007年间开始研究使用RDF模型在网络上发布数据目录的框架,[2010前]作为W3C推荐标准发布。后为欧盟委员会创建了一个DCAT-AP[https://joinup.ec.europa.eu/release/dcat-ap-v11],也用于欧洲数据门户(European Data Portal, EDP),他还启动了其他2个应用纲要扩展:统计STAT/DCAT-AP和地理GEO/DCAT-AP。(slide 6-9)

【第1版(2014)】基于都柏林核心的类和谓词。包括4个类:dcat:Catalogue(数据目录),dcat:Dataset(数据集),dcat:CatalogRecord(目录记录=注册事件),dcat:Distribution(数据集的各种序列化的发布,如同作品具有载体表现)[另有第5个类foaf:Agent]。此外,搜索由许多可索引的文本字段完成,并使用SKOS概念来表征数据集[另2个类:skos:ConceptScheme和skos:Concept(合计7个类)]。(slide 10)

【应用纲要(AP)】对于主流用户社区(如欧盟委员会和欧盟成员国)而言,基本的DCAT词表本身是不够的,但是以应用纲要的形式添加了其他几个组成部分,这是一种非常具有竞争力的通用语言,用来描述数据集并促进其发现(slide 12)。此后,针对国家或垂直行业(如统计、地理空间、运输和地质学)开发了其他更专业的应用纲要(slide 13)。

  • DCAT-AP – https://joinup.ec.europa.eu/release/dcat-ap-v11
  • GeoDCAT-AP – https://joinup.ec.europa.eu/release/geodcat-ap-v10
  • StatDCAT-AP – https://joinup.ec.europa.eu/release/statdcat-ap-v100
  • DCAT-AP_IT – https://www.dati.gov.it/content/dcat-ap-it-v10-profilo-italiano-dcat-ap-0
  • DCAT-AP.de – https://www.dcat-ap.de/
  • DCAT-AP-NO – https://doc.difi.no/dcat-ap-no/
  • Transport-DCAT-AP – https://oasis.team/storage/app/media/O1.2%20TransportDCAT-AP%20and%20Controlled%20Vocs.pdf
  • EPOS-DCAT-AP – https://github.com/epos-eu/EPOS-DCAT-AP
  • DCAT-US – https://resources.data.gov/resources/dcat-us/
  • DCAT – Australia – https://toolkit.data.gov.au/Discovering_Metadata.html

【第2版(2020)】[2016/2017]从征求的用例中提炼出一组需求,形成第2版。优势:

  • [1] 放宽类和属性定义的约束,以促进术语和模块的重用。[对比keywork:第1版定义域dcat:Dataset,值域skos:Concept;第2版定义域无,值域rdfs:Literal]
  • [2-3] 新增超级类dcat:Resource(表示目录中无法包含的任何资产),下属dcat:Dataset、dcat:DataService(支持提供对数据资产访问的目录服务端点;新增)。
  • [4] 增加表示结构松散的目录的方式,其中数据集及其发行之间没有区别。
  • [5] 表示数据集来源和质量的方式的更多细节。
  • [6] DCAT词表与schema.org词表之间的对齐方式。(slide 14-15)

【示例】dcat:Catalog具有一些元数据和一组dcat:Dataset实例URI……(slide 16-19)

【如何使用】(slide 20-28)创建一个或多个dcat:Catalog实体;添加相关的元数据,包括:标识符,发布者详情,所用主题分类法,权利和政策(许可等)、使用如ODRL、CC或相关词表,创建、更新日期等;添加目录内容——数据集、数据服务、发布等。……

  • (文件集)在dcat:Dataset只是一个“文件袋”(没有“发布”意义)的情况下,可以使用dct:relation表示各种文件;
  • (链接数据集到出版物)可以使用dct:isReferencedBy将数据集与出版物相关;
  • (质量控制)利用W3C数据质量词表(Data Quality Vocabulary, dqv:)

【版本控制】在第3版解决。查看讨论:https://github.com/w3c/dxwg/wiki/Material-for-a-SPRINT-on-Versioning

【为什么选择DCAT】有其他用于描述/编目数据集的词表(如:欧洲通用研究信息格式CERIFDataCiteISO19115-1地理信息、Schema.org),但DCAT可以在整个数据集目录之间提供通用语言,并且专注于在Web上发布,是一个互操作标准。(slide 30)

【参考资料】(slide 32)

  • * https://www.w3.org/TR/vocab-dcat-2      W3C DCAT v2
  • * https://github.com/SEMICeu/DCAT-AP     SEMIC EU DCAT-AP work
  • * https://github.com/digst/DCAT-AP-DK      DCAT-AP-DK