关联数据编目走向现实——新项目LD4P3及LD4社区

梅隆基金资助的“图书馆关联数据”LD4系列项目始于2014年,每2年1-2个项目。2020年中,新项目LD4P3“闭环”得到批准(2020/7/1-2022/6/30,250万美元)。历经多年探索、关联数据编目似乎终于开始进入实际应用阶段。

项目名称“闭环”,指创建一个完整周期的工作模型,以进行图书馆元数据的创建、共享和重用。本项目伙伴(partner)即共同申请者为斯坦福、康奈尔和爱荷华大学图情学院,协作方包括Share-VDE(意大利厂商的托管编目环境)、美国国会图书馆(LC)、合作编目计划(PCC)以及OCLC。此外还有合伙人(cohort),即在LD4P2时已参加从MARC到关联数据编目的PCC成员馆。

主管此项目的斯坦福大学技术与访问服务副馆长Philip Schreur在新闻中称此项目的目的是“使图书馆资源超出图书馆目录的可访问性,并利用来自更广泛网络的相关信息来增强基于图书馆的发现,以及从现有但以前未链接的数据中创建新知识”。

七个主要目标:

  • (1)完成能够与多种环境(例如FOLIO)进行交互的开源关联数据编辑器【对Sinopia的功能要求1】
  • (2)扩大查问规范(QA)范围,以在各种传统(例如LCNAF)和非传统(例如Wikidata、Discogs)规范源中为规范和实体查找以及数据导入提供一流的支持【对QA的要求】
  • (3)通过将QA与OCLC提议的“实体主干”相集成来扩展实体管理【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
  • (4)以RDF创建所有PCC原始编目的连续馈送池,该池可在世界范围内免费开放使用【PCC数据池】
  • (5)扩大Sinopia与其他数据源(ILS、发现系统、PCC数据池和其他外部数据源)基于API的集成的能力,使RDF环境中的数据流闭环【对Sinopia的功能要求2】
  • (6)将PCC合伙人的管理和培训从LD4P转移到PCC【从项目试验走向实际应用?】
  • (7)可持续发展计划和建模,包括确定单个组件以及LD4P3主要利益相关者在业务、成员资格、服务、软件、数据和运营方面的几种长期选择

七个目标通过五个工作包实现:

  • (WP1)扩大Sinopia环境
  • (WP2)集成并完成生产就绪的关联数据规范支持服务(QA)
  • (WP3)在Blacklight中实现发现增强功能【那个历史悠久的?Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)】
  • (WP4)通过创建PCC数据池和扩展PCC合伙人来扩展PCC社区的参与
  • (WP5)环境关键部分的可持续性和社区发展

日前LD4社区也宣布成立:ld4.io。“新的LD4社区向任何人开放,供其探索、学习和协作以提高意识和知识,鼓励采用并建立可互操作的标准、工具和服务的生态系统,以将关联开放数据和其他技术从理论付诸实践并规模化。”目前网站汇集LD4年会资料(始于2017)、维基、slack(即时沟通和团队协作)、邮件组(可申请加入发现、Wikidata、非拉丁文字资料3个组)、油管频道、Github等。

  • 社区宪章:LD4是一个共同努力以促进图书馆实践的社区。 我们专注于链接和使用Web上的数据来推进图书馆的使命、宗旨和目标。/ LD4社区的参与对任何人开放——个人或机构、 非营利组织、政府组织或商业组织。通过直接参与,并通过其各种渠道、项目和活动,LD4聚集全球成千上万的个人。
  • 愿景:世界用图书馆数据丰富,图书馆用世界数据丰富。
  • 使命:通过建立一个开放、多样化、可持续和图书馆主导的社区来推进图书馆实践。我们将共同探索、学习和协作,以提高认识和诀窍,鼓励采用,并建立可互操作的标准、工具和服务的生态系统,以便将关联开放数据和其他技术从理论大规模地应用于实践。

参考资料:

LD4系列项目网关 ld4l.org

  • 2014-2016: LD4L (Linked Data for Libraries)
  • 2016-2018: LD4L Labs
  • 2016-2018: LD4P (Linked Data for Production)
  • 2018-2020: LD4P2: Pathway to Implementation
  • 2020-2022: LD4P3: Closing the Loop

LD4P2走向实施之路:目标与工作(附LD4系列)

LD4P2是Andrew W. Mellon基金会资助的LD4系列的第4个2年期项目(2018-2020),成员为康奈尔大学、哈佛大学、美国国会图书馆?、斯坦福大学和爱荷华大学。本期项目的终级目标是实施,即以关联数据来描述图书馆资源。特别值得注意的是与合作编目项目(PCC)和Wikidata的合作。
先前曾关注项目的7个目标(见下参见),现在已看到2个有所进展,因此再重复记录如下;项目维基网站还有6个工作包,在此一并记录:
Linked Data for Production: Pathway to Implementation (LD4P2)

7个目标:
[1] 由一个学术图书馆的核心小组,创建以BIBFRAME表示的关联数据的连续馈送池
[2] 开发基于云的沙箱编辑环境,以支持扩展的图书馆合伙人创建和重用关联数据【2018.11.1宣布已招募到17家学术图书馆承担子项目:Stanford Libraries announces Linked Data for Production (LD4P) cohort members and subgrant recipients;先前已召开合伙人会议,定下2019.4开始生成数据的目标】
[3] 开发用于使用标识符自动增强MARC数据的策略、技术和工作流程,以便尽可能干净地转换为关联数据
[4] 开发用于创建和重用关联数据及其支持标识符作为图书馆核心元数据的策略、技术和工作流程
[5] 通过与Wikidata的协作,更好地将图书馆元数据和标识符与Web集成【2018.8.27 斯坦福大学为此公开招聘一位驻留维基媒体人:Wikimedian-in-Residence position at Stanford University
[6] 使用基于关联数据的发现技术增强广泛采用的图书馆发现环境(Blacklight)
[7] 通过开发一个名为LD4的组织框架来协调持续的社区协作,确保在分布式发展社区中不断交流思想和技术。

6个工作包:
WP1:Sinopia:基于云的合作编目环境/原编元数据创建环境
WP2:元数据重用(MARC-to-BIBFRAME转换管道+直接使用原生RDF描述)
WP3:链接到外部规范和Web语境数据(标识符URI+Wikidata发布、链接和丰富)
WP4:发现(Blacklight+知识面板+语义搜索+浏览+可视化+微数据)
WP5:原生关联数据描述生产流程(特藏=电影+地图+音乐+唱片:与数字化配套、与Wikimedia链接)
WP6:社区协作(建立LD4社区+2次国际会议)

——— 附:LD4L: Linked Data for Libraries (The Gateway) ———
LD4L 2014 (2014-2016):“创建一个模型,既可以在各机构内部又可以通过一个协调可扩展的关联开放数据网络运作”(100万美元;斯坦福、康奈尔、哈佛)
LD4L Labs (2016-2018):“帮助图书馆使用关联数据来改善对学术资源信息的交流和理解”(150万美元;康奈尔、哈佛、爱荷华、斯坦福)
LD4P (2016-2018):“转变技术服务生产工作流程”(150万美元;斯坦福、哥伦比亚、康奈尔、哈佛、普林斯顿、美国国会图书馆)
参见:重量级图书馆关联数据项目LD4P获得资助(2016-5-10)
LD4P2 (2018-2020):“为编目社区建立一条途径,开始转向关联数据来描述图书馆资源”(400万美元;斯坦福、康奈尔、哈佛、爱荷华)
参见:BIBFRMAE应用进展:LD4P实施之路(2018-7-8)

珀尔修斯数字图书馆(从人类可读信息到机器生成知识)

珀尔修斯数字图书馆项目(Perseus Digital Library Project)始于1985年,专注古希腊及古罗马的历史、文学与文化,是一个由领域专家主持的数字化项目。主编Gregory R. Crane是塔夫茨大学教授,一位数字人文的早期实践者。
项目于今年5月发布了珀尔修斯目录(The Perseus Catalog) ,目标是包括所有主要的古希腊和古罗马作者、每人至少收录一部联机版作品。发布当时包括3,679部作品,以及1.1万余全文链接(其中谷歌图书6,419部、互联网档案5,098部、HathiTrust为593部)。
目录细览页有全文时,按行分页显示,左栏为文字导航、上面为条形导航。点击全文中任意词,会跳转到该词的分析页,包括词典解释、出现统计等。如埃斯库罗斯的希腊文版《阿伽门农》

该目录采用了图情与IT领域的不少通用技术,有不少可圈可点之处:
元数据格式:通用的采用LC的MODS和MADS,专业方面采用Homer Multitext Project开发的Canonical Text Services及CTS-URN protocols(应该是做某些强化)
软件界面:采用开源的Blacklight及Solr
输出格式:目前为HTML和ATOM,但对所有文本组、作品、版本及译本提供稳定、可链接的标准URI后续版本将提供RDF三元组(语义网与关联数据世界又将多一个数据来源)
目前该项目已把MADS格式的作者规范数据贡献给了虚拟国际规范档(VIAF),未来也将在目录中提供到VIAF的链接。

项目网站的Research部分谈到其使命,最后说明其关注三个方面,并有详细解释:
– 人类可读信息
– 机器可操作知识
– 机器生成知识
从前面部分行文看,似乎写于2008-2009年,尽管没有出现语义网或关联数据字样,但后两个方面应该正是抓住了这一趋势。

参见:珀尔修斯数字图书馆目录项目的博客:The Perseus Catalog Blog
Announcing The Perseus Catalog, release 1.0 / by LISA M. CERRATO (2013-5-10)
Contribution to the Virtual International Authority File / by ANNA KROHN (2013-11-25)