OCLC获梅隆基金资助开发实体管理基础设施

OCLC新闻:OCLC awarded Mellon Foundation grant to develop infrastructure to support linked data management initiatives (2020-1-9)

项目称为“Entity Management Infrastructure”,摘要信息如下:

时间:2年(2020.1-2021.12)

费用:Andrew W. Mellon Foundation资助243.6万美元,OCLC提供所需另一半费用

新闻稿摘译:

  • OCLC将使用资助来发布对于作品和人物的权威性和易于访问的实体描述,作为持久性集中式基础结构的一部分。基础结构将在外部词表和规范档中聚合到这些作品和人物的其他表示形式的关联。
  • OCLC成员关系和研究副总裁兼首席策略师Lorcan Dempsey表示:“要使关联数据普遍使用,图书馆需要可靠和持久的标识符以及它们所依赖的关键实体的元数据。该项目开始建立基础架构并推动整个领域的发展。”
  • OCLC将与LD4P社区(由斯坦福大学图书馆牵头、同样由梅隆基金资助的参与“关联数据生产项目”的图书馆)合作,以确保系统与图书馆关联数据环境的发展相匹配。
  • OCLC期望提供多种访问实体基础结构的选项,其中一些选项可免费提供给图书馆社区,而其他选项则可通过订阅获得。OCLC将通过网络发布实体的URI和元数据,并将为图书馆员工提供编辑、充实和添加到这组实体的方法。OCLC还将提供API,以扩展这些实体在图书馆内外的工作流程中的采用和集成。

【个人理解的“实体管理基础设施”概要】

  • “实体”仅包括“作品”和“人物”
  • 实体标识符(URI)
  • 关联(sameAs)现有规范档(猜测如VIAF、WorldCat Identity和WorldCat Work)和外部词表(比如Wikidata、ISNI……)中的实体
  • 聚合实体的元数据描述(作品和个人的各种相关信息)
  • 与LD4P合作开发【参见:LD4相关博文
  • 基础设施访问:编辑(专业用户贡献),API(应用)
  • 基础设施使用模式:免费+订阅

SWIB19:语义网在图书馆会议(报告概要)

第11届语义网在图书馆会议(SWIB19)将于2019年11月25-27日在德国汉堡举行。第1天下午是培训讲习班;第2-3天会议,主旨发言分别是Saskia Scheltjens和曾蕾教授。会议议程有报告摘要,可以先了解大致情况。

首次SWIB会议2009年举办,会名缩写来自德文(SEMANTIC WEB IN BIBLIOTHEKEN),历届会议报告也大都来自欧州。本次会议可见欧洲对语义网/关联数据在图书馆应用探索深入,尤其是多国的国家图书馆。

培训班(半天)

教授相关软件的实际操作,可了解语义网/关联数据在图书馆领域的在用工具。今年有5个培训:

  • 1、Jupyter Notebooks入门(交互式笔记本)
  • 2、用Cocoda映射受控词表
  • 3、OpenRefine入门【参见:OpenRefine数据处理工具(2016-7-9)】
  • 4、用Annif自动化主题标引
  • 5、动手IIIF:如何安装、配置和准备简单的IIIF服务(国际图像互操作框架International Image Interoperability Framework)

第1天会议

1、(主旨报告)永远在两者之间:图档博关联开放数据(LODLAM)的异同、机遇与责任 / Saskia Scheltjens(荷兰国立博物馆)

2、在Data.Bibliotheken.nl上发布关联数据 / René Voorburg(荷兰国家图书馆)荷兰国家图书馆的data.bibliotheken.nl,目前以schema.org序列化,正在进行基于LRM和PREMIS的模型。

3、2千万个URI和芬兰图书馆界主题索引的全面改革 / Matias Frosterus等(芬兰国家图书馆)从叙词表YSA转换到本体YSO;不仅全国联合目录Melinda转换,还有开源转换程序提供其他图书馆本地使用。

4、进出:西班牙国家图书馆的图书馆数据和关联数据之间的工作流程 / Ricardo Santos(西班牙国家图书馆)由VIAF标识符数据包文件抽取Wikidata标识符,加载到规范记录;再从Wikidata提取8万多人的属性信息,丰富规范数据。

5、从原始数据到更丰富的数据:汇总元数据时的经验教训 / Julia Beck(德国法兰克福大学图书馆)汇总德语文化遗产机构的演艺元数据(异构数据)于VuFind搜索门户

6、NAISC:图书馆领域的权威关联数据互连方法 / Lucy McKenna等(爱尔兰都柏林三一学院)继续SWIB 2018曾介绍的NAISC,创建实体(如人、地点或作品)间链接,采用PROV-O作为基础本体加以扩展。

7、酷和BnF帮:法国国家图书馆关于处理永久标识符的一些想法 / Raphaëlle Lapôtre(法国国家图书馆)

第2天会议

1、(主旨报告)用于数字人文的智慧数据 / 曾蕾(美国肯特州立大学)

2、数字资源和研究数据:链接且可用 / Florian Kräutli等(德国马克斯·普朗克科学史研究所)马克斯·普朗克人文数字研究基础设施(MP-DRIH),基础架构的中心是知识图谱,使用CIDOC-CRM作为通用模型,采用基于语义数据平台Metaphactory的软件系统ResearchSpace使用生成的图谱。

3、BIBFRAME内外的数据建模 / Tiziana Possemato(意大利@Cult and Casalini Libri公司)依据BIBFRAME,Share-VDE已进入生产阶段。扩展BF本体,增加概念:超级作品、主实例。【其用户界面与早先的Share目录类似。参见:BIBFRAME 2.0实施注册新增项目(附:意大利SHARE目录)(2017-7-25】

4、图书馆目录的实证评估 / Péter Király(德国GWDG)用工具分析MARC目录的问题:字段/子字段/指示符、词典取值等错误;计算完整性,基于FRBR用户任务运行功能分析。

5、简单应用纲要/应用程序配置文件设计 / Karen Coyle / Tom Baker(DCMI)2019.4成立的DCMI AP兴趣小组的工作

6、SkoHub:通过ActivityPub基于KOS的内容联合 / Adrian Pohl等(德国hbz)/ Felix Ostrowski(graphthinking GmbH)2家企业合作的SkoHub项目,利用社交网络协议ActivityPub,发送和订阅受控词表中定义的主题的通知。

7、提出丰富的关联开放数据集视图:S路径原型和data.bnf.fr中FRBR化数据的可视化 / Raphaëlle Lapôtre等(法国国家图书馆,法国国家信息与自动化研究所)data.bnf.fr团队与人机交互研究团队ILDA合作,设计交互数据可视化界面“S路径”,使用户可以更直观地导航关联开放数据。S路径对于揭示数据源中的缺陷、可视化建模特性以及显示可用于与最终用户进行通信的数据趋势非常有用。

8、目标词汇表映射 / Niklas Lindström(瑞典国家图书馆)

9、在OCLC研究部的关联数据Wikibase原型中表示图书馆元数据的经验教训 / Karen Smith-Yoshimura(美国OCLC)

参见:
OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)(2018-11-24)
OCLC发布报告:用Wikibase创建图书馆关联数据(2019-10-10)
用Wikibase创建图书馆关联数据:通道项目的经验(2019-10-15)

用Wikibase创建图书馆关联数据:通道项目的经验

2017-2018年OCLC实施了由16个图书馆参与的“通道项目”(Project Passage),用Wikibase创建图书馆关联数据。2019年8月项目报告发布,参见:OCLC发布报告:用Wikibase创建图书馆关联数据(2019-10-10)

报告发布前,报告作者之一Karen Smith-Yoshimura在研究部博客Hanging Together上发表了2篇介绍博文。以下摘译部分看后有所感的内容:

Summarizing Project Passage experiences in creating library linked data in Wikibase (1 of 2) (July 11, 2019)

【一、多语言作品】
Karen Smith-Yoshimur和加州大学戴维斯校区的Xiaoli Li在2019年6月18日举行的本项目网络会议Works in Progress Webinar: Case Studies from Project Passage Focusing on Wikidata’s Multilingual Support上有关多语言支持的报告,认为,规范和书目数据之间的传统区别在Wikibase描述中消失了【BF2.0模型中可见】。多语言描述不需要受“首选形式”的约束【BF2.0没有规范检索点、只有标签】,也不需要输入音译,因为其他人可以在不同语言和书写系统中添加描述。“编目语言”的概念在这种环境中消失了。【编目语言恐怕还是会存在的——“转录”或“检索点”自然无所谓语言,但还是有其他描述需求与语言有关,比如载体形态:1册,1 volume,1 band】

【二、图像资源】
1、历史地图:包括自然特征、人造建筑、土地所有者名称、道路和区域边界。地图与出版商、地点和日期之间有复杂联系,也需要新“角色”如“测量员”。项目的编辑工作流程允许开放式添加细节和关系,如在地图上直观显示的特征,但除自由文本外,在MARC中难以或不可能表达。【BF2.0模型中新增“事件”对此会有所帮助】
2、音乐会海报、人物明信片、抗议集会照片:3个用例都与一个事件相关联,元数据专家必须努力解决投入多少精力来创建相关实体,以便为解释提供机器可理解的上下文,以及什么时候理智地停止。【事件,描述的深度、粒度】
3、教会的音乐作品(1436年在佛罗伦萨大教堂的奉献下委托并演出):描述乐谱、奉献事件以及两者之间相互关联的单件和属性产生了关系网络,超越目前基于MARC的图书馆规范档中表示的细节。【事件】【5个案例,均表明“事件”与“关系”的重要性——对内容的深度揭示,是编目未来的重点】
Summarizing Project Passage experiences in creating library linked data in Wikibase (2 of 2) (July 17, 2019)
一些思考:
【1】范式转换:从人类可读的记录到知识图谱的转换代表了范式转换。即使输出看起来不同,编目人员在当前和新工作流程中为描述资源而进行的智力工作有许多相似之处,但某些任务和实践将变得过时,需要一些新的任务【以下有若干例子】。最重要的新任务是将焦点从“手头单件”更改为“什么实体对该对象重要?”
【2 过时的实践】【1)规范形式】在书目和规范记录中创建和规范自然语言文本字符串的工作已成为过时的任务【联想:GDPR的个人隐私包括出生日期】。【2)ISBD标点】一些当前实践显得微不足道、毫无意义,如在MARC记录中花费在ISBD标点上的时间。【3)音译】在本质上是多语言的环境中,MARC的编目语言概念以及提供音译的要求变得过时了。
【3 需要最佳实践】在关联数据环境中创建元数据时,仍然需要解释性上下文、结构化和叙述性数据、最佳实践以及坚持权威性和质量的价值。对“实体化”的强调自然是从图书馆当前的实践演变而来的。当社区将Wiki内容纳入其工作流程时,我们将需要确定适当的上下文、结构化和叙述性数据以及维护我们价值观的最佳实践。
【4】重塑众包:参与者看到了众包潜力,可以丰富在Wikibase编辑界面中创建的知识图谱。修订历史和讨论页面可以支持此工作,该页面跟踪给定Wikibase实体的每个编辑,每个页面都与注册的用户名和时间戳相关联。对比当前资源描述工作流程中,MARC记录只能标记为“已修改”却没有书面记录谁更改了什么内容,因此妨碍了质量管理;而讨论在编辑环境之外进行(通常在专业邮件组),丢失了与受影响内容的连接。
【5 众包的质量控制】试验参与者担心,在Wikibase环境中进行众包仍可能会添加来自未知来源的未经审查的信息,这会削弱已策展的图书馆数据的完整性。众包人群可能具有一系列的技能和专长,这些技能和专长并不都适合于给定的描述任务或用例。但是毫无疑问,某些人群确实拥有补充或辅助图书馆和档案馆工作人员知识的知识。如熟悉非英语和非拉丁文字材料的学者可以充实缺乏这种专业知识的图书馆员和档案管理员创建的元数据。