OCLC获梅隆基金资助开发实体管理基础设施

OCLC新闻:OCLC awarded Mellon Foundation grant to develop infrastructure to support linked data management initiatives (2020-1-9)

项目称为“Entity Management Infrastructure”,摘要信息如下:

时间:2年(2020.1-2021.12)

费用:Andrew W. Mellon Foundation资助243.6万美元,OCLC提供所需另一半费用

新闻稿摘译:

  • OCLC将使用资助来发布对于作品和人物的权威性和易于访问的实体描述,作为持久性集中式基础结构的一部分。基础结构将在外部词表和规范档中聚合到这些作品和人物的其他表示形式的关联。
  • OCLC成员关系和研究副总裁兼首席策略师Lorcan Dempsey表示:“要使关联数据普遍使用,图书馆需要可靠和持久的标识符以及它们所依赖的关键实体的元数据。该项目开始建立基础架构并推动整个领域的发展。”
  • OCLC将与LD4P社区(由斯坦福大学图书馆牵头、同样由梅隆基金资助的参与“关联数据生产项目”的图书馆)合作,以确保系统与图书馆关联数据环境的发展相匹配。
  • OCLC期望提供多种访问实体基础结构的选项,其中一些选项可免费提供给图书馆社区,而其他选项则可通过订阅获得。OCLC将通过网络发布实体的URI和元数据,并将为图书馆员工提供编辑、充实和添加到这组实体的方法。OCLC还将提供API,以扩展这些实体在图书馆内外的工作流程中的采用和集成。

【个人理解的“实体管理基础设施”概要】

  • “实体”仅包括“作品”和“人物”
  • 实体标识符(URI)
  • 关联(sameAs)现有规范档(猜测如VIAF、WorldCat Identity和WorldCat Work)和外部词表(比如Wikidata、ISNI……)中的实体
  • 聚合实体的元数据描述(作品和个人的各种相关信息)
  • 与LD4P合作开发【参见:LD4相关博文
  • 基础设施访问:编辑(专业用户贡献),API(应用)
  • 基础设施使用模式:免费+订阅

用Wikibase创建图书馆关联数据:通道项目的经验

2017-2018年OCLC实施了由16个图书馆参与的“通道项目”(Project Passage),用Wikibase创建图书馆关联数据。2019年8月项目报告发布,参见:OCLC发布报告:用Wikibase创建图书馆关联数据(2019-10-10)

报告发布前,报告作者之一Karen Smith-Yoshimura在研究部博客Hanging Together上发表了2篇介绍博文。以下摘译部分看后有所感的内容:

Summarizing Project Passage experiences in creating library linked data in Wikibase (1 of 2) (July 11, 2019)

【一、多语言作品】
Karen Smith-Yoshimur和加州大学戴维斯校区的Xiaoli Li在2019年6月18日举行的本项目网络会议Works in Progress Webinar: Case Studies from Project Passage Focusing on Wikidata’s Multilingual Support上有关多语言支持的报告,认为,规范和书目数据之间的传统区别在Wikibase描述中消失了【BF2.0模型中可见】。多语言描述不需要受“首选形式”的约束【BF2.0没有规范检索点、只有标签】,也不需要输入音译,因为其他人可以在不同语言和书写系统中添加描述。“编目语言”的概念在这种环境中消失了。【编目语言恐怕还是会存在的——“转录”或“检索点”自然无所谓语言,但还是有其他描述需求与语言有关,比如载体形态:1册,1 volume,1 band】

【二、图像资源】
1、历史地图:包括自然特征、人造建筑、土地所有者名称、道路和区域边界。地图与出版商、地点和日期之间有复杂联系,也需要新“角色”如“测量员”。项目的编辑工作流程允许开放式添加细节和关系,如在地图上直观显示的特征,但除自由文本外,在MARC中难以或不可能表达。【BF2.0模型中新增“事件”对此会有所帮助】
2、音乐会海报、人物明信片、抗议集会照片:3个用例都与一个事件相关联,元数据专家必须努力解决投入多少精力来创建相关实体,以便为解释提供机器可理解的上下文,以及什么时候理智地停止。【事件,描述的深度、粒度】
3、教会的音乐作品(1436年在佛罗伦萨大教堂的奉献下委托并演出):描述乐谱、奉献事件以及两者之间相互关联的单件和属性产生了关系网络,超越目前基于MARC的图书馆规范档中表示的细节。【事件】【5个案例,均表明“事件”与“关系”的重要性——对内容的深度揭示,是编目未来的重点】
Summarizing Project Passage experiences in creating library linked data in Wikibase (2 of 2) (July 17, 2019)
一些思考:
【1】范式转换:从人类可读的记录到知识图谱的转换代表了范式转换。即使输出看起来不同,编目人员在当前和新工作流程中为描述资源而进行的智力工作有许多相似之处,但某些任务和实践将变得过时,需要一些新的任务【以下有若干例子】。最重要的新任务是将焦点从“手头单件”更改为“什么实体对该对象重要?”
【2 过时的实践】【1)规范形式】在书目和规范记录中创建和规范自然语言文本字符串的工作已成为过时的任务【联想:GDPR的个人隐私包括出生日期】。【2)ISBD标点】一些当前实践显得微不足道、毫无意义,如在MARC记录中花费在ISBD标点上的时间。【3)音译】在本质上是多语言的环境中,MARC的编目语言概念以及提供音译的要求变得过时了。
【3 需要最佳实践】在关联数据环境中创建元数据时,仍然需要解释性上下文、结构化和叙述性数据、最佳实践以及坚持权威性和质量的价值。对“实体化”的强调自然是从图书馆当前的实践演变而来的。当社区将Wiki内容纳入其工作流程时,我们将需要确定适当的上下文、结构化和叙述性数据以及维护我们价值观的最佳实践。
【4】重塑众包:参与者看到了众包潜力,可以丰富在Wikibase编辑界面中创建的知识图谱。修订历史和讨论页面可以支持此工作,该页面跟踪给定Wikibase实体的每个编辑,每个页面都与注册的用户名和时间戳相关联。对比当前资源描述工作流程中,MARC记录只能标记为“已修改”却没有书面记录谁更改了什么内容,因此妨碍了质量管理;而讨论在编辑环境之外进行(通常在专业邮件组),丢失了与受影响内容的连接。
【5 众包的质量控制】试验参与者担心,在Wikibase环境中进行众包仍可能会添加来自未知来源的未经审查的信息,这会削弱已策展的图书馆数据的完整性。众包人群可能具有一系列的技能和专长,这些技能和专长并不都适合于给定的描述任务或用例。但是毫无疑问,某些人群确实拥有补充或辅助图书馆和档案馆工作人员知识的知识。如熟悉非英语和非拉丁文字材料的学者可以充实缺乏这种专业知识的图书馆员和档案管理员创建的元数据。 

OCLC发布报告:用Wikibase创建图书馆关联数据

在MARC时代,由于工作界面和读者界面分离,编目员习惯了只求耕耘、不问收获,大多埋头填写MARC字段,很少甚至从来不用OPAC,既不关心编目结果如何呈现给读者(并非所有字段、子字段都会在OPAC上显示),也不了解读者有哪些途径查找目录(很多图书馆自动化系统,工作人员内部与外部OPAC的检索途径不尽一致)。当大环境发生改变,编目的作用一再被忽视后,其结果是编目员自己也不免对编目产生怀疑。

OCLC的“通道项目”(Project Passage)基于Wikidata所用的Wikibase,在关联数据环境下进行描述图书馆和档案馆资源的试验,达到无需了解关联数据的技术机制,也无需离开元数据创建工作流程,通过项目团队开发的工具:1) 发现界面Explorer,即能查看他们的工作成果;2) 检索器Retriever可将外部数据引入Wikibase实例,作为新资源描述的基础。这两个工具简化了描述任务,又可使人们看到正在进行的工作的效果,不仅有助于编目员理解关联数据的作用,也可激发编目员的工作热情。用项目介绍博文的说法是,“使他们能够在当前和新的实践标准之间进行直接比较,同时保留最重要的图书馆员的价值观。”

项目实施于2017-2018年,之前OCLC并没有提到项目名称。参见博文:OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)(2018-11-24)。文中对Wikibase作了介绍。

项目主页:Linked Data Wikibase Prototype
其中提到项目在三个主要领域实现了目标:
1. 协作:OCLC员工团队和来自16个机构的数十名图书馆员在关联数据生态系统中创建了用例,创建了实体并进行了编辑,使用OCLC社区中心讨论工作流程和提出问题,并参加了28个月的会议和每周的“办公时间”会议。
2. 调和服务:使用SPARQL端点和一个名为“Explorer”的用户界面,尝试对实体协调/协调的编目工作流程。
3. 编辑:在原生Wikibase用户界面中管理实体,Explorer,以及另一个实验性应用程序“The Retriever检索器”。
在项目开始时描述的简单原型已经逐渐成熟,可以使用一组强大的第三方工具和本地应用程序来管理超过100万个Wikidata实体。由项目参与者的新想法、要求的功能以及对应用程序和原型使用指南的反馈,推动了该项目向更全面的工具和应用程序集的演进。

项目结束将近一年,OCLC发布了报告《用Wikibase创建图书馆关联数据》,由部分参与项目的合作图书馆成员及OCLC人员共同完成:

Creating Library Linked Data with Wikibase: Lessons Learned from Project Passage / By Jean Godby, Karen Smith-Yoshimura, Bruce Washburn, Kalan Knudson Davis, Karen Detling, Christine Fernsebner Eslao, Steven Folsom, Xiaoli Li, Marc McGee, Karen Miller, Honor Moody, Craig Thomas, and Holly Tomren. 2019-8

在报告发布前,报告作者之一Karen Smith-Yoshimura在研究部博客Hanging Together上发表了2篇介绍博文:
Summarizing Project Passage experiences in creating library linked data in Wikibase (1 of 2) (July 11, 2019)
Summarizing Project Passage experiences in creating library linked data in Wikibase (2 of 2) (July 17, 2019)
[update 2019-10-15] 内容参见:用Wikibase创建图书馆关联数据:通道项目的经验(2019-10-15)

图书馆在编目领域采用关联数据应该是一个确定的方向,不清楚的是如何采用。各家都在探索,既包括标准,也包括工具。OCLC作为业界大腕,也是最早且持续的探索者。不知此项目对OCLC的工作会有怎样的实际影响。参见: