关联数据的“调和”与“解析”

关联数据应用中,相同实体判定是重要工作,决定最终的应用效果。对于从原有数据转换而来的关联数据,这项工作尤其重要。比如从MARC转换到BIBFRAME、schema.org或其他格式,完成格式上的映射后,做一个转换程序不会太难,麻烦的是给转换后的实体配上相应的URI。当然可以简单地设置自家URI/IRI,但后续也需要与其他/通用URI匹配,才能发挥作用。比如把书目记录中的某个作者,关联到维基百科中的某个人物词条。调和与解析(Reconciliation & Resolution),就是对实体进行匹配。

LD4 Community Working Group on Reconciliation
基于安德鲁梅隆基金系列课题(LD4L、LD4L-Labs、LD4P)的LD4社群,在2017年5月成立了一个开放参与的“调和与解析工作组”,致力于解决这个问题。目前志愿参与的成员来自Europeana、芬兰赫尔辛基大学、美国国会图书馆、史密森学会、斯坦福大学、华盛顿大学、印第安那大学、加州大学圣迭戈分校、加州大学圣芭芭拉分校、加州大学校长办公室、艾利贝斯集团、Apache软件基金。
工作组目标是为文化遗产/GLAM(美术馆、图书馆、档案馆、博物馆)的资源元数据的调和与解析,总结匹配算法、工作流程、工具和功能需求
对于相关概念,小组认定的术语含义如下(目前工作内容仅涉及前二者):
调和(Reconciliation):实体/URI到实体/URI
实体解析(Entity resolution):字符串到实体/URI(常误称“调和”)
词汇化(Lexicalization):实体/URI到字符串(即得到相应的标签label)

调和与解析相关工作,在实际应用中可能不只是匹配一种情况。目前小组正在公开征集用例、功能需求、当前服务、工作流程等。有一个提交用例的简单模板,包括主要行动者(参与人员)、涉及范围、描述(story)三项内容。
GitHub上到今天(2017-8-10)已经提交了38个用例(编号21-76,有跳号),比如:#76跨语言匹配,#70运行优化,#68使用本体,#39断言两个实体不同。

via BIBFRAME listserv: Call for Reconciliation & Entity Resolution Use Cases / Needs / Stories. Brian Tingle. 8 Aug 2017
参见小组工作计划:LD4 Community Working Group on Reconciliation, 2017-2018 Work Plan

另参见:重量级图书馆关联数据项目LD4P获得资助(2016-5-10)