LC提供BIBFRAME描述数据集批量下载

美国图书馆协会(ALA)年会前夕,美国国会图书馆(LC)开放了BIBFRAME描述数据集批量下载。

LC一年前开始BIBFRAME第2阶段测试(Pilot 2),60名编目员直接在BIBFRAME编辑器上对资源进行编目。为支持本阶段测试,全部LC目录被转换为BIBFRAME RDF结构化文档,作为测试编目员平常使用的目录。日前,LC提供文档的批量下载,供其他系统进行实验。由于仍在测试过程中,文档在持续改进,因此目前提供的是实验数据(快照),分别是5月24日的作品集(18GB)和5月30日的实例集(20GB),压缩文件,N-Triples格式。

文档下载在LC的关联数据服务网站id.loc.gov:http://id.loc.gov/download/
BIBFRMAE网站“实施、工具和下载”页面有说明文件,标识为:
BIBFRAME Works and Instances dataset [PDF, 106 KB] (Bulk Download Instructions)
实际文件名:Bulk downloads of Works and Instances

根据说明,作品集来源为3种:1、来自名称-题名或题名规范记录转换,2、来自书目记录转换,3、直接来自BIBFRAME编辑器(原编)。实例集来源为2种:1、来自书目记录转换,2、直接来自BIBFRAME编辑器(原编)。URI基于LCCN构成。
由书目和规范记录转换而来的作品描述作了去重合并。文件特别指出:“这个过程听起来很简单,但要做得准确很困难,因为很多MARC数据的文本性质、文件中混合有全部和部分记录、使用题名的MARC规范格式以及数据的不一致性和编目规则随时间推移的多样性(超过100年)”。【今年早些时候因为按作品模型处理方志书目数据,对此深有体会。】
说明指出,目前提供的数据还存在一些问题,主要涉及URI及作品和实例的相互关联,包括:作品和实例URI在LC网络外不解析,不少名称与主题缺少链接,作品-实例关联不正确造成孤儿作品,由书目记录7XX字段转换的作品有待与已有作品合并,从规范记录转换的作品没有相互链接。

——尽管还存在不少问题,始于2011年的 BIBFRAME 似乎离应用越来越近了。

via [BIBFRAME] Bulk downloads of BIBFRAME descriptions made available from Library of Congress / McCallum, Sally (19 Jun 2018)