LC提供BIBFRAME描述数据集批量下载

美国图书馆协会(ALA)年会前夕,美国国会图书馆(LC)开放了BIBFRAME描述数据集批量下载。

LC一年前开始BIBFRAME第2阶段测试(Pilot 2),60名编目员直接在BIBFRAME编辑器上对资源进行编目。为支持本阶段测试,全部LC目录被转换为BIBFRAME RDF结构化文档,作为测试编目员平常使用的目录。日前,LC提供文档的批量下载,供其他系统进行实验。由于仍在测试过程中,文档在持续改进,因此目前提供的是实验数据(快照),分别是5月24日的作品集(18GB)和5月30日的实例集(20GB),压缩文件,N-Triples格式。

文档下载在LC的关联数据服务网站id.loc.gov:http://id.loc.gov/download/
BIBFRMAE网站“实施、工具和下载”页面有说明文件,标识为:
BIBFRAME Works and Instances dataset [PDF, 106 KB] (Bulk Download Instructions)
实际文件名:Bulk downloads of Works and Instances

根据说明,作品集来源为3种:1、来自名称-题名或题名规范记录转换,2、来自书目记录转换,3、直接来自BIBFRAME编辑器(原编)。实例集来源为2种:1、来自书目记录转换,2、直接来自BIBFRAME编辑器(原编)。URI基于LCCN构成。
由书目和规范记录转换而来的作品描述作了去重合并。文件特别指出:“这个过程听起来很简单,但要做得准确很困难,因为很多MARC数据的文本性质、文件中混合有全部和部分记录、使用题名的MARC规范格式以及数据的不一致性和编目规则随时间推移的多样性(超过100年)”。【今年早些时候因为按作品模型处理方志书目数据,对此深有体会。】
说明指出,目前提供的数据还存在一些问题,主要涉及URI及作品和实例的相互关联,包括:作品和实例URI在LC网络外不解析,不少名称与主题缺少链接,作品-实例关联不正确造成孤儿作品,由书目记录7XX字段转换的作品有待与已有作品合并,从规范记录转换的作品没有相互链接。

——尽管还存在不少问题,始于2011年的 BIBFRAME 似乎离应用越来越近了。

via [BIBFRAME] Bulk downloads of BIBFRAME descriptions made available from Library of Congress / McCallum, Sally (19 Jun 2018)

BIBFRAME扩展:bibliotek-o(及ArtFrame和RareMat)

LC的BIBFRAME开发仍在进行中,美国研究者已经开始对其进行扩展。保持核心词表含最基本术语,其他制定专门扩展,schema.org的这种做法应该也会被LC采用吧。
安德鲁梅隆基金资助的LD4L系列项目(LD4L,LD4P,LD4L Labs),其中2016-2018的2项很重要的一部分工作,就是对BIBFRAME词表/本体进行扩展。项目都在GitHub上。
去年LD4L-labs和LD4P已经发布BIBFRAME基本扩展bibliotek-o。目前LD4P在做艺术和珍本资料方面的扩展(Art and Rare Materials BIBFRAME Ontology Extension),包括:
ArtFrame:哥伦比亚大学与北美艺术图书馆学会编目咨询委员会 (ARLIS CAC) 协作,针对二维和三维艺术作品的描述
RareMat (Rare Materials Ontology Extension):康奈尔大学与大学与研究图书馆协会珍本图书与手稿部书目标准委员会 (RBMS-BSC) 协作,对复杂的珍本资料建模,提供BIBFRAME中未涉及的单件级描述。

已经完成的bibliotek-o,最新版本是2017.7.6发布的1.1.0 ,有独立域名:bibliotek-o.org:
bibliotek-o: a BIBFRAME Ontology Extension
bibliotek-o在类、属性和取值上都有扩展,包括直接采用BIBFRAME之外的其他词表/命名的类(如foaf、dcterms、prov、oa等),作为定义域和值域:

——— 类 classes ———
大量新增类,共计261个,大致可归为以下几种:
– 题名【补齐245子字段、246字段第2指示符对应元素,有些BIBFRAME本身可能增加 】
bf:Title:新增5个子类:Abbreviated title, Concise title, Distinctive title, Key title, Parallel title
新增部分题名类:Title element,及5个子类:Main title element, Non-sort element, Part name element, Part number element, Subtitle element
新增题名来源:Origin(见下“取值)
– 可访问性【残障使用友好】
bf:Content accessibility:新增2个子类及子子类:Accessibility feature(31子类), Accessibility hazard(6子类)
– 载体类型【由取值词表变成类】
bf:Instance:新增17个子类(+57子子类,交叉去重实际40个):Belt,Card,Cartridge,Cylinder,Disc,Film,Flip chart,Microform,Overhead transparency,Projected,Reel,Roll,Sheet,Slide,Tape,Video,Volume
bf:Electronic:新增6个子类(3个多重上位类):Computer card,Computer chip,Computer tape cartridge(重复),Computer tape cassette(重复),Computer tape reel(重复),Online resource
– 标识符【将OCLC控制号从bf:Local中独立出来】
bf:Identifier:新增1个子类:OCLC identifier
– 内容类型【由取值词表变成类;计算机程序从文本中独立出来】
bf:Audio:新增3个子类:Performed music,Sounds,Spoken word
bf:Text:新增1个子类:Source code
– 作品【内容类型?】
bf:Work:新增3个子类:Software,Stereograph(影像图),Tactile
– 活动【大量增加】
新增:Activity,及140个子类:Abridger,Acquisition,Actor……Creator【多为各种责任者】
新增:Meeting(上位类:foaf:agent, schema:event)【会议作为活动】

——— 属性 object properties———
新增互逆属性21个、13对(有些直接用已有词表,有些无逆属性),前后括号内分别为定义域、值域:
题名:(bf:Title)is title of/bf:title
首选题名:has preferred title(bf:Title)/is preferred title of
题名来源:has origin
行动者:has agent(foaf:agent)/is agent of
活动:has activity(Activity)/is activity of
授予:granted by(foaf:agent)/grants
位置:at location(prov:Location)/is location of
使用对象:is target of(oa:Annotation)/oa:hasTarget
主题:is subject of/dct:subject
范围:covered in/covers
封面:has cover art
来源:has source/is source of
拥有:(bf:Item)held by(foaf:agent)/holds

——— 取值 named individuals ———
新增取值30个,用于4个类:
– 题名来源:Origin,9个(added title page、binder、caption……)
– 动机/目的:oa:Motivation,15个(cataloging、describing supplementary content、linking table of contents……)
– 状态:bf:Status,4个(current、deprecated、invalid、status)
– 投影特征:bf:ProjectionCharacteristic,2个(three dimensional projection characteric、two dimensional projection characteristic)

参见:
LD4P : un « grand soir » pour les bibliothèques américaines ? (03/05/2017)
面向机器应用的RDA(2018ALA仲冬会议上的RDA-续)(2018-2-24)
重量级图书馆关联数据项目LD4P获得资助(2016-5-10)

LC开启BIBFRAME本体公开维护程序

GitHub是一个流行的软件协作开发平台。要关注BIBFRAME项目的最新进展,除了LC网站的书目框架项目主页(Bibliographic Framework Initiative)、BIBFRAME邮件组,还有一个重要网站就是LC的网络开发与MARC标准办公室GitHub帐号lcnetdev
lcnetdev帐号中大多数repo与BIBFRAME相关,包括词表(本体)及与MARC转换相关的内容。bibframe-ontology现有2次发布内容(见archive),分别是2016-5-20和2017-3-3,有兴趣也可比较差别。

上周该办公室主任Sally McCallum在BIBFRAME邮件组发布消息称,LC正开启BIBFRAME本体维护程序,让实施者通过GigHub提交调整建议。消息称,实施者可在GitHub提出问题(Issues),包括:拼写错误,定义调整,影响本体语义的问题。语义调整建议应该由实施者发起并描述他们在这个问题上的BIBFRAME经验【意指不接受纯粹的研究?】。国会图书馆将审查这些变化。那些具有语义影响的将与其他具有使用BIBFRAME本体的大型系统的实施者合作进行审查。
根据GitHub上的贡献指南(contributing guidelines),一般的讨论、提问与反馈仍在BIBFRAME邮件组进行。
目前本体部分提出了4个问题,涉及的都是属性,分别是:bf:relatedTo的定义,要求增加bf:agent和bf:contribution的逆属性bf:issuedWith的定义域与值域在MARC转换程序(777字段)与词表定义不一致。

芬兰赫尔辛基大学的Osma Suominen在邮件组对LC此举表示欢迎,认为通过GitHub开放BIBFRAME本体的公共咨询消除了其全球适应的一个主要障碍

via [BIBFRAME]: BIBFRAME consultation / Sally McCallum (2018-4-19)