RDA已经发生和有待发生的变化(2018年6月3R计划成果)

作为3R计划的阶段性成果,RDA工具包测试版网站上周发布。参见:RDA工具包测试版网站上线及初步印象(2018-6-14)
刚发布那几天,RDA-L邮件组中各种吐槽,除继续抱怨没有编号外,还涉及样例、MARC映射等等。除了关于需要“应用纲要”(Application Profile)的讨论具有建设性、也得到了RSC主席Gordon Dunsire的回应外,感觉很多吐槽者根本没仔细看网站,当然也没有看测试版上线之前公布的官方文件《RDA工具包重构与重设计计划的成果》。看反应如此强烈,不知道到预计的半年后正式版上线,RDA及工具包是否再会有大的变化。还是先看看官方说明有哪些变化吧。

Outcomes of the RDA Toolkit Restructure and Redesign Project (2018-6-8) / Gordon Dunsire (RSC Chair). RSC/Chair/19

以下编译摘录RDA内容变化概要和尚未完成的内容,不完全依照原文顺序,编号也为本人自拟【方括号中为本人理解】。

一、因实施LRM的变化
1、新增实体(RDA实体/RDA entity,施事者Agent,集体施事者/Collective agent,命名/Nomen,时间段/Timespan)及通用属性和关系。如:时间段附注。
2、原实体增加通用属性和关系。如:作品附注。
3、有些属性变为关系。如:个人的出生日期(个人和时间段之间关系);又如:单件的电子复制品(单件和载体表现间关系)。
4、增加各种“载体表现说明”元素。如:载体表现出版说明(用于“转录”。另有相应的“记录”元素,如:出版说明及其子元素,保留用于记录已经规范化的数据)。
5、增加“代表性内容表达”相关元素。如:代表性内容表达的内容类型。
6、修改关系等级。如:衍生作品,是“作品:按体裁转换”的下位关系。

二、记录方法与受控词表
4种记录方法,即4-fold path。详见:3R项目与RDA“四路径”(2017-8-7)
4种方法适用于大多数元素。如内容类型,可以记录:
1)非结构化描述:非受控术语;
2)结构化描述:作为RDA内容类型词汇表或其他指定词汇编码方案(VES)的受控术语;
3)标识符:来自VES标记;
4)国际化资源标识符(IRI):来自VES。
为此,【作为VES】RDA受控词表中的每个术语都已添加数字代码或“标记符号”,也用于构成该术语的IRI。如:1007是RDA载体类型录音带的标记符号,可以记录为“载体表现:载体类型”的标识符值。
新增词表:RDA扩展计划,RDA交互模式,RDA装订类型。含相应的元素,如:载体表现:装订类型。
弃用词表惯用总题名。在RDA条款中提供。【为什么其他词表增加/独立出去,这个却放在条款中?】

三、称谓关系【LRM子类型】
(1)检索点:为除Nomen外的所有实体增加了检索点、规范检索点、变异检索点。如:团体规范检索点。记录方法:结构化描述。
(2)名称或题名:修改定义。记录方法:非结构化描述。
(3)标识符:添加或修改实体的标识符元素。如:地点的标识符。记录方法:标识符。

四、元素变化
1、增加:专门资料相关元素。如内容表达:地势类型。
2、删除:标记为“已弃用”。如团体:相关机构(现名:团体的相关团体)。
3、名称变化:不再使用圆括号和撇号;保持一致与清晰。如内容表达:贡献者(现名:内容表达的创建者)【源自LRM:原来只有作品对应创建者,内容表达对应贡献者,现在贡献者消失了】
4、核心元素:不在RDA中分配。期望在应用纲要或政策声明中分配。【重磅】

五、连续出版物
1、连续出版物作品推广为历时作品。如:作品:扩展计划。
2、连续出版物原有元素有相应变化。如:ISSN由载体表现转至作品。【与ISBN不同】
3、增加集合载体表现历时作品的基本元素。如作品:转换政策。集合载体表现和历时作品的条款各自独立,方便灵活处理连续出版物作品的识别与描述,可以分开、顺序或同时记录。(目前未完成)

六、尚未完成
1、分开名称/题名和检索点元素的条款【依前“称谓关系”,前者为非结构化描述,后者为结构化描述】
2、样例:继续随条款更新和增加而增加和编辑样例
3、集合体、历时作品和连续出版物作品
4、非人类角色【Nomen?】:有待赋予与资源实体(WEMI)的agent关系
5、新元素:只增加了基本通用条款,特殊条款开发未完成
6、指引(Guidance):关于编目决定和信息源的指导和一般性条款的制定工作尚未完成。其他领域的指导将适时扩大。

LC提供BIBFRAME描述数据集批量下载

美国图书馆协会(ALA)年会前夕,美国国会图书馆(LC)开放了BIBFRAME描述数据集批量下载。

LC一年前开始BIBFRAME第2阶段测试(Pilot 2),60名编目员直接在BIBFRAME编辑器上对资源进行编目。为支持本阶段测试,全部LC目录被转换为BIBFRAME RDF结构化文档,作为测试编目员平常使用的目录。日前,LC提供文档的批量下载,供其他系统进行实验。由于仍在测试过程中,文档在持续改进,因此目前提供的是实验数据(快照),分别是5月24日的作品集(18GB)和5月30日的实例集(20GB),压缩文件,N-Triples格式。

文档下载在LC的关联数据服务网站id.loc.gov:http://id.loc.gov/download/
BIBFRMAE网站“实施、工具和下载”页面有说明文件,标识为:
BIBFRAME Works and Instances dataset [PDF, 106 KB] (Bulk Download Instructions)
实际文件名:Bulk downloads of Works and Instances

根据说明,作品集来源为3种:1、来自名称-题名或题名规范记录转换,2、来自书目记录转换,3、直接来自BIBFRAME编辑器(原编)。实例集来源为2种:1、来自书目记录转换,2、直接来自BIBFRAME编辑器(原编)。URI基于LCCN构成。
由书目和规范记录转换而来的作品描述作了去重合并。文件特别指出:“这个过程听起来很简单,但要做得准确很困难,因为很多MARC数据的文本性质、文件中混合有全部和部分记录、使用题名的MARC规范格式以及数据的不一致性和编目规则随时间推移的多样性(超过100年)”。【今年早些时候因为按作品模型处理方志书目数据,对此深有体会。】
说明指出,目前提供的数据还存在一些问题,主要涉及URI及作品和实例的相互关联,包括:作品和实例URI在LC网络外不解析,不少名称与主题缺少链接,作品-实例关联不正确造成孤儿作品,由书目记录7XX字段转换的作品有待与已有作品合并,从规范记录转换的作品没有相互链接。

——尽管还存在不少问题,始于2011年的 BIBFRAME 似乎离应用越来越近了。

via [BIBFRAME] Bulk downloads of BIBFRAME descriptions made available from Library of Congress / McCallum, Sally (19 Jun 2018)

RDA工具包测试版网站上线及初步印象

RDA工具包测试版网站2018年6月13日晚上线(北京时间今天上午),工具包网站首页(rdatoolkit.org)侧栏有明显链接(Explore Toolkit Beta Site),工具包本身页面(access.rdatoolkit.org)顶部也有不太明显的链接。
访问网址:RDA Tookit Beta Site
登录测试版网站可以用当前网站的订购帐号和口令,也可以用第2层的个人profile名与口令,无需双重登录。在订户IP范围内,今天上午未登录也可访问(下午需要登录)。如未订购,可申请30天免费试用测试版网站。

根据前几天公布的RSC主席Gordon Dunsire有关3R计划成果的文档(链接见下),此次的测试版实际是未完成版,因此测试版内容只是草案,直到RSC和RDA理事会批准完成版,同意3R计划完成,时间估计在2018年底
该文档也概要介绍了RDA的变化。因为变化实在太多,会在适当时候在网站RDA Reference部分提供所有变化的细节,包括RDA实体、元素和词表编码方案。

初步印象:
1、四大栏目
(1)实体(Entities):主要条款,基于《国际图联图书馆参考模型》(IFLA LRM)的13个实体展开
(2)指导(Guidance):通用条款
(3)政策(Polices):各家政策声明(目前仅有英美两家)
(4)资源(Resources):原来附录的内容
2、条款编号:取消。整个体系基于IFLA LRM的实体展开。属性和关系列在各实体下,链接到各自页面。由于只有13个实体,因此每个实体下属性和关系超多,设置滚动框。好在可以检索查找。
3、元素参考:元数据词表定义(IRI、定义域、值域、替代标签等);并关联用户任务、记录方法、MARC21字段等。
特别是标识:采用RDA注册标识,如:http://rdaregistry.info/Elements/w/P10065(creator of work)。相应的网址也具有识别性,如:http://beta.rdatoolkit.org/RDA.Web/Content/Index?externalId=en-US_rda_creator_of_work。并不是官方曾在RDA-L中说的一长串供机器识别的无意义字符(也许在底层保存时采用)。
4、样例:很少见到。光看文字描述,要理解怎么用有时并不容易。这部分还有很多工作待做。
5、选项(Option):取代了原来名目不一的变化做法(交替、例外、可选增加、可选省略)。形式上也统一采用条件语句(For)说明使用范围。
6、网页翻页:页面下部前后翻页规则不明。比如creator of work前一页coverage of content,后一页criminal defendant corporate body,有点莫名其妙。如果没有意义,不如取消。

关于条款编号取消,之前就有公布。没想到上周末公布测试版上线时,在RDA-L邮件组引起了相当大的反弹,反对者的主要理由是不方便引用,反对者中教编目的老师占相当比例。当然也有说不妨看了测试版再说,或者明确支持的。
我也属支持一派。之前RDA因为修订改变条款号甚至与旧号冲突的情况并不少见,而讨论与写作中引用元素名显然更稳定、也更方便理解。在内心感觉取消的只是大条款号,在元素内部还是会保留一部分的。因此特意关注了下,初步结论是,即使元素内部,大多没有编号(比如有多个选项时)。想到了团体作为创作者,有8种情况,总该有编号了吧?这个规则会在哪个元素中出现呢?先试了团体实体,没有,还是在作品的创作者(creator of work),确实有1-8的编号。

相关资料:
公告:RDA Toolkit blog: What to Expect from the RDA Toolkit Beta Site (2018-6-6)  特别说明不再有PDF版(离线保存利器)
使用介绍:RDA Toolkit Beta Site is Here (2018-6-13) / James Hennelly (Director, RDA Toolkit)
内容介绍:Outcomes of the RDA Toolkit Restructure and Redesign Project (2018-6-8) / Gordon Dunsire (RSC Chair). RSC/Chair/19
关于取消编号的讨论:[RDA-L] News on the RDA 3R Project beta release (2018.6.8- )