Diane谈RDA元数据注册的设计

前些天看到Diane Hillmann今年5月在某个“元数据日”会上的PPT《元数据新世界:成长、转变、合并》(76页),细细地看了几遍。

报告前半部分是理念,提供了对图书馆书目元数据的地位、作用等不同以往普遍认可的认识。比如:“今天的元数据不是选择格式,而是确保数据的互操作和融和”(p.19)。又比如:“用户不再以访问实体图书馆作为其主要信息源,而是在联接到全球计算机网络时寻找与创造信息。图书馆需要回应的改变,必须包括转换图书馆公共目录,从书目记录的独立数据库,到高度超链接的数据集,可以与万维网上的信息资源交互。然后图书馆数据可被集成到用户的虚拟工作空间。”(引用Karen Coyle, Understanding the Semantic Web: Bibliographic Data and Metadata, Jan. 2010)
再如关于数据质量:“质量不取决于特定创建策略;人工创建元数据可能是相当可变的;机器创建元数据更一致,但一致不一定正确”(p.43)。“质量测量准则:完整、准确、出处、符合预期、逻辑一致和一贯、时间性(及时和滞后)、可获得性”(p.44)。

报告的后半部分与RDA元素集和取值词表的注册有关。Diane说,“标准在哪儿开发,得到谁支持,对其成功至关重要”(p.47),不单是有感而发,更是对RDA注册现状的一种无奈吧。RDA发布二年,RDA注册的6个元素集一个都未得到批准,近70个取值词表出版的也不过十多个。在这些年多个国家图书馆发布关联书目数据的浪潮中,RDA注册没有在其中获得一席之地,在Diane看来JSC的不作为难辞其咎吧(参见:那是一片丛林)。

看报告最大收获是初步了解了都柏林核心抽象模型(DCAM)、应用纲要与RDA注册的关系,也看到了RDA注册的设计思想。
RDA注册的设计部分,一开始看得不甚明了。这两天在开放元数据注册(OMR)上,对照IFLA的FR系列注册,仔细地看了,基本上看明白了。[以下方括号部分为本人理解,结合11月初JSC会议对修订RDA注册的讨论(链接见后)]

– 结构(p.50)
— RDA的FRBR词表[实体]声明为“类”(class)[元素集]
— 属性声明为“通用”词表,与FRBR实体没有明确关系 [IFLA没有注册这部分,其词表只是用户任务]
— 通用元素的子属性可与FRBR实体明确关联(采用“领域”(domain))[元素集中的元素(属性/子属性),部分有domain(目前来说,通常标签中含FR实体如WEMI等“类”,未来JSC修改可能会去掉)]
— 标签/名称包括(作品)或其他类,提供唯一的名称(除非实体名已经在属性名称中出现)[部分名称中或括号中有FR实体如WEMI等“类”]
— 其他通用子属性可用于其他,不系于FRBR [未限定用于特定FR实体(类),这是Diane为RDA元素集得到更广泛使用而做的设计,见下。JSC称为unconstrained properties]
[说明:RDA注册分为“元素集”与“词表”两部分,前者包括实体、属性与关系(及关系取值),后者是部分属性的取值词表。]

– 为什么采用通用属性(p.51)[即未限定用于特定FR实体(类),p.52-74有详细举例说明]
— 通用属性对于将RDA关联到更大世界是基本的
— 使用通用属性,映射更清晰(因为大部分属性的映射不基于FRBR)
— 由通用属性扩展更有用
— 通用属性对非图书馆实施者更可接受(不常用FRBR)[实际上图书馆也没有普遍开始使用,这等于否定了FR模型?]
[说明:RDA基于FRBR,所有属性都对应某个FR实体(同样的属性,如对应不同实体,则用限定说明)]

– Roles: Attributes or Properties? 职能词:属性或属性 [译不出差别,只能上原文了](p.59)
— 2005年,DC使用小组与LC合作,建立MARC关系词的正式表达,以使这些术语能用于DC
— 这一工作提供了模板,用于注册RDA中的职能术语(附录I),并扩展到其他RDA关系 [或者说,RDA附录I基于当年DC与LC的工作]
— 职能词与关系属性,与元素在同一层次上注册,而非作为属性(如同MARC对其关系词,RDA在其XML规范)
[说明:RDA注册中,职能词和WEMI关系均注册为“元素集”,而非“词表”,这也是一个争议点。从JSC会议看,基本认可,但Gordon又想同时作为词表,理由不详]

– 集合项(p.62)
— RDA设置了出版、发行、制作、生产项,就是目录卡片时代的做法
— 假定集合地点、名称和日期,明显残存自目录卡片,如果图书馆想要的话,不一定能够一同索引或显示这些元素
— 我们视这些集合为“语法编码方案”(如同DC抽象模型定义的),用有界属性的方式处理
— 采用通用属性的(通常在图书馆外)[即未限定用于特定FR实体(类)],不需要受这些传统属性集合的约束
[说明:在第1组实体中,集合项定义为“类”或“子类”而非“属性”。目前有9个,不限于出版发行。其中8个为子类:出版项、发行项、制造项、生产项、抓取地点和时间、学位论文信息、版本项、丛编项,上位“类”为RDA Syntax Encoding Scheme(其又属于RDF数据类型的子类);另一个为“类”:地图图像表示类。这是一种先组方式(p.63-64)]

最后部分,Diane分析了其设计的优点及未来的可能性:
– 这种结构意味着什么(p.65)
— 从严格的记录中释放
— 用于不同编码的潜力
— 更细粒度水平上维护语句的能力
— 在图书馆之外共享数据的潜力
— 两个方向 [指从外界来、到外界去吧]
— 挑战图书馆数据可以做什么、应该做什么的旧概念
— 随着用户升级到网络,远离图书馆目录,我们需要跟随他们(并适当引导他们)[仍不忘图书馆员的理想]

– 瓦解和扩展(p.67)
— 我们开始想象,元素和概念[取值词表]的映射与校准会如何提供方案间更清晰的路径
— 特定资料的更多特异性,可通过为特定目的扩展元素词表来实现 [当指,比如为不同类型资源的Extent设置不同的词表,而不是一个词表──而JSC会议上正是决定要合并?]
— 当我们建立这些映射,我们可以提供数据的不同视图,而不必改变数据值本身 [取不同的数据,按不同方式组合,更灵活。在RDA-L上看到德国国家图书馆接受JSC对多部分资源按首期还是末期部分修订的设想,也是这种考虑]

– 词表扩展(p.71)
— 包括无约束属性[不限于FRBR实体],提供了把RDA扩展到专业图书馆界与非图书馆界的途径
— 对于FRBR如何“集合”,可能有不同见解(例如,电影的彩色版可能视为一部独立作品[而非不同内容表达])
— 他们可能根本不希望采用FRBR
— 他们可能使用附加的属性,可以与RDA属性建立关系 [如RDA完全限于FRBR实体,就难于与之关联──影响RDA本身的扩展性,或者说与其他元数据方案的互操作性]

Diane说,“RDA仍是进展中工作,对其维护、边界等没有取得一致”(p.49)。从11月初JSC会议看,在Gordon Dunsire加入后,JSC现在已经开始全面维护工作,会上基本确定了修订原则,全部批准RDA注册已是看得到前景的了。只是这种修订,或许未必完全符合Diane的设想。

———-报告下载(有墙)———-
New World of Metadata: Growing, Shifting, Merging / by Diane I. Hillmann on May 09, 2012
Presentation for Metadata Day in Worcester, Mass. Focus is on new developments in the metadata world that affect all metadata implementors, but particularly those in the bibliographic domain.

———-关于OMR注册———-
RDA注册第一批词汇表出版(2011年8月2日)
RDA注册词汇表:内容、媒介、载体类型出版(2012年1月27日)
FRBR系列元素集与取值词表出版(2012年5月27日)

Resource Description and Access: ALA Rep notes: Report of the Meeting of the Joint Steering Committee, 6 November 2012 / JOHN ATTIG on November 6, 2012 10:31
JSC会议有关RDA注册的讨论与决定(2012年11月18日)