Diane谈RDA元数据注册的设计

前些天看到Diane Hillmann今年5月在某个“元数据日”会上的PPT《元数据新世界:成长、转变、合并》(76页),细细地看了几遍。

报告前半部分是理念,提供了对图书馆书目元数据的地位、作用等不同以往普遍认可的认识。比如:“今天的元数据不是选择格式,而是确保数据的互操作和融和”(p.19)。又比如:“用户不再以访问实体图书馆作为其主要信息源,而是在联接到全球计算机网络时寻找与创造信息。图书馆需要回应的改变,必须包括转换图书馆公共目录,从书目记录的独立数据库,到高度超链接的数据集,可以与万维网上的信息资源交互。然后图书馆数据可被集成到用户的虚拟工作空间。”(引用Karen Coyle, Understanding the Semantic Web: Bibliographic Data and Metadata, Jan. 2010)
再如关于数据质量:“质量不取决于特定创建策略;人工创建元数据可能是相当可变的;机器创建元数据更一致,但一致不一定正确”(p.43)。“质量测量准则:完整、准确、出处、符合预期、逻辑一致和一贯、时间性(及时和滞后)、可获得性”(p.44)。

报告的后半部分与RDA元素集和取值词表的注册有关。Diane说,“标准在哪儿开发,得到谁支持,对其成功至关重要”(p.47),不单是有感而发,更是对RDA注册现状的一种无奈吧。RDA发布二年,RDA注册的6个元素集一个都未得到批准,近70个取值词表出版的也不过十多个。在这些年多个国家图书馆发布关联书目数据的浪潮中,RDA注册没有在其中获得一席之地,在Diane看来JSC的不作为难辞其咎吧(参见:那是一片丛林)。

看报告最大收获是初步了解了都柏林核心抽象模型(DCAM)、应用纲要与RDA注册的关系,也看到了RDA注册的设计思想。
RDA注册的设计部分,一开始看得不甚明了。这两天在开放元数据注册(OMR)上,对照IFLA的FR系列注册,仔细地看了,基本上看明白了。[以下方括号部分为本人理解,结合11月初JSC会议对修订RDA注册的讨论(链接见后)]

– 结构(p.50)
— RDA的FRBR词表[实体]声明为“类”(class)[元素集]
— 属性声明为“通用”词表,与FRBR实体没有明确关系 [IFLA没有注册这部分,其词表只是用户任务]
— 通用元素的子属性可与FRBR实体明确关联(采用“领域”(domain))[元素集中的元素(属性/子属性),部分有domain(目前来说,通常标签中含FR实体如WEMI等“类”,未来JSC修改可能会去掉)]
— 标签/名称包括(作品)或其他类,提供唯一的名称(除非实体名已经在属性名称中出现)[部分名称中或括号中有FR实体如WEMI等“类”]
— 其他通用子属性可用于其他,不系于FRBR [未限定用于特定FR实体(类),这是Diane为RDA元素集得到更广泛使用而做的设计,见下。JSC称为unconstrained properties]
[说明:RDA注册分为“元素集”与“词表”两部分,前者包括实体、属性与关系(及关系取值),后者是部分属性的取值词表。]

– 为什么采用通用属性(p.51)[即未限定用于特定FR实体(类),p.52-74有详细举例说明]
— 通用属性对于将RDA关联到更大世界是基本的
— 使用通用属性,映射更清晰(因为大部分属性的映射不基于FRBR)
— 由通用属性扩展更有用
— 通用属性对非图书馆实施者更可接受(不常用FRBR)[实际上图书馆也没有普遍开始使用,这等于否定了FR模型?]
[说明:RDA基于FRBR,所有属性都对应某个FR实体(同样的属性,如对应不同实体,则用限定说明)]

– Roles: Attributes or Properties? 职能词:属性或属性 [译不出差别,只能上原文了](p.59)
— 2005年,DC使用小组与LC合作,建立MARC关系词的正式表达,以使这些术语能用于DC
— 这一工作提供了模板,用于注册RDA中的职能术语(附录I),并扩展到其他RDA关系 [或者说,RDA附录I基于当年DC与LC的工作]
— 职能词与关系属性,与元素在同一层次上注册,而非作为属性(如同MARC对其关系词,RDA在其XML规范)
[说明:RDA注册中,职能词和WEMI关系均注册为“元素集”,而非“词表”,这也是一个争议点。从JSC会议看,基本认可,但Gordon又想同时作为词表,理由不详]

– 集合项(p.62)
— RDA设置了出版、发行、制作、生产项,就是目录卡片时代的做法
— 假定集合地点、名称和日期,明显残存自目录卡片,如果图书馆想要的话,不一定能够一同索引或显示这些元素
— 我们视这些集合为“语法编码方案”(如同DC抽象模型定义的),用有界属性的方式处理
— 采用通用属性的(通常在图书馆外)[即未限定用于特定FR实体(类)],不需要受这些传统属性集合的约束
[说明:在第1组实体中,集合项定义为“类”或“子类”而非“属性”。目前有9个,不限于出版发行。其中8个为子类:出版项、发行项、制造项、生产项、抓取地点和时间、学位论文信息、版本项、丛编项,上位“类”为RDA Syntax Encoding Scheme(其又属于RDF数据类型的子类);另一个为“类”:地图图像表示类。这是一种先组方式(p.63-64)]

最后部分,Diane分析了其设计的优点及未来的可能性:
– 这种结构意味着什么(p.65)
— 从严格的记录中释放
— 用于不同编码的潜力
— 更细粒度水平上维护语句的能力
— 在图书馆之外共享数据的潜力
— 两个方向 [指从外界来、到外界去吧]
— 挑战图书馆数据可以做什么、应该做什么的旧概念
— 随着用户升级到网络,远离图书馆目录,我们需要跟随他们(并适当引导他们)[仍不忘图书馆员的理想]

– 瓦解和扩展(p.67)
— 我们开始想象,元素和概念[取值词表]的映射与校准会如何提供方案间更清晰的路径
— 特定资料的更多特异性,可通过为特定目的扩展元素词表来实现 [当指,比如为不同类型资源的Extent设置不同的词表,而不是一个词表──而JSC会议上正是决定要合并?]
— 当我们建立这些映射,我们可以提供数据的不同视图,而不必改变数据值本身 [取不同的数据,按不同方式组合,更灵活。在RDA-L上看到德国国家图书馆接受JSC对多部分资源按首期还是末期部分修订的设想,也是这种考虑]

– 词表扩展(p.71)
— 包括无约束属性[不限于FRBR实体],提供了把RDA扩展到专业图书馆界与非图书馆界的途径
— 对于FRBR如何“集合”,可能有不同见解(例如,电影的彩色版可能视为一部独立作品[而非不同内容表达])
— 他们可能根本不希望采用FRBR
— 他们可能使用附加的属性,可以与RDA属性建立关系 [如RDA完全限于FRBR实体,就难于与之关联──影响RDA本身的扩展性,或者说与其他元数据方案的互操作性]

Diane说,“RDA仍是进展中工作,对其维护、边界等没有取得一致”(p.49)。从11月初JSC会议看,在Gordon Dunsire加入后,JSC现在已经开始全面维护工作,会上基本确定了修订原则,全部批准RDA注册已是看得到前景的了。只是这种修订,或许未必完全符合Diane的设想。

———-报告下载(有墙)———-
New World of Metadata: Growing, Shifting, Merging / by Diane I. Hillmann on May 09, 2012
Presentation for Metadata Day in Worcester, Mass. Focus is on new developments in the metadata world that affect all metadata implementors, but particularly those in the bibliographic domain.

———-关于OMR注册———-
RDA注册第一批词汇表出版(2011年8月2日)
RDA注册词汇表:内容、媒介、载体类型出版(2012年1月27日)
FRBR系列元素集与取值词表出版(2012年5月27日)

Resource Description and Access: ALA Rep notes: Report of the Meeting of the Joint Steering Committee, 6 November 2012 / JOHN ATTIG on November 6, 2012 10:31
JSC会议有关RDA注册的讨论与决定(2012年11月18日)

NISO得到梅隆基金资助,评估新书目框架现状及未来需求

LC的书目框架转换行动,原说9月会有可供讨论的初步报告面世,至今没有音讯。
一年前,美国国家信息标准委员会(NISO)常务理事Todd Carpenter就有NISO主导取代MARC新标准制订之意,如今LC行动迟迟没有结果,或许更是显示NISO作用的时候──上月NISO得到梅隆基金近5万美元资助,用于评估新书目框架现状及未来需求。NISO设想的也是关联数据。

消息发布在11月号的NISO Newsline上:
NISO Receives Mellon Foundation Grant to Assess the Current State and Future Needs of a New Bibliographic Framework
“NISO得到安德鲁·梅隆基金48516美元资助,研究确定图书馆、高等教育和非营利网络信息界的需求,确保在一个不断网络化、关联数据环境中,能够使用和交换书目数据。资金将用于在美国举办一个面对面会议和四个全球网络会议,以及网络会议期间的工作组活动。会议将协调包括图书馆、技术人员、图书馆系统供应者及其他国际标准开发组织在内的主要群体的需求。”
“本计划的目标是吸引关键的利益相关者──来自图书馆、系统供应者、高等教育/研究机构,以及非传统书目信息用户──就基于关联数据的新书目框架所需的活动,发展出社区线路图的共识,识别标准开发所需的交换点,记录应当做功能性测试的区域,以给所有关联数据书目交换的参与者提供反馈。”

Todd Carpenter在卷首语中做了长篇评论(一直觉得Carpenter的卷首语可媲美《数字图书馆论坛》张主编):
NISO and the Future of Bib Exchange
在回顾了书目交换的历史、现状及NISO的作用后,介绍本资助项目:
“为集合这些跨界社区,推进走向新书目信息交换方式,NISO向安德鲁·梅隆基金提出一个项目设想,帮助方便这一问题的跨机构协作。……上月批准实施这项工作。本计划目标是组织一个跨不同兴趣社区及批评机构的组织。拨款将支持一次现场会议及一系列网络会议,讨论帮助在共享目标及达成这些目标的道路上取得共识。项目最终结果是一个报告,关注必需的发展共识的领域,将提出应该做的功能性测试点,可以向所有关联书目数据交换的参与者提供反馈。
他的结语:
“这是整个书目交换转换中的一小步;我们社区更大的项目是野心勃勃的。NISO对这一发展的时间表、兴趣和复杂性及对每个受影响机构的潜在分歧很清醒。反思这一计划的重要性,我认为关键的是对目标、需求及尽可能多的受影响参与者的期望的买进──包括以前不曾参与图书馆数据的新参与者,如语义网开发者,可以关联图书馆数据到更大的Web环境。协调、协作和共识对成功的结果至关重要。幸运的是,这些正是NISO在行动中设置的立场。没有一个组织能够单独推进任何具体方案,不管其在社区中的地位如何。我们希望从一开始就取得尽可能多的一致,推进前进过程中可以继续协作的共同方向。” [既是说自己,也是说LC吧]
最后,发英雄贴:“随着项目落地,接下来二个月中,NISO将与社区接触。如果你的机构对参与感兴趣,请联系NISO办公室。未来数周我们将提供更多项目信息。”

via NISO Newsline, November 2012
参见:NISO有意主导取代MARC新标准制订?(2011年11月6日)

[update 2014-2-13] 最新进展:NISO报告:通过新交换环境绘制航线:NISO书目路标行动
Charting a Course through a New Exchange Environment: The Niso Bibliograpic Roadmap Initiative / Todd Carpenter
ISQ:Information Standards Quarterly (Winter 2013, Vol.25 issue 4) p.33-34

那是一片丛林

Diane Hillmann前些天忽然吐槽二个月前宣布将要取代MARBI的元数据标准委员会(MSC),以自己在DCMI应用委员会(Usage Board)的经验及参与RDA注册词表的情况,点评MSC的自我定位,称之为“说大话”:
──“领导作用”,对兼职且一年碰头两次的委员会成员何以承担?
──什么是“标准”,是否经NISO或ISO之类的标准机构认可的才是标准?
──标准提交给MSC评审与评估,谁提交?依什么准则评审?用什么机制评估?
我之前曾做过比较,其实MSC基本上沿用了MARBI的职责。或许真是时代不同了,过去的定位不能直接拿来就用。

对我而言,从Diane博文中看到的更重要内容,是对RDA注册词表没有抓住时机的痛惜。三年来,RDA只有少部分词表获批出版,三组元素集至今仍处于“新提出”状态,在目前所见的图书馆书目和规范的关联数据发布实例中,RDA词表在元数据方案中微不足道,甚至在最初为RDA词表而建立的开放元数据注册(OMR)平台上,IFLA后注册的ISBD词表的应用都好于RDA词表,因之不难理解Diane的感受。

博文后半部分翻译如下[本人加粗]:
“RDA的工作是一个典型案例,说明开发标准比一开始看起来要困难得多,而对最终谁将实际使用标准,过程与及时性是何等重要。RDA开发开始得够早,在长长的开发过程中──开始是经典的专家闭门工作──整个世界变了。”
“2007年,作为[开发]过程的一部分,我参与了建立[注册]词表的工作,对RDA用于语义网环境是必需的……工作的完成被拖延(自2009年起由JSC做评审与出版),因为JSC只花有限时间考虑改变准则的建议,近期才完成。在此期间,随着时间流逝,很多曾经等候RDA词表完成的人得出结论,词表可能永远不会完成了,开始到别处找元数据元素集。”
“与此同时,两年前LC自己粗略地开始其书目框架计划。就目前所述,该工作似乎不太可能考虑RDA为其“解决方案”的重要部分。书目数据的其他各类大用户和供应者已开始使用不同的自建方案表达其数据为关联数据,这个(某种程度上的)新的大事。这说明性的表明,他们不倾向于使用RDA属性。”
“曾经MARC统治图书馆世界,在某些角落,仍然在怀念那个有很多确定性、很少选择的世界。那个时代不再回来,无论我们建立多少新委员会,试图控制新的、混乱的书目数据世界。事实是,我们的世界变动太快,而我们焦虑于把事情弄“对”,继续使用不再起作用的复杂过程,建立与维护累赘的“标准”。我们仍然试图坚持,“持续的评审”、“评价”和“推荐”过程有明晰的价值,但现实的看看当前的环境,让我们知道,它们可能已不再有价值,甚至[不再]有可能。”

──换言之,世界已经变了,RDA(或任何其他)并非大家的唯一选择,没有“标准”可以高枕无忧,如不抓紧时机,机会可能永远失去。
Diane的结语是:那是一片丛林(It’s a jungle out there)
参见维基百科

来源:Metadata Matters: Big Words (2012-10-26)

参见:无可奈何花落去:元数据标准委员会将取代MARBI (2012年8月27日)