Diane谈RDA元数据注册的设计

前些天看到Diane Hillmann今年5月在某个“元数据日”会上的PPT《元数据新世界:成长、转变、合并》(76页),细细地看了几遍。

报告前半部分是理念,提供了对图书馆书目元数据的地位、作用等不同以往普遍认可的认识。比如:“今天的元数据不是选择格式,而是确保数据的互操作和融和”(p.19)。又比如:“用户不再以访问实体图书馆作为其主要信息源,而是在联接到全球计算机网络时寻找与创造信息。图书馆需要回应的改变,必须包括转换图书馆公共目录,从书目记录的独立数据库,到高度超链接的数据集,可以与万维网上的信息资源交互。然后图书馆数据可被集成到用户的虚拟工作空间。”(引用Karen Coyle, Understanding the Semantic Web: Bibliographic Data and Metadata, Jan. 2010)
再如关于数据质量:“质量不取决于特定创建策略;人工创建元数据可能是相当可变的;机器创建元数据更一致,但一致不一定正确”(p.43)。“质量测量准则:完整、准确、出处、符合预期、逻辑一致和一贯、时间性(及时和滞后)、可获得性”(p.44)。

报告的后半部分与RDA元素集和取值词表的注册有关。Diane说,“标准在哪儿开发,得到谁支持,对其成功至关重要”(p.47),不单是有感而发,更是对RDA注册现状的一种无奈吧。RDA发布二年,RDA注册的6个元素集一个都未得到批准,近70个取值词表出版的也不过十多个。在这些年多个国家图书馆发布关联书目数据的浪潮中,RDA注册没有在其中获得一席之地,在Diane看来JSC的不作为难辞其咎吧(参见:那是一片丛林)。

看报告最大收获是初步了解了都柏林核心抽象模型(DCAM)、应用纲要与RDA注册的关系,也看到了RDA注册的设计思想。
RDA注册的设计部分,一开始看得不甚明了。这两天在开放元数据注册(OMR)上,对照IFLA的FR系列注册,仔细地看了,基本上看明白了。[以下方括号部分为本人理解,结合11月初JSC会议对修订RDA注册的讨论(链接见后)]

– 结构(p.50)
— RDA的FRBR词表[实体]声明为“类”(class)[元素集]
— 属性声明为“通用”词表,与FRBR实体没有明确关系 [IFLA没有注册这部分,其词表只是用户任务]
— 通用元素的子属性可与FRBR实体明确关联(采用“领域”(domain))[元素集中的元素(属性/子属性),部分有domain(目前来说,通常标签中含FR实体如WEMI等“类”,未来JSC修改可能会去掉)]
— 标签/名称包括(作品)或其他类,提供唯一的名称(除非实体名已经在属性名称中出现)[部分名称中或括号中有FR实体如WEMI等“类”]
— 其他通用子属性可用于其他,不系于FRBR [未限定用于特定FR实体(类),这是Diane为RDA元素集得到更广泛使用而做的设计,见下。JSC称为unconstrained properties]
[说明:RDA注册分为“元素集”与“词表”两部分,前者包括实体、属性与关系(及关系取值),后者是部分属性的取值词表。]

– 为什么采用通用属性(p.51)[即未限定用于特定FR实体(类),p.52-74有详细举例说明]
— 通用属性对于将RDA关联到更大世界是基本的
— 使用通用属性,映射更清晰(因为大部分属性的映射不基于FRBR)
— 由通用属性扩展更有用
— 通用属性对非图书馆实施者更可接受(不常用FRBR)[实际上图书馆也没有普遍开始使用,这等于否定了FR模型?]
[说明:RDA基于FRBR,所有属性都对应某个FR实体(同样的属性,如对应不同实体,则用限定说明)]

– Roles: Attributes or Properties? 职能词:属性或属性 [译不出差别,只能上原文了](p.59)
— 2005年,DC使用小组与LC合作,建立MARC关系词的正式表达,以使这些术语能用于DC
— 这一工作提供了模板,用于注册RDA中的职能术语(附录I),并扩展到其他RDA关系 [或者说,RDA附录I基于当年DC与LC的工作]
— 职能词与关系属性,与元素在同一层次上注册,而非作为属性(如同MARC对其关系词,RDA在其XML规范)
[说明:RDA注册中,职能词和WEMI关系均注册为“元素集”,而非“词表”,这也是一个争议点。从JSC会议看,基本认可,但Gordon又想同时作为词表,理由不详]

– 集合项(p.62)
— RDA设置了出版、发行、制作、生产项,就是目录卡片时代的做法
— 假定集合地点、名称和日期,明显残存自目录卡片,如果图书馆想要的话,不一定能够一同索引或显示这些元素
— 我们视这些集合为“语法编码方案”(如同DC抽象模型定义的),用有界属性的方式处理
— 采用通用属性的(通常在图书馆外)[即未限定用于特定FR实体(类)],不需要受这些传统属性集合的约束
[说明:在第1组实体中,集合项定义为“类”或“子类”而非“属性”。目前有9个,不限于出版发行。其中8个为子类:出版项、发行项、制造项、生产项、抓取地点和时间、学位论文信息、版本项、丛编项,上位“类”为RDA Syntax Encoding Scheme(其又属于RDF数据类型的子类);另一个为“类”:地图图像表示类。这是一种先组方式(p.63-64)]

最后部分,Diane分析了其设计的优点及未来的可能性:
– 这种结构意味着什么(p.65)
— 从严格的记录中释放
— 用于不同编码的潜力
— 更细粒度水平上维护语句的能力
— 在图书馆之外共享数据的潜力
— 两个方向 [指从外界来、到外界去吧]
— 挑战图书馆数据可以做什么、应该做什么的旧概念
— 随着用户升级到网络,远离图书馆目录,我们需要跟随他们(并适当引导他们)[仍不忘图书馆员的理想]

– 瓦解和扩展(p.67)
— 我们开始想象,元素和概念[取值词表]的映射与校准会如何提供方案间更清晰的路径
— 特定资料的更多特异性,可通过为特定目的扩展元素词表来实现 [当指,比如为不同类型资源的Extent设置不同的词表,而不是一个词表──而JSC会议上正是决定要合并?]
— 当我们建立这些映射,我们可以提供数据的不同视图,而不必改变数据值本身 [取不同的数据,按不同方式组合,更灵活。在RDA-L上看到德国国家图书馆接受JSC对多部分资源按首期还是末期部分修订的设想,也是这种考虑]

– 词表扩展(p.71)
— 包括无约束属性[不限于FRBR实体],提供了把RDA扩展到专业图书馆界与非图书馆界的途径
— 对于FRBR如何“集合”,可能有不同见解(例如,电影的彩色版可能视为一部独立作品[而非不同内容表达])
— 他们可能根本不希望采用FRBR
— 他们可能使用附加的属性,可以与RDA属性建立关系 [如RDA完全限于FRBR实体,就难于与之关联──影响RDA本身的扩展性,或者说与其他元数据方案的互操作性]

Diane说,“RDA仍是进展中工作,对其维护、边界等没有取得一致”(p.49)。从11月初JSC会议看,在Gordon Dunsire加入后,JSC现在已经开始全面维护工作,会上基本确定了修订原则,全部批准RDA注册已是看得到前景的了。只是这种修订,或许未必完全符合Diane的设想。

———-报告下载(有墙)———-
New World of Metadata: Growing, Shifting, Merging / by Diane I. Hillmann on May 09, 2012
Presentation for Metadata Day in Worcester, Mass. Focus is on new developments in the metadata world that affect all metadata implementors, but particularly those in the bibliographic domain.

———-关于OMR注册———-
RDA注册第一批词汇表出版(2011年8月2日)
RDA注册词汇表:内容、媒介、载体类型出版(2012年1月27日)
FRBR系列元素集与取值词表出版(2012年5月27日)

Resource Description and Access: ALA Rep notes: Report of the Meeting of the Joint Steering Committee, 6 November 2012 / JOHN ATTIG on November 6, 2012 10:31
JSC会议有关RDA注册的讨论与决定(2012年11月18日)

NISO得到梅隆基金资助,评估新书目框架现状及未来需求

LC的书目框架转换行动,原说9月会有可供讨论的初步报告面世,至今没有音讯。
一年前,美国国家信息标准委员会(NISO)常务理事Todd Carpenter就有NISO主导取代MARC新标准制订之意,如今LC行动迟迟没有结果,或许更是显示NISO作用的时候──上月NISO得到梅隆基金近5万美元资助,用于评估新书目框架现状及未来需求。NISO设想的也是关联数据。

消息发布在11月号的NISO Newsline上:
NISO Receives Mellon Foundation Grant to Assess the Current State and Future Needs of a New Bibliographic Framework
“NISO得到安德鲁·梅隆基金48516美元资助,研究确定图书馆、高等教育和非营利网络信息界的需求,确保在一个不断网络化、关联数据环境中,能够使用和交换书目数据。资金将用于在美国举办一个面对面会议和四个全球网络会议,以及网络会议期间的工作组活动。会议将协调包括图书馆、技术人员、图书馆系统供应者及其他国际标准开发组织在内的主要群体的需求。”
“本计划的目标是吸引关键的利益相关者──来自图书馆、系统供应者、高等教育/研究机构,以及非传统书目信息用户──就基于关联数据的新书目框架所需的活动,发展出社区线路图的共识,识别标准开发所需的交换点,记录应当做功能性测试的区域,以给所有关联数据书目交换的参与者提供反馈。”

Todd Carpenter在卷首语中做了长篇评论(一直觉得Carpenter的卷首语可媲美《数字图书馆论坛》张主编):
NISO and the Future of Bib Exchange
在回顾了书目交换的历史、现状及NISO的作用后,介绍本资助项目:
“为集合这些跨界社区,推进走向新书目信息交换方式,NISO向安德鲁·梅隆基金提出一个项目设想,帮助方便这一问题的跨机构协作。……上月批准实施这项工作。本计划目标是组织一个跨不同兴趣社区及批评机构的组织。拨款将支持一次现场会议及一系列网络会议,讨论帮助在共享目标及达成这些目标的道路上取得共识。项目最终结果是一个报告,关注必需的发展共识的领域,将提出应该做的功能性测试点,可以向所有关联书目数据交换的参与者提供反馈。
他的结语:
“这是整个书目交换转换中的一小步;我们社区更大的项目是野心勃勃的。NISO对这一发展的时间表、兴趣和复杂性及对每个受影响机构的潜在分歧很清醒。反思这一计划的重要性,我认为关键的是对目标、需求及尽可能多的受影响参与者的期望的买进──包括以前不曾参与图书馆数据的新参与者,如语义网开发者,可以关联图书馆数据到更大的Web环境。协调、协作和共识对成功的结果至关重要。幸运的是,这些正是NISO在行动中设置的立场。没有一个组织能够单独推进任何具体方案,不管其在社区中的地位如何。我们希望从一开始就取得尽可能多的一致,推进前进过程中可以继续协作的共同方向。” [既是说自己,也是说LC吧]
最后,发英雄贴:“随着项目落地,接下来二个月中,NISO将与社区接触。如果你的机构对参与感兴趣,请联系NISO办公室。未来数周我们将提供更多项目信息。”

via NISO Newsline, November 2012
参见:NISO有意主导取代MARC新标准制订?(2011年11月6日)

[update 2014-2-13] 最新进展:NISO报告:通过新交换环境绘制航线:NISO书目路标行动
Charting a Course through a New Exchange Environment: The Niso Bibliograpic Roadmap Initiative / Todd Carpenter
ISQ:Information Standards Quarterly (Winter 2013, Vol.25 issue 4) p.33-34

丹麦国家书目的关联开放数据

今天看到书蠹精在新浪微博上发消息,提供丹麦国家书目关联数据计划的链接。链过去似曾相识:

Danish National Bibliography – Linked Open Data

DBC公司正开发关联开放数据版本的丹麦国家书目。开始的测试版只包含2010-2012年出版的图书及其创作者的规范数据。未来将扩大到影音,并链接到DBPedia及VIAF这样的外部来源。接下来的版本将覆盖2000-2012年间。

现提供自2010年以来的丹麦国家书目子集:
SPARQL endpoint: http://lod.dbc.dk/webui/

三元组文档(创作共用CC0 1.0 通用公共域声明许可)
图书(约4.7万图书记录,98万三元组):
turtle格式
RDF/XML格式

规范数据(约2.7万规范记录,24万三元组):
turtle格式
RDF/XML格式

———-数据模型与规范(Schema)———-
图书馆的数据模型基于不列颠图书馆的数据模型(2012年9月version 2.0)
有若干自定义术语──DBC Library Terms,命名空间为:xmlns:dbc

* 数据采用来自下列词汇表的属性
RDF Schema
Bibliographic Ontology [BIBO]
Bio: A Vocabulary for Biographical Information
British Library Terms
DBC Library Terms
Dublin Core [DC Term]
Event Ontology
FOAF: Friend of a Friend
WGS84 Geo Positioning
OWL
SKOS
RDF Schema
RDA [仍然只是第2组实体元素RDA Group 2 Elements]

* 提供到下属关联开放数据源的链接
Lexvo [语言、词汇、字符及其他人类语言相关实体信息的关联数据及语义网版本]
GeoNames(用于出版国)