LC关联数据服务现状

在MARC21标准网站首页,看到MARC Code Lists as Linked Data,点击后链接到的是规范与词表网站(http://id.loc.gov/),现名:
LC Linked Data Service: authorities and vocabularies

该网站从2009年5月上线LCSH开始,四年来内容已经大大丰富了。目前包括三个部分:
– 规范部分(主题、名称、分类)
LC Subject Headings
LC Name Authority File
LC Classification
LC Children’s Subject Headings
LC Genre/Form Terms
Thesaurus for Graphic Materials

– 保存词汇表(Preservation Vocabularies)
Preservation Vocabs (all)
Actions Granted
Agent Type
Content Location Type
Copyright Status
……(共15种)

– MARC代码部分
MARC Relators(含12种RDA和2种BIBFRAME)
MARC Countries
MARC Geographic Areas
MARC Languages
ISO639-1 Languages
ISO639-2 Languages
ISO639-5 Languages
Extended Date/Time Format

参见:
关联数据的鸡与蛋(2010年6月7日)
关联数据:官方版与山寨版(DDC和LCSH)(2009年8月21日)

———-延伸阅读———-
前些天,看到LC转向免费提供电子版编目工具书(2013年7月13日),觉得至少能够提供免费的PDF版,已经很不错了。但Diane Hillmann却对Web版被阻挡在付费门槛后相当不满,因为新闻中并未提及id.loc.gov上的LCSH,实际上此版本既不完整也不是最新的,将影响关联数据应用。上下两篇博文均提及id.loc.gov,比较长、待细看。
参见:Metadata Matters
VERSIONS AND SERVICES, PT. 2 (2013.7.23)
VERSIONS AND SERVICES, PT. 1 (2013.7.23)

JSC会议有关RDA注册的讨论与决定

RDA元数据注册,至今6个元素集全都未得到批准、近70个取值词表出版的也不过十多个。当年的注册主持人Diane Hillmann已经不参与此事。从RDA注册的元素集、词表的历史记录看,2011年以来,主要是JSC的ALA代表John Attig在维护,Gordon Dunsire也偶有参与。Gordon目前是JSC的英国协会CILIP代表,是IFLA的FR系列及ISBD元素集的注册者,熟悉该领域;同时他与Diane关系密切,还在Metadata Matters博客上一同写博,应该与她有很好的沟通,也了解她的设计。由他参与完成RDA注册的最终出版,应该说是个相当合适的人选。
2012年11月5-8日举办了今年的JSC会议,6日讨论了不少与RDA元素集、取值词表的开放元数据注册相关的问题,几个讨论文件分别由John和Gordon提出。Gordon未能到场,但远程虚拟参会,还将承担很多后续工作。记得JSC曾经表示RDA注册要在2012年底前全部出版,目前来看应该来不及,但行动已经开始加速。

相关讨论文件如下。有些建议注明JSC同意,有些未注明,或表明尚无定论。[以下方括号部分为个人看法]

1、6JSC/ALA Rep/4: RDA vocabularies: Miscellaneous issues
ALA代表就“开放元数据注册”(OMR)上出版RDA词表问题所列清单,讨论结果:
(1)术语的单复数:JSC同意应采用单数形式。现有复数形式在词表出版前删除。
(2)RDA有条款要求使用不同词表中术语,如“数量”使用“载体类型”词表。Gordon提出,这类重复可以在应用纲要中指明,将就此问题做进一步分析
(3)不完整术语:RDA某些指定术语不构成独立术语,如“约”、“折叠”、“不完全”“未编号”。其中某些可通过定义复合术语处理,如“折叠叶”或“未编号页”;其他不完整术语需进一步研究。Gordon再次志愿承担。
(4)《圣经》图书组:JSC已同意从OMR中删除这一词表,因为通过规范记录处理更好。现已从OMR中删除。
(5)单个或多个词表:有时一个词表有不同子集,如“静态图像数量”、“文本数量”。JSC表示倾向于将其处理为一个词表,在说明中冠以“文本数量”作为标记,而非作为正式元素的子类型。[如此对系统设计会增加复杂性,不方便根据不同类型资源选取词表──按Diane的看法,是不方便“为特定目的扩展元素词表”吧:本来可以增加一个新的词表,这样就变成维护原有词表了]
(6)“顶层内容”:某些词表分散为各有抬头的部分,如“载体类型”词表分成“音频载体”、“计算机载体”等,这些是上位术语,但其本身非有效术语。JSC认为没有理由不将这些作为有效术语。[Diane的“载体类型”词表中有这些上位术语,但不知道为什么2012年1月批准出版时,这些上位术语未获批准,目前仍为“新提出”而非“出版”状态]

2、6JSC/ALA Rep/5: References in the RDA Glossary and the RDA namespace

3、6JSC/CILIP Rep/1: Machine-actionability and interoperability of RDA value vocabularies
CILIP代表提出对RDA取值词表的机器可操作与互操作的五个建议:
(1)定义需与范围注释分离:JSC同意。CILIP将开发一个建议,更正现有问题。[目前只有“定义”,没有“范围注释”]
(2)更新内容类型、媒介类型和载体类型词表与RDA/ONIX框架间关系的文件。JSC同意。将由Gordon和John准备文件。
(3)在OMR中开发一个RDA/ONIX框架的RDF表达,如此其他词表可映射到它:JSC同意。RDA/ONIX组会获取一个命名空间,Gordon将创建并出版词表。
(4)分析扩展RDA使用RDA/ONIX框架的可能性。Gordon承担。[RDA/ONIX框架的内容比RDA的最终采用的内容/媒介/载体类型丰富且灵活,不明白当初是如何做决定的]
(5)创建RDA/ONIX框架的管理开发组。Alan Danskin正与ONIX方面联系,将建立这样一个小组。

4、6JSC/CILIP Rep/2: RDF representation of RDA relationship designators
CILIP代表就RDA关系指示词的RDF表达问题,提出11项建议。
OMR重要问题之一是,关系指示词是作为元素集(RDF属性),还是作为取值词表[目前是作为元素集]。
(1)让名称所用URI一致且含RDA品牌。JSC同意。 [不明]
(2) 以RDF属性表达关系指示词。JSC同意。 [保持不变。不过建议11又同意同时作为取值词表中的概念]
(3)增加“代理”(Agent)作为超级集合指代个人、家族和团体。JSC同意。 [FRBR Entities for RDA中,有agent作为类,个人、家族和团体为其子类。但关系指示词中没有]
(4)从元素集中移除冗余非限定属性,为此,需要定义非限定属性。[针对不限用于FRBR实体的属性]
(5)将非限定元素移至独立注册,保留限定元素在RDvocab命名空间。JSC决定要这样作,且限定和非限定元素集均应视为JSC承认的RDA内容。ALA出版社将为非强制元素集获取命名空间。[保持元素集的简洁。强调“非限定元素集……应视为JSC承认的RDA内容”,保存了Diane Hillmann想让RDA成为大伞的设想]
(6)一旦非限定元素集移至独立命名空间,删除只用于区别非限定与限定元素的WEMI限定词,保留需用于区别两个或多个限定元素的限定词。Gordon将承担。[简化,却不能一目了然了]
(7)开发与注册反向属性。[IFLA注册的FR系列也无]
(8)改变关系指示词属性标签为动词短语,如:有作者/是作者 [现为名词词组。IFLA注册的FR系列,对属性采用动词短语]
(9)改变元素标签为动词短语,如:有载体类型 [与上类似]
(10)不用RDF“类”表达关系指示词。JSC同意。[目前为“属性”]
(11)除表达关系指示词为属性(建议2)外,也作为取值词表中的概念。JSC同意这样做也许有用,但是要求Gordon准备一份处理建议7,8,9和11的讨论稿。[同时作为元素集和取值词表的原因、目的何在?]

via Resource Description and Access: ALA Rep notes
Report of the Meeting of the Joint Steering Committee, 6 November 2012
By JOHN ATTIG on November 6, 2012 10:31

参见:Diane谈RDA元数据注册的设计(2012年11月18日)

[update 2012-12-6] 官方消息发布:Outcomes of the 2012 JSC Meeting, Held in Chicago, USA, November 5-9, 2012

Diane谈RDA元数据注册的设计

前些天看到Diane Hillmann今年5月在某个“元数据日”会上的PPT《元数据新世界:成长、转变、合并》(76页),细细地看了几遍。

报告前半部分是理念,提供了对图书馆书目元数据的地位、作用等不同以往普遍认可的认识。比如:“今天的元数据不是选择格式,而是确保数据的互操作和融和”(p.19)。又比如:“用户不再以访问实体图书馆作为其主要信息源,而是在联接到全球计算机网络时寻找与创造信息。图书馆需要回应的改变,必须包括转换图书馆公共目录,从书目记录的独立数据库,到高度超链接的数据集,可以与万维网上的信息资源交互。然后图书馆数据可被集成到用户的虚拟工作空间。”(引用Karen Coyle, Understanding the Semantic Web: Bibliographic Data and Metadata, Jan. 2010)
再如关于数据质量:“质量不取决于特定创建策略;人工创建元数据可能是相当可变的;机器创建元数据更一致,但一致不一定正确”(p.43)。“质量测量准则:完整、准确、出处、符合预期、逻辑一致和一贯、时间性(及时和滞后)、可获得性”(p.44)。

报告的后半部分与RDA元素集和取值词表的注册有关。Diane说,“标准在哪儿开发,得到谁支持,对其成功至关重要”(p.47),不单是有感而发,更是对RDA注册现状的一种无奈吧。RDA发布二年,RDA注册的6个元素集一个都未得到批准,近70个取值词表出版的也不过十多个。在这些年多个国家图书馆发布关联书目数据的浪潮中,RDA注册没有在其中获得一席之地,在Diane看来JSC的不作为难辞其咎吧(参见:那是一片丛林)。

看报告最大收获是初步了解了都柏林核心抽象模型(DCAM)、应用纲要与RDA注册的关系,也看到了RDA注册的设计思想。
RDA注册的设计部分,一开始看得不甚明了。这两天在开放元数据注册(OMR)上,对照IFLA的FR系列注册,仔细地看了,基本上看明白了。[以下方括号部分为本人理解,结合11月初JSC会议对修订RDA注册的讨论(链接见后)]

– 结构(p.50)
— RDA的FRBR词表[实体]声明为“类”(class)[元素集]
— 属性声明为“通用”词表,与FRBR实体没有明确关系 [IFLA没有注册这部分,其词表只是用户任务]
— 通用元素的子属性可与FRBR实体明确关联(采用“领域”(domain))[元素集中的元素(属性/子属性),部分有domain(目前来说,通常标签中含FR实体如WEMI等“类”,未来JSC修改可能会去掉)]
— 标签/名称包括(作品)或其他类,提供唯一的名称(除非实体名已经在属性名称中出现)[部分名称中或括号中有FR实体如WEMI等“类”]
— 其他通用子属性可用于其他,不系于FRBR [未限定用于特定FR实体(类),这是Diane为RDA元素集得到更广泛使用而做的设计,见下。JSC称为unconstrained properties]
[说明:RDA注册分为“元素集”与“词表”两部分,前者包括实体、属性与关系(及关系取值),后者是部分属性的取值词表。]

– 为什么采用通用属性(p.51)[即未限定用于特定FR实体(类),p.52-74有详细举例说明]
— 通用属性对于将RDA关联到更大世界是基本的
— 使用通用属性,映射更清晰(因为大部分属性的映射不基于FRBR)
— 由通用属性扩展更有用
— 通用属性对非图书馆实施者更可接受(不常用FRBR)[实际上图书馆也没有普遍开始使用,这等于否定了FR模型?]
[说明:RDA基于FRBR,所有属性都对应某个FR实体(同样的属性,如对应不同实体,则用限定说明)]

– Roles: Attributes or Properties? 职能词:属性或属性 [译不出差别,只能上原文了](p.59)
— 2005年,DC使用小组与LC合作,建立MARC关系词的正式表达,以使这些术语能用于DC
— 这一工作提供了模板,用于注册RDA中的职能术语(附录I),并扩展到其他RDA关系 [或者说,RDA附录I基于当年DC与LC的工作]
— 职能词与关系属性,与元素在同一层次上注册,而非作为属性(如同MARC对其关系词,RDA在其XML规范)
[说明:RDA注册中,职能词和WEMI关系均注册为“元素集”,而非“词表”,这也是一个争议点。从JSC会议看,基本认可,但Gordon又想同时作为词表,理由不详]

– 集合项(p.62)
— RDA设置了出版、发行、制作、生产项,就是目录卡片时代的做法
— 假定集合地点、名称和日期,明显残存自目录卡片,如果图书馆想要的话,不一定能够一同索引或显示这些元素
— 我们视这些集合为“语法编码方案”(如同DC抽象模型定义的),用有界属性的方式处理
— 采用通用属性的(通常在图书馆外)[即未限定用于特定FR实体(类)],不需要受这些传统属性集合的约束
[说明:在第1组实体中,集合项定义为“类”或“子类”而非“属性”。目前有9个,不限于出版发行。其中8个为子类:出版项、发行项、制造项、生产项、抓取地点和时间、学位论文信息、版本项、丛编项,上位“类”为RDA Syntax Encoding Scheme(其又属于RDF数据类型的子类);另一个为“类”:地图图像表示类。这是一种先组方式(p.63-64)]

最后部分,Diane分析了其设计的优点及未来的可能性:
– 这种结构意味着什么(p.65)
— 从严格的记录中释放
— 用于不同编码的潜力
— 更细粒度水平上维护语句的能力
— 在图书馆之外共享数据的潜力
— 两个方向 [指从外界来、到外界去吧]
— 挑战图书馆数据可以做什么、应该做什么的旧概念
— 随着用户升级到网络,远离图书馆目录,我们需要跟随他们(并适当引导他们)[仍不忘图书馆员的理想]

– 瓦解和扩展(p.67)
— 我们开始想象,元素和概念[取值词表]的映射与校准会如何提供方案间更清晰的路径
— 特定资料的更多特异性,可通过为特定目的扩展元素词表来实现 [当指,比如为不同类型资源的Extent设置不同的词表,而不是一个词表──而JSC会议上正是决定要合并?]
— 当我们建立这些映射,我们可以提供数据的不同视图,而不必改变数据值本身 [取不同的数据,按不同方式组合,更灵活。在RDA-L上看到德国国家图书馆接受JSC对多部分资源按首期还是末期部分修订的设想,也是这种考虑]

– 词表扩展(p.71)
— 包括无约束属性[不限于FRBR实体],提供了把RDA扩展到专业图书馆界与非图书馆界的途径
— 对于FRBR如何“集合”,可能有不同见解(例如,电影的彩色版可能视为一部独立作品[而非不同内容表达])
— 他们可能根本不希望采用FRBR
— 他们可能使用附加的属性,可以与RDA属性建立关系 [如RDA完全限于FRBR实体,就难于与之关联──影响RDA本身的扩展性,或者说与其他元数据方案的互操作性]

Diane说,“RDA仍是进展中工作,对其维护、边界等没有取得一致”(p.49)。从11月初JSC会议看,在Gordon Dunsire加入后,JSC现在已经开始全面维护工作,会上基本确定了修订原则,全部批准RDA注册已是看得到前景的了。只是这种修订,或许未必完全符合Diane的设想。

———-报告下载(有墙)———-
New World of Metadata: Growing, Shifting, Merging / by Diane I. Hillmann on May 09, 2012
Presentation for Metadata Day in Worcester, Mass. Focus is on new developments in the metadata world that affect all metadata implementors, but particularly those in the bibliographic domain.

———-关于OMR注册———-
RDA注册第一批词汇表出版(2011年8月2日)
RDA注册词汇表:内容、媒介、载体类型出版(2012年1月27日)
FRBR系列元素集与取值词表出版(2012年5月27日)

Resource Description and Access: ALA Rep notes: Report of the Meeting of the Joint Steering Committee, 6 November 2012 / JOHN ATTIG on November 6, 2012 10:31
JSC会议有关RDA注册的讨论与决定(2012年11月18日)