2012中国图书馆年会:PPT分享&随感

因为被要求在信息组织分会场做一个报告,所以第一次参加了中国图书馆年会。由于自闭的缘故,通常参会都是老老实实吃会议餐,此次由于各种缘故,受到各路地主盛情招待,各种交流,无以言谢。
自己的PPT是按《数字图书馆论坛》今年第9期上的同名文章准备的。飞机上昏昏然中,感觉做成PPT后反而不如原来的文章顺。资料都在快盘里存着,到东莞后从云中取出,做了修改。报告前晚,忽又灵光一现,《资源描述与检索》实施的三个层次,不正好是馆员用(作为内容标准)、读者用(FRBR呈现)和机器用(关联数据)吗?便把这个想法加到PPT里了。
现PPT已上传至slideshare:RDA实施前景分析(有墙)──老K说,翻墙是图书馆员的基本功,话说这基本功还真不好掌握,经常被弄得无可奈何的。
———-参会随感———-
第一天下午报到后,一个人去市内的可园游览,得知因中国图书馆年会,免票五天。政府主办,到底不一样。明年将由上海浦东新区主办,不知会是什么模样。
会议据说有注册代表近二千人,还听到有不少磳会的。除了开闭幕式在一个会场,一天半中有三十多个分会场,人来人往,能碰上并聊几句,完全靠缘份。对我来说,最感不安的是面对未曾写下的姓名+不熟悉的脸,可能见过多次仍记不住,不是我有眼无珠,而是能力所限。在首次交流相对较多的场合,有几次用evernote hello(人脉)做了若干记录,希望能有所弥补──要求给对方拍照时,总觉得过于突兀,所以也只能偶尔为之。
年会由学会年会和展览会组成。学会年会主要是各种学术报告,将另文述及[update 2012-11-25:2012中国图书馆年会:听报告]。
展览会中,未成年人展区的现场活动很热闹,古籍保护展区也不错。各家图书馆的展台也是争奇斗艳。
厂商方面,最多的就是RFID和扫描仪了──也许是我的关注度问题。尤其是RFID,感觉有不下十家,一般做就是大单子吧,已然红海
今天上午去东莞图书馆,带着馆里的任务,主要向叶少青MM详细了解24小时自助图书馆(见其在《数字图书馆论坛》2012年第1/2期上发表的文章),东莞已有20家,应当是比较成熟的了。之后在杜馆长带领下参观了全馆。动漫馆布置太漂亮了,喜欢动漫的人一定会喜欢的 。还有衣食住行等多个主题馆。发现主题馆中的图书中图法各个大类都有,便问馆藏如何确定的?杜馆长说主要由主题馆的员工提出要求,采编也会推荐,据说主题馆员工比采访更了解动向——在高校馆,这不就是学科馆员吗?

JSC会议有关RDA注册的讨论与决定

RDA元数据注册,至今6个元素集全都未得到批准、近70个取值词表出版的也不过十多个。当年的注册主持人Diane Hillmann已经不参与此事。从RDA注册的元素集、词表的历史记录看,2011年以来,主要是JSC的ALA代表John Attig在维护,Gordon Dunsire也偶有参与。Gordon目前是JSC的英国协会CILIP代表,是IFLA的FR系列及ISBD元素集的注册者,熟悉该领域;同时他与Diane关系密切,还在Metadata Matters博客上一同写博,应该与她有很好的沟通,也了解她的设计。由他参与完成RDA注册的最终出版,应该说是个相当合适的人选。
2012年11月5-8日举办了今年的JSC会议,6日讨论了不少与RDA元素集、取值词表的开放元数据注册相关的问题,几个讨论文件分别由John和Gordon提出。Gordon未能到场,但远程虚拟参会,还将承担很多后续工作。记得JSC曾经表示RDA注册要在2012年底前全部出版,目前来看应该来不及,但行动已经开始加速。

相关讨论文件如下。有些建议注明JSC同意,有些未注明,或表明尚无定论。[以下方括号部分为个人看法]

1、6JSC/ALA Rep/4: RDA vocabularies: Miscellaneous issues
ALA代表就“开放元数据注册”(OMR)上出版RDA词表问题所列清单,讨论结果:
(1)术语的单复数:JSC同意应采用单数形式。现有复数形式在词表出版前删除。
(2)RDA有条款要求使用不同词表中术语,如“数量”使用“载体类型”词表。Gordon提出,这类重复可以在应用纲要中指明,将就此问题做进一步分析
(3)不完整术语:RDA某些指定术语不构成独立术语,如“约”、“折叠”、“不完全”“未编号”。其中某些可通过定义复合术语处理,如“折叠叶”或“未编号页”;其他不完整术语需进一步研究。Gordon再次志愿承担。
(4)《圣经》图书组:JSC已同意从OMR中删除这一词表,因为通过规范记录处理更好。现已从OMR中删除。
(5)单个或多个词表:有时一个词表有不同子集,如“静态图像数量”、“文本数量”。JSC表示倾向于将其处理为一个词表,在说明中冠以“文本数量”作为标记,而非作为正式元素的子类型。[如此对系统设计会增加复杂性,不方便根据不同类型资源选取词表──按Diane的看法,是不方便“为特定目的扩展元素词表”吧:本来可以增加一个新的词表,这样就变成维护原有词表了]
(6)“顶层内容”:某些词表分散为各有抬头的部分,如“载体类型”词表分成“音频载体”、“计算机载体”等,这些是上位术语,但其本身非有效术语。JSC认为没有理由不将这些作为有效术语。[Diane的“载体类型”词表中有这些上位术语,但不知道为什么2012年1月批准出版时,这些上位术语未获批准,目前仍为“新提出”而非“出版”状态]

2、6JSC/ALA Rep/5: References in the RDA Glossary and the RDA namespace

3、6JSC/CILIP Rep/1: Machine-actionability and interoperability of RDA value vocabularies
CILIP代表提出对RDA取值词表的机器可操作与互操作的五个建议:
(1)定义需与范围注释分离:JSC同意。CILIP将开发一个建议,更正现有问题。[目前只有“定义”,没有“范围注释”]
(2)更新内容类型、媒介类型和载体类型词表与RDA/ONIX框架间关系的文件。JSC同意。将由Gordon和John准备文件。
(3)在OMR中开发一个RDA/ONIX框架的RDF表达,如此其他词表可映射到它:JSC同意。RDA/ONIX组会获取一个命名空间,Gordon将创建并出版词表。
(4)分析扩展RDA使用RDA/ONIX框架的可能性。Gordon承担。[RDA/ONIX框架的内容比RDA的最终采用的内容/媒介/载体类型丰富且灵活,不明白当初是如何做决定的]
(5)创建RDA/ONIX框架的管理开发组。Alan Danskin正与ONIX方面联系,将建立这样一个小组。

4、6JSC/CILIP Rep/2: RDF representation of RDA relationship designators
CILIP代表就RDA关系指示词的RDF表达问题,提出11项建议。
OMR重要问题之一是,关系指示词是作为元素集(RDF属性),还是作为取值词表[目前是作为元素集]。
(1)让名称所用URI一致且含RDA品牌。JSC同意。 [不明]
(2) 以RDF属性表达关系指示词。JSC同意。 [保持不变。不过建议11又同意同时作为取值词表中的概念]
(3)增加“代理”(Agent)作为超级集合指代个人、家族和团体。JSC同意。 [FRBR Entities for RDA中,有agent作为类,个人、家族和团体为其子类。但关系指示词中没有]
(4)从元素集中移除冗余非限定属性,为此,需要定义非限定属性。[针对不限用于FRBR实体的属性]
(5)将非限定元素移至独立注册,保留限定元素在RDvocab命名空间。JSC决定要这样作,且限定和非限定元素集均应视为JSC承认的RDA内容。ALA出版社将为非强制元素集获取命名空间。[保持元素集的简洁。强调“非限定元素集……应视为JSC承认的RDA内容”,保存了Diane Hillmann想让RDA成为大伞的设想]
(6)一旦非限定元素集移至独立命名空间,删除只用于区别非限定与限定元素的WEMI限定词,保留需用于区别两个或多个限定元素的限定词。Gordon将承担。[简化,却不能一目了然了]
(7)开发与注册反向属性。[IFLA注册的FR系列也无]
(8)改变关系指示词属性标签为动词短语,如:有作者/是作者 [现为名词词组。IFLA注册的FR系列,对属性采用动词短语]
(9)改变元素标签为动词短语,如:有载体类型 [与上类似]
(10)不用RDF“类”表达关系指示词。JSC同意。[目前为“属性”]
(11)除表达关系指示词为属性(建议2)外,也作为取值词表中的概念。JSC同意这样做也许有用,但是要求Gordon准备一份处理建议7,8,9和11的讨论稿。[同时作为元素集和取值词表的原因、目的何在?]

via Resource Description and Access: ALA Rep notes
Report of the Meeting of the Joint Steering Committee, 6 November 2012
By JOHN ATTIG on November 6, 2012 10:31

参见:Diane谈RDA元数据注册的设计(2012年11月18日)

[update 2012-12-6] 官方消息发布:Outcomes of the 2012 JSC Meeting, Held in Chicago, USA, November 5-9, 2012

Diane谈RDA元数据注册的设计

前些天看到Diane Hillmann今年5月在某个“元数据日”会上的PPT《元数据新世界:成长、转变、合并》(76页),细细地看了几遍。

报告前半部分是理念,提供了对图书馆书目元数据的地位、作用等不同以往普遍认可的认识。比如:“今天的元数据不是选择格式,而是确保数据的互操作和融和”(p.19)。又比如:“用户不再以访问实体图书馆作为其主要信息源,而是在联接到全球计算机网络时寻找与创造信息。图书馆需要回应的改变,必须包括转换图书馆公共目录,从书目记录的独立数据库,到高度超链接的数据集,可以与万维网上的信息资源交互。然后图书馆数据可被集成到用户的虚拟工作空间。”(引用Karen Coyle, Understanding the Semantic Web: Bibliographic Data and Metadata, Jan. 2010)
再如关于数据质量:“质量不取决于特定创建策略;人工创建元数据可能是相当可变的;机器创建元数据更一致,但一致不一定正确”(p.43)。“质量测量准则:完整、准确、出处、符合预期、逻辑一致和一贯、时间性(及时和滞后)、可获得性”(p.44)。

报告的后半部分与RDA元素集和取值词表的注册有关。Diane说,“标准在哪儿开发,得到谁支持,对其成功至关重要”(p.47),不单是有感而发,更是对RDA注册现状的一种无奈吧。RDA发布二年,RDA注册的6个元素集一个都未得到批准,近70个取值词表出版的也不过十多个。在这些年多个国家图书馆发布关联书目数据的浪潮中,RDA注册没有在其中获得一席之地,在Diane看来JSC的不作为难辞其咎吧(参见:那是一片丛林)。

看报告最大收获是初步了解了都柏林核心抽象模型(DCAM)、应用纲要与RDA注册的关系,也看到了RDA注册的设计思想。
RDA注册的设计部分,一开始看得不甚明了。这两天在开放元数据注册(OMR)上,对照IFLA的FR系列注册,仔细地看了,基本上看明白了。[以下方括号部分为本人理解,结合11月初JSC会议对修订RDA注册的讨论(链接见后)]

– 结构(p.50)
— RDA的FRBR词表[实体]声明为“类”(class)[元素集]
— 属性声明为“通用”词表,与FRBR实体没有明确关系 [IFLA没有注册这部分,其词表只是用户任务]
— 通用元素的子属性可与FRBR实体明确关联(采用“领域”(domain))[元素集中的元素(属性/子属性),部分有domain(目前来说,通常标签中含FR实体如WEMI等“类”,未来JSC修改可能会去掉)]
— 标签/名称包括(作品)或其他类,提供唯一的名称(除非实体名已经在属性名称中出现)[部分名称中或括号中有FR实体如WEMI等“类”]
— 其他通用子属性可用于其他,不系于FRBR [未限定用于特定FR实体(类),这是Diane为RDA元素集得到更广泛使用而做的设计,见下。JSC称为unconstrained properties]
[说明:RDA注册分为“元素集”与“词表”两部分,前者包括实体、属性与关系(及关系取值),后者是部分属性的取值词表。]

– 为什么采用通用属性(p.51)[即未限定用于特定FR实体(类),p.52-74有详细举例说明]
— 通用属性对于将RDA关联到更大世界是基本的
— 使用通用属性,映射更清晰(因为大部分属性的映射不基于FRBR)
— 由通用属性扩展更有用
— 通用属性对非图书馆实施者更可接受(不常用FRBR)[实际上图书馆也没有普遍开始使用,这等于否定了FR模型?]
[说明:RDA基于FRBR,所有属性都对应某个FR实体(同样的属性,如对应不同实体,则用限定说明)]

– Roles: Attributes or Properties? 职能词:属性或属性 [译不出差别,只能上原文了](p.59)
— 2005年,DC使用小组与LC合作,建立MARC关系词的正式表达,以使这些术语能用于DC
— 这一工作提供了模板,用于注册RDA中的职能术语(附录I),并扩展到其他RDA关系 [或者说,RDA附录I基于当年DC与LC的工作]
— 职能词与关系属性,与元素在同一层次上注册,而非作为属性(如同MARC对其关系词,RDA在其XML规范)
[说明:RDA注册中,职能词和WEMI关系均注册为“元素集”,而非“词表”,这也是一个争议点。从JSC会议看,基本认可,但Gordon又想同时作为词表,理由不详]

– 集合项(p.62)
— RDA设置了出版、发行、制作、生产项,就是目录卡片时代的做法
— 假定集合地点、名称和日期,明显残存自目录卡片,如果图书馆想要的话,不一定能够一同索引或显示这些元素
— 我们视这些集合为“语法编码方案”(如同DC抽象模型定义的),用有界属性的方式处理
— 采用通用属性的(通常在图书馆外)[即未限定用于特定FR实体(类)],不需要受这些传统属性集合的约束
[说明:在第1组实体中,集合项定义为“类”或“子类”而非“属性”。目前有9个,不限于出版发行。其中8个为子类:出版项、发行项、制造项、生产项、抓取地点和时间、学位论文信息、版本项、丛编项,上位“类”为RDA Syntax Encoding Scheme(其又属于RDF数据类型的子类);另一个为“类”:地图图像表示类。这是一种先组方式(p.63-64)]

最后部分,Diane分析了其设计的优点及未来的可能性:
– 这种结构意味着什么(p.65)
— 从严格的记录中释放
— 用于不同编码的潜力
— 更细粒度水平上维护语句的能力
— 在图书馆之外共享数据的潜力
— 两个方向 [指从外界来、到外界去吧]
— 挑战图书馆数据可以做什么、应该做什么的旧概念
— 随着用户升级到网络,远离图书馆目录,我们需要跟随他们(并适当引导他们)[仍不忘图书馆员的理想]

– 瓦解和扩展(p.67)
— 我们开始想象,元素和概念[取值词表]的映射与校准会如何提供方案间更清晰的路径
— 特定资料的更多特异性,可通过为特定目的扩展元素词表来实现 [当指,比如为不同类型资源的Extent设置不同的词表,而不是一个词表──而JSC会议上正是决定要合并?]
— 当我们建立这些映射,我们可以提供数据的不同视图,而不必改变数据值本身 [取不同的数据,按不同方式组合,更灵活。在RDA-L上看到德国国家图书馆接受JSC对多部分资源按首期还是末期部分修订的设想,也是这种考虑]

– 词表扩展(p.71)
— 包括无约束属性[不限于FRBR实体],提供了把RDA扩展到专业图书馆界与非图书馆界的途径
— 对于FRBR如何“集合”,可能有不同见解(例如,电影的彩色版可能视为一部独立作品[而非不同内容表达])
— 他们可能根本不希望采用FRBR
— 他们可能使用附加的属性,可以与RDA属性建立关系 [如RDA完全限于FRBR实体,就难于与之关联──影响RDA本身的扩展性,或者说与其他元数据方案的互操作性]

Diane说,“RDA仍是进展中工作,对其维护、边界等没有取得一致”(p.49)。从11月初JSC会议看,在Gordon Dunsire加入后,JSC现在已经开始全面维护工作,会上基本确定了修订原则,全部批准RDA注册已是看得到前景的了。只是这种修订,或许未必完全符合Diane的设想。

———-报告下载(有墙)———-
New World of Metadata: Growing, Shifting, Merging / by Diane I. Hillmann on May 09, 2012
Presentation for Metadata Day in Worcester, Mass. Focus is on new developments in the metadata world that affect all metadata implementors, but particularly those in the bibliographic domain.

———-关于OMR注册———-
RDA注册第一批词汇表出版(2011年8月2日)
RDA注册词汇表:内容、媒介、载体类型出版(2012年1月27日)
FRBR系列元素集与取值词表出版(2012年5月27日)

Resource Description and Access: ALA Rep notes: Report of the Meeting of the Joint Steering Committee, 6 November 2012 / JOHN ATTIG on November 6, 2012 10:31
JSC会议有关RDA注册的讨论与决定(2012年11月18日)