图书馆从传统数据观走向关联数据及语义网:五周年

上月在不列颠图书馆举办了名为“五年来”的研讨会,纪念为RDA走出20世纪而举办的“数据模型会议”(伦敦会议)五周年。会议网站上的介绍:
Seminar: Five Years On. British Library, April 26-27, 2012

2007年4月在不列颠图书馆举办了“数据模型会议”,与会者关心RDA《资源描述与检索》与其他元数据界(尤其是语义网环境中)所用模型的契合。此次会议通称“伦敦会议”,是图书馆由传统数据观转轨至关联数据及语义网的关键点。今年4月正好五周年。
DCMI英国联合DCMI国际及其他机构,于2012年4月27日主办为期一天的研讨会,描述自2007年来的进展以资纪念并展望未来的进一步协作。
与会者包括2007年与会者,及其他图书馆数据及语义网界的重要人物,论文由DCMI出版并免费在线发布。
伦敦会议极大促进了主要国际书目元数据模型的语义网表达的发展,除RDA本身外,还包括IFLA的功能需求系列和国际标准书目著录(ISBD)以及MARC。现在关注点集中在本活动的管理与可持续性,以及开发支持图书馆应用的高水平语义与数据结构。

———-会议报告———-

会议报告在网站上可以下载PDF版。报告人阵容强大、内容丰富且专深,以至部分超出我的理解能力。每个报告引用或总结一句话,概述我的感受(而非理解)。
√ RDA编制方JSC代表Barbara Tillett:背景与概述
简介2007年会议背景,总结因会议而成为现实的RDA元素词表注册历程
√ RDA词表注册主持人、DCMI/RDA工作组共同主席
1、Diane Hillmann:由建立RDA词表学到的
注册RDA词汇时面临的问题及采取的做法,关于XML和RDF的差别,……(不易理解,待细看)
2、Gordon Dunsire:(泰瑞)龟的梦想
纯漫画界面,梦想用一个三元组统治MARC21/RDA/FRBRer/DCT/ISBD/DCMI?(没有解说不易理解)[update 2012-8-10,或借用泰瑞龟指龟标Turtle -Terse RDF Triple Language]
√ IFLA代表Pat Riva和Mirna Willer:以RDF表达IFLA的ISBD和FRBR系列概念模型
ISBD和FRBR模型元素集命名域和取值词表已出版,并且由de-referencing服务提供利用。
√ 三个语义网应用实例:
1、剑桥大学:剑桥开放元数据项目(COMET) / by Edmund Chamberlain
印象特别深的一点:在开放自己数据的同时,用外部数据改善、强化自己的数据。[本地系统的MARC数据,不能用编程的方法更新,要改错可真是不容易]
2、不列颠图书馆:从标签到三元组:英国国家书目作为关联开放数据 / by Alan Danskin
报告中的数据与结论:2011年7月上线,每月处理2百万会话,说明权威网站提供有用数据是能得到利用的
3、Europeana数据模型 / by Robina Clayphan
Europeana数据收割自图书馆、博物馆、档案馆及音像库的数据,并用其他外部数据强化。
√ DCMI代表Tom Baker:五年过去了,下一步
展望未来五年,并介绍了前一日成立的二个小组:DCMI词表管理社区和书目元数据工作组──后者原为DCMI/RDA工作组。

———-乱弹———-
会议网站对上述报告均做了简介,除了二位RDA词表注册主持人,是一段相同的带小八卦的工作介绍:2007年会议第一天二人在不列颠图书馆的帕尼兹屋首遇,由于已消失在时间迷雾中的原因(For reasons lost in the mists of time),他们被指定为DCMI/RDA工作组共同主席,负责开发RDA词表等工作(JSC致力于条款文本)。由此工作组着手在开放元数据注册(OMR)中建立这些词表。Gordon继续以类似方式帮助建立IFLA标准词表[IFLA命名域],并与OMR团队合作把RDF版本MARC21加入OMR。──之前在自己的PPT中曾多次引用Gordon的内容,这下总算对他有了更多了解。

会议报告虽然看得懵懵懂懂,但有一个感觉应该不会错,即与会者均认为XML已经过时,RDF才是方向。现在已经有了不少实实在在的应用。

最后,剑桥PPT的总结发人深省:如果我们不能学会分享,没人再会跟我们玩了
No-one will want to play with us if we cannot learn to share (p.30)

via Metadata Matters: Using the sub-property ladder / by Gordon Dunsire (May 13, 2012)
该博客由Diane Hillmann和Gordon Dunsire等合写,后者近段日子连发语义网相关博文,很难看懂
[update 2012-8-10: Diane博文BABIES, BATHWATER, AND OLD BROADS (2012-8-5)谈到伦敦会议:2006年时RDA遥遥无期,CC:DA打算向JSC提出不信任案。Diane在墨西哥举行的DC-2006上将草案给ALA出版社的Don Chatham看后,几个人一起讨论JSC与DCMI合作的可能性,之后才有伦敦会议。(查了下,DC-2006召开于10月初)]

伦敦会议网站:Data Model Meeting. British Library, London 30 April – 1 May 2007

IFLA语义网兴趣小组:Semantic Web Special Interest Group
属于信息技术部,2012年1月建立?

虚拟国际规范档数据集以ODC-By许可提供

虚拟国际规范档(VIAF)4月初成为OCLC的一项服务后,OCLC首席科学家Thomas B. Hickey在其博客Outgoing连续发布多项围绕VIAF的消息。此前博主已经有9个月未发博文,而在9个月前相当长一段时间的博文,也几乎都是关于VIAF的。要了解VIAF发展的历程,不可不看其博客。
本文标题就是其最新发布的消息:
VIAF Dataset (May 04, 2012)
VIAF数据集以ODC-By(开放数据共用-标示名称)许可提供,不影响其他以CC0(创作共用-公共域)许可发布的数据采用VIAF标识符,因为所用VIAF的URI即被视为致谢(By)。
鉴于VIAF的巨大数据量,其URI无疑会成为关联数据中的重要资源。
BTW,哈佛大学图书馆于4月22日发布其1200万条书目记录供下载,采用CC0协议,并得到OCLC认可(其中无疑有不少来自WorldCat的记录)。
via hangingtogether.org: Harvard bibliographic data released with prominent nod to OCLC (April 24th, 2012)

Uniform Titles in VIAF (April 23, 2012)
VIAF中加入统一题名,使得其规范记录的类型包括:个人名称、团体名称、地理名称(仅行政区名)和统一题名。

xA (April 16, 2012)
参见:xA:OCLC扩展虚拟国际规范档 (2012年4月18日)

VIAF Developments (April 09, 2012)
预告在2012年4月以ODC-by发布VIAF数据(看来滞后了几日)。为实现关联数据友好,数据描述以VoID(相互关联数据集词表)文档出版,并给出测试页。

参见:虚拟国际规范档移交OCLC (2012年4月5日)

对FRBR用户任务的质疑

Karen Coyle在RDA-L邮件组中指出,FRBR用户任务并未涵盖用户信息查寻活动,比如下述情况:
· 我在看维基百科某条目,其中有一些引用,图书馆中有这些文献吗?
· 我在做X领域的研究,但是本专题的新手。我应该从哪里开始。
· 本主题最流行的图书是什么?
· 我能否与我的工作团队分享这些文献?
· 我是不是已经检索过这个文献?
· 什么文献引用了此文献,哪部文献可以得到数字化版本?
她认为这些是图书馆应该能够回答的活生生的用户问题,图书馆目录应当能够提供这些答案。如果FRBR没有涵盖,那么就需要一种方法来扩展FRBR的用户任务。对她来说,FRBR中的那些任务局限在“用户带着作者、题名或主题来查图书馆目录”,而这不是当今人们寻找或遭遇信息的主要途径。

无独有偶,正好前一天,J. Rochkind在其博文“关联数据世界中对FRBR的另一辩护”(Yet Another Defense of FRBR in a Linked Data World, 2012-2-15)中,在整体上赞赏WEMI模型(本体)是关联数据应用的关键而非麻烦之余,也对其用户任务提出了质疑。他认为书目世界及用户环境相当复杂,FRBR所基于的“用户任务”或“需求”很可能是失败的。

———-用户任务图———-
Karen Coyle在前述讨论中提及的用户任务图,来自某梅隆基金资助的信息相关行为研究。她希望在与图书馆服务相关的研究中也能有这类分析:

本原Primitives=》行为Behaviors=》服务Services
四种本原(每种对应若干行为,每种行为对应若干服务):
发现Discover
收集Gather
创作Create
分享Share
相比上述四项,FRBR的四项用户任务(查找find、识别identify、选择select、获取acquire/obtain access)局限于图书馆资源本身,而没有贯穿用户的整个信息行为。在分享成为用户发现一个途径的今天(更全面的,如图四项互有重叠),完成于15年前的FRBR的用户任务确实是落伍了。

Via Re: [RDA-L] RDA as the collaboratively created way forward[?]; was Is RDA the Only Way? An Alternative Option Through International Cooperation / Karen Coyle, 2/16/2012

参见Nalsi的书社会博文:RDA是唯一的一条路么?(2012-02-17)
谈及RDA-L中上述论题的发起者James Weinheimer的观点:“人们真实的需求是不是符合FRBR模型所定义的任务?【对我而言,用户任务是一个巨大的myth】”(括号中为Nalsi注释)。
另外,日志最后引Karen Coyle的观点:问题并不是“RDA是不是唯一的”,而是“编目是不是唯一的”。当然她的答案是:不是。在这个问题上,我是很同意她的。(最后一句同样是Nalsi的)

另见Nalsi的书社会日志:ZF What FRBR is not (2012-02-19)
FRBR是一种概念模型,但是不是数据/记录模型