MARC之后的三个方案及其优缺点

ALA技术源前些天也刚举办了一个关联数据研讨班,Karen Coyle主讲:
Libraries and Linked Data: Looking to the Future
图书馆与关联数据:展望未来

PPT共3个,已由ALA TechSource发到slideshare(可恶的是slideshare近日竟然也被墙):

1. One short intro to linked data
关联数据简介
2. After MARC: Options, New bibliographic framework
MARC之后的选项,新书目框架
3. Tools for LLD: vocabularies, linking, and application programming
图书馆关联数据工具:取值词表、链接及应用

———-MARC之后的选项———-
这部分是重点,总结MARC之后的三个方案,并分析各自的优缺点。
由RDA的三个实施方案(scenarios,p.4-7,扁平无链接、书目和规范链接、关系/面向对象),引入Karen的新书目框架三个方案(序列化、抽取、原生,p.8)。

方案3、序列化(Serialize, p.9-21):直接把MARC转为RDF格式
优点:机械的;不改变数据;无需改变系统
缺点:不改变数据;图书馆数据留在图书馆孤岛中;不链接到图书馆外部数据

方案2、抽取(Extract, p.22-37):从MARC记录库中抽取数据
举已发布为关联数据的三个例子:不列颠图书馆(BL,p.25-29),西班牙国家图书馆(BNE,p.30-35),OCLC(p.36)。
优点:无需改变图书馆系统;可在了解更多后重复抽取;编目员不可见
缺点:编目员不可见,因此没有人工质量控制(QC);关键标识不是基元数据的一部分;受当前记录内容限制
[不知道为什么我的Chrome浏览器在BNE网站看不到可视化展示]

方案1、原生(go native, p.38-39)
(1)things,元素和值都有URI
(2)存储things和关系的数据设计
(3)创建界面对创建者隐藏这些,但保持数据完整
优点:与Web资源互操作;与RDA的目的互通;图书馆目录有更丰富的可能,用户无需在图书馆和Web间选择信息源
缺点:需要替换图书馆系统;难于论证成本/效益
[目前LC的书目框架转换行动显然属于方案1──参见:LC正式启动以关联数据取代MARC (2012年5月26日)]

———-Links for Linked Data———-
PPT中涉及的链接,在Karen自己的网站上分门别类列出,很好的参考源。包括:
关联数据──概述
书目元数据元素(非图书馆)
其他元数据元素
图书馆关联数据
·图书馆标准数据集 Library Standard Data Elements
RDA Vocabularies and Elements
FRBR (FRBRer)
ISBD
FRAD
MADS in RDF
[很抱歉自己在上图关联数据会议上遗漏了最后那个──幸亏unconference时远洋师在回答国图MM关于发布规范档的关联数据问题时,做了推荐]
·取值词表
·图书馆和其他书目数据集
·开放元数据注册 Open Metadata Registry
软件和工具
关联数据组织与活动
关联数据实例
·数据库(开放图书馆、Freebase)
·样本数据(DCMI/RDA工作组的RDA使用案例:Cataloger Scenarios)[update 2015-8-26链接改为:http://wiki.dublincore.org/index.php/Cataloger_Scenarios,已没有龟标及RDF/XML格式的RDF表达]
提供10种场景,帮助编目员了解如何使用RDA取值词表、处理FRBR关系。链接到场景元数据的RDF表达,有龟标格式和RDF/XML格式。
·开放图书馆 Open Library
·开放研究在线 Open Research Online
·虚拟国际规范档 VIAF
·DBPedia
·Freebase
推荐阅读

[update 2012-7-24] Karen本人的博文
Coyle’s InFormation: Futures and Options(有墙)

上图关联数据技术与应用研讨班参加记

2012年7月20-22日,在上海图书馆举办了“从文献编目到知识编码:关联数据技术与应用”专题研讨班。
本次研讨班与会者120多人,不乏如来自中信所、国科图的关联数据高手,也有业内资深专家,还包括如北大、深大馆长(想起十多天前在北京的RDA培训,也曾遇到深大馆长)──当然这些馆长本身也是专家。NSTL的超级科技词表STKOS项目组来了19位(来自不同单位),深大、厦大、国图、深圳职业技术学院等也都有多人参加(非会议官方信息,仅就本人接触得知)。

从研讨班日程可以看到,会议内容涉及了关联数据从理论与基本知识,到发布与消费的方方面面──平台和工具(如查询语言、可视化软件),案例及可用资源,知识产权等。
我的题目是《RDA的实施与本地化》(Slideshare,目前被墙),感觉与会议主题不是很搭,得到K师、夏MM及远洋师的启发与帮助,也仔细看了与会者提问集锦,尽可能使内容有针对性,侧重RDA元素集及词汇表的注册,也涉及MARC、ISBD、FR系列元数据注册,在远洋师的提示下,在开讲前加上了WorldCat关联数据所用schema.org的图书馆扩展。这些在设计关联书目数据时,都是重要的备选项。

———-用关联数据做什么(一家之言)———-
自己对关联数据本身所知不多,一直觉得发布关联书目数据应该是国家图书馆、大型联合目录的事,一般图书馆没有什么必要。不过前些天为某刊审一篇稿,是用本体加关联数据解决单个图书馆中各种异构资源silo问题的,发现自己的想法或许并不正确。今天曾蕾老师的“联合仓储数据做成可关联元数据的方法及案例”中有一个近似的例子,不过LODE-BD项目联合的是性质相同的书目数据。对于有百万以上书目数据、加上其他复杂资源的图书馆,这件事过于宏大,只能待技术成熟,至少有最佳实践后再考虑。

于是兴趣点就在除发布书目数据外,一般图书馆还能用关联数据做些什么事情。首先自然是消费,将关联数据mashup到OPAC等(具体内容及方式待探索),会议的收获是了解了更多的消费内容与方式(包括可视化)。
另外在听会中,了解到关联数据在揭示关系方面的功能,忽然悟到,除了单纯的发布和消费外,或许更有意思的是“发布+消费”方式,即以关联数据形式发布特色数据,进而揭示出隐藏的关系,乃至以可视化方式展示。想到学位论文数据库就是个很好的数据源,可以由元数据中的导师信息,揭示出师承关系──硕导、博导、同门等等。

———-会议照片———-
会议办得相当用心。会议注册时设计了提问,了解与会者的需求;会议PPT及相关资料在报到时随U盘发送;最后阶段的unconference,不知道是不是首次引入国内图书馆界?

[update 2012-7-23] 上图搭建利用RelFinder可视化展现关系的平台:

http://lod.library.sh.cn/relfinder/(点击看毛泽东和林彪的关系图

还有:


第一次收到专为会议制作的杯子:关联数据的五星排行。拿着天天喝茶,让关联数据深深地印入头脑中。


雨师席地而坐,时刻准备着为夏MM做助教──会场两个显示屏,一个放PPT,另一个用来实时访问网站做演示。

另外为会上分发了为60周年馆庆制作的《上海市中心图书馆一卡通分布图册》,印有各馆基本信息的二维码,提供的链接是发布为关联数据的各中心图书馆页面(访问网址:http://data.libnet.sh.cn:8080/)。再次体会到上图那种遵循标准的素质,比如采用vcard格式,而不是自定义的。

(图片来自CHUX的新浪微博)

———-会议资料链接———-

研讨班日程安排(将链接最终版PPT)
FOAF制作指南
关联数据讨论组邮件列表:(lldchina@groups.163.com)刚建立,欢迎所有感兴趣者加入

ISBN-A:ISBN官方URI

在佛罗伦萨上月举行的“全球图书馆互操作和关联数据会议”(Global Interoperability and Linked Data in Libraries Seminar)上,Karen Coyle向国际ISBN机构代表询问为ISBN创建官方URI的事,被告知已经有了,名为ISBN-A,用的是DOI命名空间。

ISBN-A,即可操作ISBN(“the actionable ISBN”),采用13位ISBN形式。语法:
DOI前缀(10).ISBN前缀(978或979).ISBN注册组元素和出版社前缀(2-8位)/顺序号(最多6位)和校验位(1位)
如:10.978.12345/99990
(对应的ISBN-13为:978-1-2345-9999-0,校验位不变)

Karen困惑于这个“/”,质疑其是否实用。
在CNMARC记录中的ISBN是包含“-”的,但在MARC21记录中,ISBN10位或13位是连写的,并无“-”区分。不过要在ISBN中截出前后两部分,也是有规律的。
对ISBN机构来说,“/”前的部分是其指定的,代表了组标识(国家地区代码)和出版社,是重要的信息,需要与出版社自己给的顺序号作出区分。

Karen提出的另一个问题是:有了标准ISBN-A的URI格式,是不是就可以不要如bibo:ISBN这样单独的属性,而直接用该URI格式标识,比如如下的例子:

< bookURI> < RDVocab:hasManifestationIdentifier> < http://10.978.14000/96237>

via Coyle’s InFormation: ISSN as URI(有墙)

关于ISBN,参见:
ISBN国家地区代码表(2006年2月16日)
ISBN-13正式登场(2005年3月4日)