OCLC推出实验分类服务Classify

    OCLC前些日子刚推出了针对LCSH、MeSH、TGM(图形资料叙词表)等的控制词表术语服务(Terminology Services),接着又推出了实验性分类服务(An experimental classification service),这是一项基于WorldCat数据挖掘的原型服务Classify,采用OCLC的FRBR作品集算法,提供作品的DDC、LCC及NLM分类号。
    从Classify检索入口,可以通过ISBN、ISSN、OCLC控制号、UPC(通用产品码)或者作者/题名进行检索。由于很多作品都有不同版本,所以分类号也可能呈现五花八门的情况。
    目前提供的信息有:
基本信息:题名、作者、体裁、版本、收藏馆数
分类信息(DDC、LCC、NLM):最常用分类号及收藏馆数,最新分类号及收藏馆数,最新分类法版本、分类号及收藏馆
分类号分布图:分为所有及DDC、LCC、NLM的分布
版本详细信息,包括题名、作者、语种、收藏馆数、MARC类名、分类号等

    其中最抢眼的是分类号分布图。同一种书,分类号大多数情况下差别不会太大,于是分类号分布饼图一般情况下就象游戏中那个张着大嘴吃豆子的小家伙。下面特意找了个有很多不同分类号的例子截图

    昨天看到时没觉得这个分类服务有什么用,今天看到David说这是个“快速、简单获取分类号的途径,而无须是OCLC成员”,方才想到原来WorldCat是不显示分类号的。David在一个专业馆工作,在美国很多小馆无钱参加OCLC,而查LC的命中率又不够高,如同我当初,千方百计、削尖脑袋找免费的数据来源。
    Classify提供最新分类号、分类法版本也是挺有用的,因为有可能反映了分类法的更新,常常新分类号更接近最新理解。看了几个例子,或许都不是医学方面的,没有见到NLM号。

   不管“有用”、“没用”,可以看到OCLC在如Lorcan Dempsey所说的那样,不断地"make data work hard"。难怪OCLC尽管属于图书馆行业,却已连续三年名列《计算机世界》最佳IT工作单位(Computerworld’s Best Places to Work in IT),并且排名从2007的第86位上升到了2008的第51位。

   另:在WorldCat.org查上图中的书“Stilwell and the American experience in China, 1911-45”,共14条,而且首条只显示10版本(而不是上图的15),可见WorldCat.org“版本”部分的FRBR化做得还不到家──10版本中没有包括检出的几个中文译本,即《史迪威与美国在中国的经验》《史迪威与美国在华经验》《蔣介石的外國高級參謀長 史迪威》。

参见:
Class numbers on works (July 09, 2008) from Lorcan Dempsey’s weblog
Classify from OCLC (July 10, 2008) from Catalogablog

《书目控制未来报告》(草案)解读

美国国会图书馆(LC)的书目控制未来工作组(http://www.loc.gov/bibliographic-future/)于11月30日发布了《书目控制未来报告》草案(PDF, 315KB)。这几天到杭州做CALIS联机合作编目中心的西文图书编目培训,每晚拿着打印件认真研读。之前Karen Coyle的直播报导基本反映了草案的内容,看文本另有一些感受。

文首没有一般报告的铺陈,可谓开宗明义,“书目控制未来将是合作的、去中心化的、国际范围的、基于WEB的。它的实现将出现在与私营机构的合作,与图书馆用户的积极协作。数据将从不同来源获取,变化将迅速出现,书目控制将是动态的而非静态的。”(p.1)

阅读时最强烈的感受是,文中处处表明,在书目控制领域,曾经制定并维护了众多标准、提供了大量高质量书目与规范记录的LC,已不想再做老大(alpha library)(“去中心化”),只想做一个普普通通的联合编目成员馆(“合作”)。LC强调,它并非国家图书馆,所以不应当承担国家图书馆的上述责任(p.3)。当然LC是一个负责任的机构,不会立马撒手不干,这是报告三大指导性原则之一“重新定义LC的作用”部分要说明的内容(p.9)。
比较受鼓舞的是,LC将在WEB平台上更多地开放其内容。

作为曾经的编目员,正做着细致的编目培训,感受最深的是三大指导原则之首“重新定义书目控制”中的这段话:“单一环境如图书馆目录中描述(著录)的一致性,与各种环境间进行连接的能力相比,正变得不那么重要:Amazon到WorldCat到Google到PubMed到Wikipedia,图书馆馆藏只是其中的一个节点。在今天的环境下,书目控制不能再被看作局限于图书馆目录。”(p.7)
报告似乎吹响了抛弃MARC的号角,3.1.1建议“开发一个更灵活可扩展的元数据载体”,兼容WEB技术与标准,不限于图书馆数据实践。而系统供应商也将开发能够接受不同格式元数据的产品。(p.22) 有一些不能理解的是,报告称图书馆的元数据环境太复杂,检索协议环境也很复杂(p.24),不说这些标准多由LC主导或参与,如果再开发一个,岂不更增加其复杂性?

有一帮FRBR的粉丝,之前看到直播报告后,对于报告草案中“重新认识FRBR”中的一些说法很是不满。看过报告,发现其实LC还是很认可FRBR的,希望应用不限于“作品级”,并能够真正实用(p.28-30)。
LC真正不满的是RDA,不满者有四(p.24):
·在讫今为止的草案中看不出RDA所承诺的益处;
·不清楚根据RDA创建的元数据如何与现有元数据一致;
·转向RDA的工作方式不令人满意;
·采用RDA在改变工作流程与配套系统方面所需财力将被证明相当大
RDA原定2008年发布,从本草案看是2009年发布了,如果暂停(p.25),就不知何时了。10/22,JSC网站上刚公布了包括LC在内的英国、加拿大、美国、澳大利亚四个国家图书馆将在2009年前共同实施RDA的新闻(http://www.collectionscanada.ca/jsc/rdaimpl.html),不知道当初LC的代表(Barbara B. Tillett?)是不是具有代表权。直播当天她提了一个问题,似乎并未涉及此点。

其实在美国关于书目未来的争论还有一个重要的背景,就是编目专业人员的青黄不接(p.4)。报告表明,近三十年来,由于套录成为普遍现象,一直觉得对编目专业人员的需求会下降。而现在则面临编目员的大量退休,有素质的教学人员也变得稀缺(p.34)。所以报告的最后部分专门讲到要为今后的需求设计图情教育(包括网络课程),并且需求似乎在从图书馆转向信息业。[i.e./e.g.图书馆外包编目,编目员不再在图书馆工作,而在外包公司工作]

P.S. 博文写完,朋友建议将此主题写成论文。我想还是等2008/1/9“最终报告”发布以后吧。

update: 黄昏时才到家。因为外出不上网,数日未看博文。将陆续链接国内相关报道:
书蠹精:书目控制的未来 (2007-12-01 16:05:24)
http://blog.sina.com.cn/s/blog_495d626401000b98.html
Keven:简评“书目控制的未来”报告草案 (2007-12-1)
http://cnlib20.ning.com/forum/topic/show?id=509559%3ATopic%3A9862

关于书目控制未来工作组,参见:
书目控制未来工作组:关注2007年11月 (2006-12-12)
/posts/20061212222610.html

书目控制未来工作组会议:用户与使用 (2007-03-10)
/posts/20070310165723.html

书目控制未来工作组报告草案网络直播 (2007-11-18)
/posts/20071118125639.html

关于RDA,参见:
AACR终于准备出第3版了 (2005-01-13)
/posts/20050113202811.html
AACR3,副题名"Resource Description and Access"。计划出版日期2007年。

“英美编目条例”退出舞台:从AACR到RDA (2005-07-31)
/posts/20050731215049.html
AACR3不见了,正题名变成了原副题名的缩写RDA。出版日期推迟到2008年。

《资源描述与检索》(RDA)一统江湖? (2006-04-16)
/posts/20060416102200.html
RDA与代表出版业书目记录标准的ONIX成立联合创新活动。

RDA联机版原型演示及调查 (2006-07-04)
/posts/20060704213548.html

RDA:20世纪的编目规则 (2007-01-23)
/posts/20070123222009.html
Karen Coyle和Diane Hillmann发表文章,质疑RDA。

ALA 2007仲冬会议上的RDA:Barbara的态度 (2007-01-24)
/posts/20070124201348.html
代表LC的RDA编者Barbara B. Tillett对前述质疑的某种回应。

书目控制未来工作组报告草案网络直播

LC去年11月成立的书目控制未来工作组,最终报告草案在推迟二个多月后,终于要露出庐山真面目,引起大批业内人士关注。11月13日,工作组在LC介绍草案内容,同时进行网络直播,一时访问者众,网路堵塞,以至没有几个人真正看清直播内容。由于大家的强烈关注,最终88分钟的直播内容未加编辑,在16日全部放到了LC的网络广播网站供在线观看(Draft Report: Future of Bibliographic Control),同时工作组网站也提供了下载网址(Webcast: November 13, 2007,Interim Draft Report and Recommendations),还可直接选择看各个部分,不必从头到尾收看。网站上还有会场所放PPT下载(16页),可以了解报告基本框架。

前些日子为11/16上海联合编目中心年会准备一个“编目未来”的报告,所以一直关注工作组的进展。10/30见消息说报告11/13发布,还以为可以赶着报道最新进展。从13日晚就开始访问工作组网站,一直没有结果;看博客报道,都是报怨没看清直播,最终有关内容的报道都在15日以后了(我们这里是16日)。昨天先看到远洋过客的报道,而后又看了其他国外的博客报道。由于草案文本要到11/30发布,所以见到评论不多。

报道比较完整详实的,应该是与会的Karen Coyle。她的报道首先是三个主要变化(sea changes),对会场PPT中的"Working Group’s Guiding Principles",加了一些解释,更容易理解:
1、重新定义书目控制:包括所有资料、类型广泛的用户社区以及信息搜寻的不同地点
2、重新定义书目世界(bibliographic universe):包括所有利益相关者(stakeholders),包括参与信息传递与数字化的营利组织
3、重新定义LC的作用:作为其他图书馆与非图书馆机构的合伙人,一起达成图书馆界的目标
接下来是五个方面的建议(PPT中称为“结论”,Working Group’s General Conclusions),以及前四个建议的较详细内容,建议全部共有100多条,需等全文公布。五个建议/结论:
1、通过书目记录的合作与共享,通过使用整个供应链生产的数据,提高所有图书馆书目生产的效率
2、致力于高增值的活动。尤其是通过对图书馆拥有但当前仍隐藏而未用的独特资料提供访问,为知识创建提供更大价值。
3、技术定位:认识到WWW不仅是我们的技术平台,也是标准的适当平台。认识到用户不仅是人,而且是图书馆数据交互的应用。
4、通过增加资源的评价性、质量与数量分析,定位我们的未来。开展工作以认识FRBR框架所提供的潜力。
5、通过教育、通过开发能提供现在与未来决策的度量标准,强化图情专业。

报道较专深的是William Denton对于FRBR部分的讨论,综述了AUTOCAT邮件讨论组及一些博客的观点。前述PPT中对FRBR提到:
4.2 Realization of FRBR 重新认识FRBR
1. Develop test plan for FRBR 开发FRBR的试验计划
2. Temporarily suspend work on RDA 暂时停止RDA中[与FRBR]相关的工作
Karen文中对4.2的详细信息是:
认识FRBR:被称为FRBR的框架有很大的潜力,但至今未被测试。尽管FRBR本身未被清晰地理解,却被当作RDA的基础。工作组建议RDA不要做进一步工作,直到对FRBR及它对书目元数据所提供的基础做更多的调查。[好象听直播中讲到要与OCLC、IFLA等一起做试验工作]

期待最终报告……

附:书目控制未来工作组大事记
2006-6 LC副馆长Deanna B. Marcum在ALA年会上允诺建立外部咨询组
2006-11-2/3 工作组成立会议,决定召开三次专题会议
2007-3-8 第一次会议:“书目数据的用户与使用”
2007-5-9 第二次会议:“书目数据的结构与标准”
2007-7-9 第三次会议:“书目数据的经济学与组织”
2007-8-? 公开征求意见截止
2007-9-1 “最终报告”草案公示(推迟→2007-11-30)
2007-11-1 “最终报告”正式发布(推迟→2008-1-9)
200711-13 “最终报告”草案介绍网络直播
2007-11-30/12-1 “最终报告”草案文本公布(预定)
2007-12-15 “最终报告”草案公示结束
2008-1-8/9 “最终报告”发布(预定)

参见:
远洋过客:LC书目控制的未来工作组昨天的报告
Coyle’s InFormation: Future of Bibliographic Control,LC, 11/13
The FRBR Blog: WoGroFuBiCo uproar!

书目控制未来工作组:关注2007年11月 (2006-12-12)
书目控制未来工作组会议:用户与使用 (2007-03-10)