书目数据开放

    上周写了“读秀──MARC免费收集系统”。也许是物以类聚,也许是看客对本人比较客气,留言中没有持异议的。但从其他方面了解到,博文的观点恐怕还是很受某些BS的──Web/Lib2.0不是要开放吗?
    偶以为,图书馆的确应当开放书目数据,不论是通过Z39.50方式,还是通过API等其他方式,让高质量的数据在有需要的时候为各方所用,也让图书馆服务更接近用户。只不过开放数据不应该以数据打包送厂商的方式进行,尤其是联合目录──O’Reilly的Web2.0七项原则之三是说“数据是下一个Intel Inside”,那是进一步挖掘数据内涵、提供增值服务、奠定自己位置的基础。

    其实开放书目数据是一种很通行的方式,在还没有Web的时候,图书馆界就通过Z39.50方式开放MARC数据。自己当初改行做编目,不久就赶上互联网大发展,得以在世界各国搜寻可以免费下载MARC记录的Z39.50服务器。因为做西文编目,很幸运地找到如美国国会图书馆、OhioLINK这样数据很丰富的MARC记录来源,90%以上图书记录可以由此获得。后来开始写博,就想到介绍“Z39.50服务器信息”(2004-11-04) ,也经常在其他场合向人推荐以Z39.50方式下载MARC记录。
    曾经,国内几个联合目录还是开放匿名下载简编记录的,开放详编记录的图书馆也有一些。后来渐渐地,国内可以公开访问的Z39.50服务器几乎销声匿迹。在这种情况下,图书馆如果没有参加某个联合目录,就难以下载到中文MARC记录。基本上的解决办法是自己低效率地做原编,或者由书商/书目数据商提供──由此促进了书目数据商的发展也未可知。书目数据商除了自己做编目外,还通过其他方式获取MARC数据──比如“借用”图书馆帐号下载联合目录数据,比如通过技术手段分析网页抓取书目数据。
    总之,关闭Z39.50服务器公开访问,对书目数据商影响有限,因为他们可以低成本地得到数据,而力量薄弱的小图书馆却无法在书目数据方面得到帮助。所以,曾希望国家图书馆开放Z39.50服务(开放中的中国国家图书馆),因为偶认为国家图书馆有为业界服务的责任。不过,今天先听到的消息是,某联合目录要免费下载了。还不知道以什么方式,先赞一声!

读秀──MARC免费收集系统

    一个月前,OCLC公布了新的WorldCat记录的利用政策(Policy for Use and Transfer of WorldCat® Records),引起国外博客圈热烈讨论(OCLC Policy Change),反对声音激烈,认为OCLC赋予自己的权利过大。有意思的是,国内却完全是另一番风光,联合编目中心似乎并不在意保护自己的利益,面对厂商大规模收集MARC记录的明显意图,还没有向图书馆提出相关建议。

   
最近几个月,经常听到图书馆说买读秀,也已经有不少大馆购买了,还有整个省团购的。读秀是什么?我至今也不是很明白,因为没花时间去了解。但我知道,它有
一个重要功能:籍此免费获取图书馆的MARC记录──图书馆在每年付以十万为单位的银子订购读秀的同时,还要向读秀免费奉送自己所有馆藏的MARC数据。
花不菲代价买东西,不是商家附送什么优惠,反而要把自己那么多数据拱手相送,听上去匪夷所思,却不幸是事实。
   
当我第一次听说时,当然要问“为什么”?丫枝给我的答案是“要在读秀的网站加本馆的链接,直接链在OPAC中显示本馆是否有此书的纸本、电子“。后来知道,只是在读秀网站加本馆链接,读秀并不提供在本馆OPAC上显示读秀链接的方便。而要达到在读秀网站加本馆链接的结果,图书馆本来只需要提供极简单的几个信息就可以实现,即题名、作者、出版社、出版年(如果有ISBN当然更方便)。
   
这里不想推测读秀要图书馆提供MARC记录的真实意图。现在有不少图书馆人觉得编目是浪费时间,因为那些书目信息出版的时候已经全有了。其实编目员很多时间花在给分类号、主题词这些主题标引,以及做作者、团体的名称规范。虽然分类法、主题词表乃至规范库很不令人满意,但这些信息是对出版物不可或缺的内容揭示。新一代OPAC要实现分面展示,让读者在输入最初的检索词后,只需简单点击展示的链接,就可以完成随后的检索并得到需要的文献,这在很大程度上依赖于由编目员增加的信息,因为这些信息是进行书目数据挖掘的基础。真正有眼光的人是不会小视编目员增值的数据的。
   
除了信息价值,图书馆的MARC数据也是有经济价值的,它们是图书馆积累一二十年的数字化资产,怎能轻易送人?每家图书馆的MARC记录,小馆也会有数万
条,大馆甚至可达百万数量级。或许某些MARC数据来自书商的“免费”提供,但那是图书折扣的一部分;或许某些MARC数据来自联合目录,下载每条只需
0.10元,但即使只有10万条,也值一万元呢,更何况,那是联合目录对成员的优惠,事实远不只这个价。

   
据说读秀的书目已经不少于160万了,随着越来越多的图书馆购买读秀,这个数量还会增长,因为它在销售的同时,也在一举两得地收敛书目数据。在这一过程中,损失最大的无疑是那些联合编目中心。说到了影响他们生死存亡的阶段,或许有些言过其实,但形势确实很严峻。如CALIS联合编目中心,对详编记录支付每条2元的费用,这些年来,也该支付了数百万元;同时还制定了严格的质量标准并多方进行质量控制。现在,这些高质量的数据,不需分文,几乎转眼间大多已经或即将成为读秀的囊中之物,令人感觉不可思议。
    或许图书馆觉得自己没什么损失,那些MARC记录,放着也是放着,又不能卖钱。但是,数据是Web2.0时代最重要的财富。当读秀得到了所有的MARC数据,图书馆在与读秀的下一轮谈判中,将会处于什么样的地位?
    据说读秀现在还只要中文的,未来还会要外文的。读秀得到这些数据,可以做什么?至少现在,图书馆提供的MARC数据使读秀在极短时间内成了一个巨大的联合目录。接下来还能做什么,可以展开一下想象力……

   
应该说,图书馆从联合目录合法下载的MARC记录有使用权,但未必有所有权,可以随便送给厂商。国内知识产权不完善,现有的联合编目中心对图书馆没有那么大的约束力,但至少那些中心可以知会图书馆,请馆长注意保护MARC数据──如前所说,要达到在读秀网站加本馆链接的结果,只需要提供极简单的几个信息就可以实现,不需要提供完整的MARC记录。众所周知,2709格式的MARC记录是不可直接使用的,从使用角度,或许EXCEL表格的书目信息更方便处理。如果读秀一定要求MARC数据,而有的图书馆系统无法导出简编记录,或者不知道如何将导出的完整MARC记录转成简编记录,联合编目中心完全可以提供一个小软件,快速实现这样的转换。

PCC实施废除440字段

合作编目项目(Program for Cooperative Cataloging)发布“PCC Guidelines for Field 440”(1页PDF),建议成员馆从2008年10月24日起废除440字段,以490 1代替。

490字段第1指示符“1”的新定义:
1 – Series traced in 8XX field
New Definition:
When value “1” is used, the appropriate field 800-830 is included in the bibliographic record to provide the series added entry.

改变440字段的建议早在6月6日即已提出(MARC Proposal No. 2008-07)。背景声称是由于440字段既是丛编描述又是规范检索点,其实这又有什么关系呢?LC不再维护丛编规范记录,使440没有存在的根基才是真正的原因。讨论中曾想取消490 1,但由于大多数图书馆的丛编索引取决于490第1指示符,最终确定从文字上修改第1指示符“1”的定义。
如果取消490 1,对编目员来说就省事了,直接在8XX字段著录就是了,而按现在的决定,是要在8XX重复。大部分情况下,书上的丛编描述与丛编规范是一致的。

由于丛编规范名不再存在,同日提出的另一项与之相关的建议(MARC Proposal No. 2008-06)是在800-830及490中增加$3,说明所用丛编名适用的范围或时段。看实例比看说明省事得多:
例一:
830 #0 $3 1980: $a DHEW publication $x 0090-0206
830 #0 $3 1982- $a DHHS publication $x 0276-4733
例二:
830 #0 $3 <May 1986-> $a Tourism research series.
例三:
830 #0 $3 v. 1-8 $a Collection Byzantine $x 0223-3738
830 #0 $3 v. 9 $a Collection des universités de France $x 0184-7155
例四:
490 1#    $3 <1981->:  $a Reference works
830 #0    $a Reference works.
例一、例三的两条830字段应该是分别出现在两条不同的书目记录中的,而例四的则是同一书目记录中的两个不同字段。由此也可以看到490与830其实是完全一致的。

via Catalogablog: Field 440

背景:
2006-4-20 LC宣布停止对丛编的规范控制,2006-5-1 实施
网上反对签名达 3495 个
2006-5-4 LC宣布推迟到2006-6-1实施
2006-5-11 LC专业人员协会执委会通过“对LC管理层停止生产丛编规范记录生产的决议”
2006-6-1 LC停止创建丛编规范记录