书目数据开放

    上周写了“读秀──MARC免费收集系统”。也许是物以类聚,也许是看客对本人比较客气,留言中没有持异议的。但从其他方面了解到,博文的观点恐怕还是很受某些BS的──Web/Lib2.0不是要开放吗?
    偶以为,图书馆的确应当开放书目数据,不论是通过Z39.50方式,还是通过API等其他方式,让高质量的数据在有需要的时候为各方所用,也让图书馆服务更接近用户。只不过开放数据不应该以数据打包送厂商的方式进行,尤其是联合目录──O’Reilly的Web2.0七项原则之三是说“数据是下一个Intel Inside”,那是进一步挖掘数据内涵、提供增值服务、奠定自己位置的基础。

    其实开放书目数据是一种很通行的方式,在还没有Web的时候,图书馆界就通过Z39.50方式开放MARC数据。自己当初改行做编目,不久就赶上互联网大发展,得以在世界各国搜寻可以免费下载MARC记录的Z39.50服务器。因为做西文编目,很幸运地找到如美国国会图书馆、OhioLINK这样数据很丰富的MARC记录来源,90%以上图书记录可以由此获得。后来开始写博,就想到介绍“Z39.50服务器信息”(2004-11-04) ,也经常在其他场合向人推荐以Z39.50方式下载MARC记录。
    曾经,国内几个联合目录还是开放匿名下载简编记录的,开放详编记录的图书馆也有一些。后来渐渐地,国内可以公开访问的Z39.50服务器几乎销声匿迹。在这种情况下,图书馆如果没有参加某个联合目录,就难以下载到中文MARC记录。基本上的解决办法是自己低效率地做原编,或者由书商/书目数据商提供──由此促进了书目数据商的发展也未可知。书目数据商除了自己做编目外,还通过其他方式获取MARC数据──比如“借用”图书馆帐号下载联合目录数据,比如通过技术手段分析网页抓取书目数据。
    总之,关闭Z39.50服务器公开访问,对书目数据商影响有限,因为他们可以低成本地得到数据,而力量薄弱的小图书馆却无法在书目数据方面得到帮助。所以,曾希望国家图书馆开放Z39.50服务(开放中的中国国家图书馆),因为偶认为国家图书馆有为业界服务的责任。不过,今天先听到的消息是,某联合目录要免费下载了。还不知道以什么方式,先赞一声!

参加市学会年会流水帐

今天第一次去宝山区图书馆,参加市图书馆学会年会。图书馆离轻轨延伸线站还有十多分钟步行路程,位于十字路口,周围环境不错,有大批新建住宅,边上是体育馆,对面是大卖场,斜对面是市民中心。尽管对我来说距离遥远,但据说在当地位置还是不错的,已经争取到明年在原址建新馆。
图书馆介绍上印着很可爱的口号“请把宝图带回家”。图书馆全年无休,免证阅览、免费办证,可电话续借、网上续借,有短信服务,免费无线网络信号覆盖全馆。电子资源在区级图书馆中名列前茅(据会议主报告之一的调查),持证读者可远程访问。

印象中这是本人第二次参加市学会的年会,大概也是学会年会首次在区级图书馆召开吧。
年会指南印得相当专业,包含会议所有细节,甚至包括防灾应急、医疗服务。附录有学会概况、学会2008年学术活动一览、中图学会服务宣言、馆员职业道德准则等,很可以作为资料保存。中间部分则印了四页空白信笺,标为“札记”,可供做会议笔记。
会议安排得很热闹,光开幕式就用了大概40分钟。除了4个致词,还有发布2009市学会科研课题指南、向2008中图学会年会论文获奖代表颁证、向2008市学会学术活动组织奖单位颁奖。接下来的两个大会报告是2008市学会重点课题。下午是五个分会场报告,与会者自由选择去图书馆学理论、信息资源组织、用户服务、图书馆管理、信息技术五个会场。由于列出了报告名称,也有人凭兴趣在几个会场听不同的报告。
我所在的信息资源组织分会有7个报告,数量在五个分会中居中,要知道,各分会场之间是有竞争的。当初觉得作为委员应该支持本分会,别弄得少人参与,所以就报了一个,后来才知道不缺报告。准备的时候没考虑到时间,讲的时候又没有如往常地样带表,结果很厚颜地超了至少一半的时间,弄得主持者王松林教授本人的报告反而没时间讲了(当然不是我一人之过)。反思的结果是,明年可以用与会显示支持,报告就不必了。
本次会议竟然还有闭幕式。虽然指南上的复旦馆长葛剑雄没有出现,但几项议程还是都有了──刘炜介绍科文杯情报搜索大赛情况(标准答案公布)后是颁奖仪式,可惜因上周已经开过获奖者座谈会,到会获奖者了了;向今天会议的报告者颁发证书;向承办单位赠送感谢状;下午才从北京赶回的王世伟教授致闭幕词后,把他原定上午做的报告PPT匆匆地展示了一遍,完成了所有会议内容。

本次会议可称火爆。原设250人与会,听说到场者超过300,迟到者资料都没有拿到。上午主会场加座,下午不少分会场也加座。大概预计按惯例会议到闭幕时人不会太多,所以闭幕式会场不大,不料到时间房外站满了人,不得不把场内桌子全部搬出换成椅子,最终还有一些人只能站着。看到keven在那儿抬桌子,这个领导当的!
对本人来说,还有一个遗憾。前些天在学会网上就看到自己的名字被写错了,曾想联系秘书处更改一下,后来事情一多,完全不记得了。早上拿到会议指南,先后悔一次;毫无疑问地,闭幕式时拿到报告证书,再后悔一次。怪只怪自己不是知名人士,名字都能被写错啊。

读秀──MARC免费收集系统

    一个月前,OCLC公布了新的WorldCat记录的利用政策(Policy for Use and Transfer of WorldCat® Records),引起国外博客圈热烈讨论(OCLC Policy Change),反对声音激烈,认为OCLC赋予自己的权利过大。有意思的是,国内却完全是另一番风光,联合编目中心似乎并不在意保护自己的利益,面对厂商大规模收集MARC记录的明显意图,还没有向图书馆提出相关建议。

   
最近几个月,经常听到图书馆说买读秀,也已经有不少大馆购买了,还有整个省团购的。读秀是什么?我至今也不是很明白,因为没花时间去了解。但我知道,它有
一个重要功能:籍此免费获取图书馆的MARC记录──图书馆在每年付以十万为单位的银子订购读秀的同时,还要向读秀免费奉送自己所有馆藏的MARC数据。
花不菲代价买东西,不是商家附送什么优惠,反而要把自己那么多数据拱手相送,听上去匪夷所思,却不幸是事实。
   
当我第一次听说时,当然要问“为什么”?丫枝给我的答案是“要在读秀的网站加本馆的链接,直接链在OPAC中显示本馆是否有此书的纸本、电子“。后来知道,只是在读秀网站加本馆链接,读秀并不提供在本馆OPAC上显示读秀链接的方便。而要达到在读秀网站加本馆链接的结果,图书馆本来只需要提供极简单的几个信息就可以实现,即题名、作者、出版社、出版年(如果有ISBN当然更方便)。
   
这里不想推测读秀要图书馆提供MARC记录的真实意图。现在有不少图书馆人觉得编目是浪费时间,因为那些书目信息出版的时候已经全有了。其实编目员很多时间花在给分类号、主题词这些主题标引,以及做作者、团体的名称规范。虽然分类法、主题词表乃至规范库很不令人满意,但这些信息是对出版物不可或缺的内容揭示。新一代OPAC要实现分面展示,让读者在输入最初的检索词后,只需简单点击展示的链接,就可以完成随后的检索并得到需要的文献,这在很大程度上依赖于由编目员增加的信息,因为这些信息是进行书目数据挖掘的基础。真正有眼光的人是不会小视编目员增值的数据的。
   
除了信息价值,图书馆的MARC数据也是有经济价值的,它们是图书馆积累一二十年的数字化资产,怎能轻易送人?每家图书馆的MARC记录,小馆也会有数万
条,大馆甚至可达百万数量级。或许某些MARC数据来自书商的“免费”提供,但那是图书折扣的一部分;或许某些MARC数据来自联合目录,下载每条只需
0.10元,但即使只有10万条,也值一万元呢,更何况,那是联合目录对成员的优惠,事实远不只这个价。

   
据说读秀的书目已经不少于160万了,随着越来越多的图书馆购买读秀,这个数量还会增长,因为它在销售的同时,也在一举两得地收敛书目数据。在这一过程中,损失最大的无疑是那些联合编目中心。说到了影响他们生死存亡的阶段,或许有些言过其实,但形势确实很严峻。如CALIS联合编目中心,对详编记录支付每条2元的费用,这些年来,也该支付了数百万元;同时还制定了严格的质量标准并多方进行质量控制。现在,这些高质量的数据,不需分文,几乎转眼间大多已经或即将成为读秀的囊中之物,令人感觉不可思议。
    或许图书馆觉得自己没什么损失,那些MARC记录,放着也是放着,又不能卖钱。但是,数据是Web2.0时代最重要的财富。当读秀得到了所有的MARC数据,图书馆在与读秀的下一轮谈判中,将会处于什么样的地位?
    据说读秀现在还只要中文的,未来还会要外文的。读秀得到这些数据,可以做什么?至少现在,图书馆提供的MARC数据使读秀在极短时间内成了一个巨大的联合目录。接下来还能做什么,可以展开一下想象力……

   
应该说,图书馆从联合目录合法下载的MARC记录有使用权,但未必有所有权,可以随便送给厂商。国内知识产权不完善,现有的联合编目中心对图书馆没有那么大的约束力,但至少那些中心可以知会图书馆,请馆长注意保护MARC数据──如前所说,要达到在读秀网站加本馆链接的结果,只需要提供极简单的几个信息就可以实现,不需要提供完整的MARC记录。众所周知,2709格式的MARC记录是不可直接使用的,从使用角度,或许EXCEL表格的书目信息更方便处理。如果读秀一定要求MARC数据,而有的图书馆系统无法导出简编记录,或者不知道如何将导出的完整MARC记录转成简编记录,联合编目中心完全可以提供一个小软件,快速实现这样的转换。