MARC – 第 42 页 – 编目精灵III

书目数据开放

上周写了“读秀──MARC免费收集系统”。也许是物以类聚，也许是看客对本人比较客气，留言中没有持异议的。但从其他方面了解到，博文的观点恐怕还是很受某些BS的──Web/Lib2.0不是要开放吗？
偶以为，图书馆的确应当开放书目数据，不论是通过Z39.50方式，还是通过API等其他方式，让高质量的数据在有需要的时候为各方所用，也让图书馆服务更接近用户。只不过开放数据不应该以数据打包送厂商的方式进行，尤其是联合目录──O’Reilly的Web2.0七项原则之三是说“数据是下一个Intel Inside”，那是进一步挖掘数据内涵、提供增值服务、奠定自己位置的基础。

    其实开放书目数据是一种很通行的方式，在还没有Web的时候，图书馆界就通过Z39.50方式开放MARC数据。自己当初改行做编目，不久就赶上互联网大发展，得以在世界各国搜寻可以免费下载MARC记录的Z39.50服务器。因为做西文编目，很幸运地找到如美国国会图书馆、OhioLINK这样数据很丰富的MARC记录来源，90%以上图书记录可以由此获得。后来开始写博，就想到介绍“Z39.50服务器信息”(2004-11-04) ，也经常在其他场合向人推荐以Z39.50方式下载MARC记录。
    曾经，国内几个联合目录还是开放匿名下载简编记录的，开放详编记录的图书馆也有一些。后来渐渐地，国内可以公开访问的Z39.50服务器几乎销声匿迹。在这种情况下，图书馆如果没有参加某个联合目录，就难以下载到中文MARC记录。基本上的解决办法是自己低效率地做原编，或者由书商/书目数据商提供──由此促进了书目数据商的发展也未可知。书目数据商除了自己做编目外，还通过其他方式获取MARC数据──比如“借用”图书馆帐号下载联合目录数据，比如通过技术手段分析网页抓取书目数据。
    总之，关闭Z39.50服务器公开访问，对书目数据商影响有限，因为他们可以低成本地得到数据，而力量薄弱的小图书馆却无法在书目数据方面得到帮助。所以，曾希望国家图书馆开放Z39.50服务（开放中的中国国家图书馆），因为偶认为国家图书馆有为业界服务的责任。不过，今天先听到的消息是，某联合目录要免费下载了。还不知道以什么方式，先赞一声！

读秀──MARC免费收集系统

一个月前，OCLC公布了新的WorldCat记录的利用政策（Policy for Use and Transfer of WorldCat® Records），引起国外博客圈热烈讨论（OCLC Policy Change），反对声音激烈，认为OCLC赋予自己的权利过大。有意思的是，国内却完全是另一番风光，联合编目中心似乎并不在意保护自己的利益，面对厂商大规模收集MARC记录的明显意图，还没有向图书馆提出相关建议。

最近几个月，经常听到图书馆说买读秀，也已经有不少大馆购买了，还有整个省团购的。读秀是什么？我至今也不是很明白，因为没花时间去了解。但我知道，它有
一个重要功能：籍此免费获取图书馆的MARC记录──图书馆在每年付以十万为单位的银子订购读秀的同时，还要向读秀免费奉送自己所有馆藏的MARC数据。
花不菲代价买东西，不是商家附送什么优惠，反而要把自己那么多数据拱手相送，听上去匪夷所思，却不幸是事实。

当我第一次听说时，当然要问“为什么”？丫枝给我的答案是“要在读秀的网站加本馆的链接，直接链在OPAC中显示本馆是否有此书的纸本、电子“。后来知道，只是在读秀网站加本馆链接，读秀并不提供在本馆OPAC上显示读秀链接的方便。而要达到在读秀网站加本馆链接的结果，图书馆本来只需要提供极简单的几个信息就可以实现，即题名、作者、出版社、出版年（如果有ISBN当然更方便）。

这里不想推测读秀要图书馆提供MARC记录的真实意图。现在有不少图书馆人觉得编目是浪费时间，因为那些书目信息出版的时候已经全有了。其实编目员很多时间花在给分类号、主题词这些主题标引，以及做作者、团体的名称规范。虽然分类法、主题词表乃至规范库很不令人满意，但这些信息是对出版物不可或缺的内容揭示。新一代OPAC要实现分面展示，让读者在输入最初的检索词后，只需简单点击展示的链接，就可以完成随后的检索并得到需要的文献，这在很大程度上依赖于由编目员增加的信息，因为这些信息是进行书目数据挖掘的基础。真正有眼光的人是不会小视编目员增值的数据的。

除了信息价值，图书馆的MARC数据也是有经济价值的，它们是图书馆积累一二十年的数字化资产，怎能轻易送人？每家图书馆的MARC记录，小馆也会有数万
条，大馆甚至可达百万数量级。或许某些MARC数据来自书商的“免费”提供，但那是图书折扣的一部分；或许某些MARC数据来自联合目录，下载每条只需
0.10元，但即使只有10万条，也值一万元呢，更何况，那是联合目录对成员的优惠，事实远不只这个价。

据说读秀的书目已经不少于160万了，随着越来越多的图书馆购买读秀，这个数量还会增长，因为它在销售的同时，也在一举两得地收敛书目数据。在这一过程中，损失最大的无疑是那些联合编目中心。说到了影响他们生死存亡的阶段，或许有些言过其实，但形势确实很严峻。如CALIS联合编目中心，对详编记录支付每条2元的费用，这些年来，也该支付了数百万元；同时还制定了严格的质量标准并多方进行质量控制。现在，这些高质量的数据，不需分文，几乎转眼间大多已经或即将成为读秀的囊中之物，令人感觉不可思议。
    或许图书馆觉得自己没什么损失，那些MARC记录，放着也是放着，又不能卖钱。但是，数据是Web2.0时代最重要的财富。当读秀得到了所有的MARC数据，图书馆在与读秀的下一轮谈判中，将会处于什么样的地位？
    据说读秀现在还只要中文的，未来还会要外文的。读秀得到这些数据，可以做什么？至少现在，图书馆提供的MARC数据使读秀在极短时间内成了一个巨大的联合目录。接下来还能做什么，可以展开一下想象力……

应该说，图书馆从联合目录合法下载的MARC记录有使用权，但未必有所有权，可以随便送给厂商。国内知识产权不完善，现有的联合编目中心对图书馆没有那么大的约束力，但至少那些中心可以知会图书馆，请馆长注意保护MARC数据──如前所说，要达到在读秀网站加本馆链接的结果，只需要提供极简单的几个信息就可以实现，不需要提供完整的MARC记录。众所周知，2709格式的MARC记录是不可直接使用的，从使用角度，或许EXCEL表格的书目信息更方便处理。如果读秀一定要求MARC数据，而有的图书馆系统无法导出简编记录，或者不知道如何将导出的完整MARC记录转成简编记录，联合编目中心完全可以提供一个小软件，快速实现这样的转换。

PCC实施废除440字段

合作编目项目(Program for Cooperative Cataloging)发布“PCC Guidelines for Field 440”(1页PDF)，建议成员馆从2008年10月24日起废除440字段，以490 1代替。

490字段第1指示符“1”的新定义：
1 – Series traced in 8XX field
New Definition:
When value “1” is used, the appropriate field 800-830 is included in the bibliographic record to provide the series added entry.

改变440字段的建议早在6月6日即已提出（MARC Proposal No. 2008-07）。背景声称是由于440字段既是丛编描述又是规范检索点，其实这又有什么关系呢？LC不再维护丛编规范记录，使440没有存在的根基才是真正的原因。讨论中曾想取消490 1，但由于大多数图书馆的丛编索引取决于490第1指示符，最终确定从文字上修改第1指示符“1”的定义。
如果取消490 1，对编目员来说就省事了，直接在8XX字段著录就是了，而按现在的决定，是要在8XX重复。大部分情况下，书上的丛编描述与丛编规范是一致的。

由于丛编规范名不再存在，同日提出的另一项与之相关的建议（MARC Proposal No. 2008-06）是在800-830及490中增加$3，说明所用丛编名适用的范围或时段。看实例比看说明省事得多：
例一：
830 #0 $3 1980: $a DHEW publication $x 0090-0206
830 #0 $3 1982- $a DHHS publication $x 0276-4733
例二：
830 #0 $3 <May 1986-> $a Tourism research series.
例三：
830 #0 $3 v. 1-8 $a Collection Byzantine $x 0223-3738
830 #0 $3 v. 9 $a Collection des universités de France $x 0184-7155
例四：
490 1# $3 <1981->: $a Reference works
830 #0 $a Reference works.
例一、例三的两条830字段应该是分别出现在两条不同的书目记录中的，而例四的则是同一书目记录中的两个不同字段。由此也可以看到490与830其实是完全一致的。

via Catalogablog: Field 440

背景：
2006-4-20 LC宣布停止对丛编的规范控制，2006-5-1 实施
网上反对签名达 3495 个
2006-5-4 LC宣布推迟到2006-6-1实施
2006-5-11 LC专业人员协会执委会通过“对LC管理层停止生产丛编规范记录生产的决议”
2006-6-1 LC停止创建丛编规范记录