乐此不疲 – 第 32 页 – 编目精灵III

查“支那”不行么？

查东洋文库的日文书目，只要“检索语”含“支那”，结果必定是“连接被重置”（在Firefox浏览器下）：

载入页面时到服务器的连接被重置。

    *   此站点暂时不可用或者太忙。请稍后重试。
    *   如果您无法载入任何页面，请检查您计算机的网络连接。
    *   如果您的计算机受到防火墙或代理服务器的保护，请确认 Firefox 被授权访问网页。

    一个简单而冷酷的事实，却是我多个夜晚傻傻地查书目而又屡屡被拒后才悟出的可怕结论。理由不是站点“太忙”，当然也不是网络连接有问题，而是受到了伟大防火墙的“保护”。之所以觉得可怕，是因为它使我产生联想──现在可以由少量的输入词过滤，今后自然可以进一步由结果页面的文字过滤，于是会有更多无法载入的页面，那还怎么做事？
    不知道是不是因为我频繁地查与“支那”有关的文字，那几日在Goole上查“支那”也常被拒（百度没事）──事实上也正是由于这个原因，才让我终于醒悟是GFW作祟。
    不明白的是，为什么拿东洋文库这样的研究机构开刀？我们不需要研究历史么？

Kaku的部落格有“支那与支那少年”一文，对“支那”一词的演变做了很好的介绍，特别提到：“梁启超的笔名之一即为‘支那少年’。他的著作《李鸿章》封面上用‘支那之怪杰’为题签。”
没有看到梁启超的《李鸿章》，但在CADAL上找到了他署名为“支那少年”的中学历史教科书《支那四千年开化史》，光绪三十二年三版：

该文下有一留言，意味深长：“遥想当年欧阳竟无先生创办的××内学院何等兴勃，现在此词却因被日本人用滥而成贬义，也可算是日本人对中国的文化侵略之一。”

国家图书馆民国期刊全文下载方法

几个月前，一位网友在“电子版民国图书和期刊”下留言，询问如何使用FlashGet下载国图民国期刊。在解答了 FlashGet 问题之后，通过与之多次e-mail交流，又解决了文件格式问题，并且由此了解到了下载链接、最佳阅读软件，掌握了全文下载的各个环节。应该说，我固然帮ta解决了问题，但我从ta那儿获得的更多。

事情完后，我并没有打算把下载方法写成博文。因为对我来说，那似乎是个禁忌──自己也做这个行当，知道图书馆在多种选项中确定逐页浏览的目的就是不希望全文下载。就我而言，主要是担心下载后电子书的去向不可预知，因为中国的互联网最不缺的就是强盗小偷。
自然也明白，自己不过是一只鸵鸟，把头埋进沙堆，好象问题就不存在了。其实在图书馆之外的社区，有很多检索高手，他们可以解决惯用高价数据库的图书馆人难以想像的问题──以前bujai就曾多次谈起，而此次我得以掌握下载方法，也全赖网友提供的相关信息。

但事情并没有就这样过去。前两天，又一位网友来信，询问如何批量下载国图民国期刊。思之良久，决定把详细步骤告诉他以后，写成此文，广而告之。一方面，需要下载民国期刊的人，绝大部分都是些研究者，为他们提供方便，对图书馆也是天经地义的事。另一方面，所谓道高一尺、魔高一丈，如果国图方面认为这是个需要弥补的漏洞，也好让他们知道大门早已洞开，赶紧想法堵上吧！

（update 2007-12-1：
请慎用此法。反精灵留言：“您这是害人呵！国图有防恶意下载的措施，凡是恶意下载，会被封ID的。”）

（update 2008-9-12：
国家图书馆二期开馆，网站改版，民国专栏的图书、期刊、法律文献一律改用PDF方式阅读，以下方法失效！）

国图民国期刊整册下载方法

先在国家图书馆民国期刊网站下载专用阅读器NLCReader后安装，然后“检索”到自己所需期刊。接下来的全文下载步骤如下：

1、先获取各页面的URL
使用阅读器打开所需卷期（单册），点击菜单"章节"后，侧栏会出现章节目录。任意选择一个，用鼠标右键获取页面链接（复制快捷方式）。以《通商海关华洋贸易全年总册》为例，第一册“1905年1904卷”的某个链接为：
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4001400
则此册首页的链接为：
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4000100
阅读器右下角有总页数22，据此，末页链接为：
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4002200

2、用网际快车软件（flashget）批量下载
运行FLASHGET，在"任务"菜单中"添加成批任务"，按示例做。以上面的链接为例，在URL部分输入：
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id= 00J0027650001&section=Data&pid=400(*)00
然后设定从01到22，通配符长度为2（2位数字），然后按"确定"就OK了。如果总页数为3位数（如125），则最后部分改为40(*)00，然后设定从001到125，通配符长度为3。

3、使用XNview浏览、打印
下载后的页面是JBG格式的文件。下载后文件名为getpart(*)（*为数字），没有扩展名，需要将文件扩展名改为.jbg。
有几种软件可以浏览JBG格式的文件。如果采用XNview，可以只改第一个文件后缀，然后采用前后翻页的方法看各页并打印。
由于各页文件名都是getpart，批量下载时以下载完成先后加后续数字，所以实际上浏览时的顺序与原刊不同。如果看打印稿，可以在打印后，按页面标示的页码重新理一下顺序；如果看电子稿，可根据实际顺序重新命名文件。如果不幸碰到一册中多段标页的情况（在民国期刊中也不少见），就没有办法了。要保证准确，或许只能逐页核对（那与非整册下载也没多大差别了）。

参见：
卓虎学术：绝对可用的中国数字图书馆入口及其下载方法

Google图书搜索的电子书网址

越来越多的图书被数字化并上网，如果能够在OPAC中揭示出这些电子书的存在，无疑将方便读者利用。要在OPAC中提供链接，首先需要解决的问题是得到这些电子书的网址。Karen Coyle曾设想建立一个转换数据库("switching" database)，能够通过LCCN、ISBN、OCLC#及少量书目元数据，获取数字图书的URL（包括Google图书搜索、开放内容联盟OCA及古登堡计划）。除非这些数字化项目本身支持，否则这个大工程可是很棘手的。

Google图书搜索(GBS)虽则官司缠身，可与之合作的图书馆却在陆续增加，数字化的图书也在不断上网。目前能提供全文阅读的比例不高（美国以外这个比例更低），但能够阅读部分、或者目次也有一定需求，因此增加GBS的链接，对图书馆有了一定的吸引力。

在近年OPAC的改进过程中，使用亚马逊的信息比较多。除了内容丰富外，技术上的原因主要是亚马逊在有ISBN的情况下，直接用ISBN号作为其标识，可以很方便地构成图书各方面信息的URL，提供链接；另一个原因是亚马逊提供API，可以把封面、书评等内容直接嵌入OPAC的显示页面。而这两点，对GBS似乎都不存在。

查GBS就会发现，它的图书标识是一长串似乎随机生成的代码，如“5EccAAAACAAJ”，据说是根据数字化时图书的条码号生成的。澳大利亚国家图书馆的LibraryLabs是很少几个链接GBS的OPAC，它规避了特定电子书的URL问题，通过OPAC检索时所用词串检索GBS得到一批图书封面及链接。而一般OPAC需要链接到某一特定版本，没有其标识号无法实现。

其实GBS不只有一个ID，ISBN、OCLC#都可能是ID (vid, varied id?)，这种多重ID的形式，其实对提供链接是一个福音。如前述ID的这本书，是庄子逸、许文霞所译兰开斯特的《通向无纸情报系统》，在GBS中查得到的URL是http://books.google.com/books?id=5EccAAAACAAJ，而用ISBN号的URL是：http://books.google.com/books?vid=7502305424。

美国东密歇根大学在去年十一月就通过OCLC#在OPAC中动态提供GBS的链接（根据是否能获取全文，给出不同的显示文字）。根据用此法得到的数据，仅有约5%有全文，约10%可以看片断。[update 2007-9-28] Wake Forest 大学 Professional Center Library 也采用东密歇根大学的方法提供GBS链接，一个使用OCLC#的实例：http://books.google.com/books?vid=OCLC49284042。

问题在于，无论是ISBN还是OCLC#，都不能保证查到实际上存在的GBS电子书。比如：http://books.google.com/books?id=CV0lHa0j2YAC，该书的ISBN为0802142818，但用http://books.google.com/books?vid=0802142818则没有结果 [2007-9-28更正：用http://books.google.com/books?vid=ISBN0802142818可以检索到。也就是说，使用ISBN时，加上ISBN标识检出可能性较高]。Karen举了另一个例子：http://books.google.com/books?id=MgSoZJLtmGQC。此书在哈佛大学书目中的OCLC#是16730575，但用此号构造出的URL并不存在(Not Found)。关于OCLC#，据说在WorldCat中对数字化图书都会另外给一个OCLC#，如此则原来纸本的OCLC#在这种情况下有用性大大降低。对于大量早期没有ISBN的图书，就只有利用GBS的ID一条途径了。

LibraryThing的Tim Spalding要获取GBS的ID。因为之前AADL的John Blyberg曾试图用机器人获取，结果被Google封杀，所以Tim想如之前LT做合并同一版本那样，再次依靠群众的力量。他做了一个名为"Google Book Search Search"的小书签(bookmarklet)，让LT用户及其他人在访问GBS时使用，以获取GBS的图书ID。由于是不同IP的人在分散访问GBS，或许可以避免被Google封杀——关于此点，Tim没有把握，毕竟是同用一个程序在获取数据。他在早上2点发布GBSS小书签，到晚上10点多发贴时，已有超过300个LT用户装上并开始使用了。
Tim承诺所有获取的数据将会共享，供图书馆强化自己的OPAC。并设想（有了足够的数据后）在LibraryThing for Libraries中作为免费的部分提供。目前LT用户提供的数据可以在该网站的“Google Book Search Search Data”看到，全部数据的XML文件也可以下载。

via: NGC4LIB
Adding links to books in Google Book Search within the OPAC (2007-9-14)
Announcing Google Book Search, um, Search (2007-9-17)

参见：
LibraryThing Blog: Google Book Search … on LibraryThing (2007-9-17)
http://www.librarything.com/blog/2007/09/google-book-search-on-librarything.php

Google图书搜索成为世界OPAC? (2006-8-25)
/posts/2006/0825/826
Google的《莎士比亚戏剧全集》 (2006-06-22)
/posts/2006/0622/824
Google合作馆如何处理他们的数字化图书 (2007-04-04)
/posts/2007/0404/482

在OPAC中嵌入LibraryThing提供的相关链接 (2007-04-10)
/posts/2007/0410/480
把图书馆2.0带入你的目录：LibraryThing for Libraries有了第一个用户 (2007-05-15)
/posts/2007/0515/466
thingISBN――用户视角的FRBR化成果 (2006-07-02)
/posts/2006/0702/854