查“支那”不行么?

    查东洋文库的日文书目,只要“检索语”含“支那”,结果必定是“连接被重置”(在Firefox浏览器下):

载入页面时到服务器的连接被重置。

    *   此站点暂时不可用或者太忙。请稍后重试。
    *   如果您无法载入任何页面,请检查您计算机的网络连接。
    *   如果您的计算机受到防火墙或代理服务器的保护,请确认 Firefox  被授权访问网页。

    一个简单而冷酷的事实,却是我多个夜晚傻傻地查书目而又屡屡被拒后才悟出的可怕结论。理由不是站点“太忙”,当然也不是网络连接有问题,而是受到了伟大防火墙的“保护”。之所以觉得可怕,是因为它使我产生联想──现在可以由少量的输入词过滤,今后自然可以进一步由结果页面的文字过滤,于是会有更多无法载入的页面,那还怎么做事?
    不知道是不是因为我频繁地查与“支那”有关的文字,那几日在Goole上查“支那”也常被拒(百度没事)──事实上也正是由于这个原因,才让我终于醒悟是GFW作祟。
    不明白的是,为什么拿东洋文库这样的研究机构开刀?我们不需要研究历史么?

    Kaku的部落格有“支那与支那少年”一文,对“支那”一词的演变做了很好的介绍,特别提到:“梁启超的笔名之一即为‘支那少年’。他的著作《李鸿章》封面上用‘支那之怪杰’为题签。”
    没有看到梁启超的《李鸿章》,但在CADAL上找到了他署名为“支那少年”的中学历史教科书《支那四千年开化史》,光绪三十二年三版:

    该文下有一留言,意味深长:“遥想当年欧阳竟无先生创办的××内学院何等兴勃,现在此词却因被日本人用滥而成贬义,也可算是日本人对中国的文化侵略之一。”

国家图书馆民国期刊全文下载方法

几个月前,一位网友在“电子版民国图书和期刊”下留言,询问如何使用FlashGet下载国图民国期刊。在解答了 FlashGet 问题之后,通过与之多次e-mail交流,又解决了文件格式问题,并且由此了解到了下载链接、最佳阅读软件,掌握了全文下载的各个环节。应该说,我固然帮ta解决了问题,但我从ta那儿获得的更多。

事情完后,我并没有打算把下载方法写成博文。因为对我来说,那似乎是个禁忌──自己也做这个行当,知道图书馆在多种选项中确定逐页浏览的目的就是不希望全文下载。就我而言,主要是担心下载后电子书的去向不可预知,因为中国的互联网最不缺的就是强盗小偷。
自然也明白,自己不过是一只鸵鸟,把头埋进沙堆,好象问题就不存在了。其实在图书馆之外的社区,有很多检索高手,他们可以解决惯用高价数据库的图书馆人难以想像的问题──以前bujai就曾多次谈起,而此次我得以掌握下载方法,也全赖网友提供的相关信息。

但事情并没有就这样过去。前两天,又一位网友来信,询问如何批量下载国图民国期刊。思之良久,决定把详细步骤告诉他以后,写成此文,广而告之。一方面,需要下载民国期刊的人,绝大部分都是些研究者,为他们提供方便,对图书馆也是天经地义的事。另一方面,所谓道高一尺、魔高一丈,如果国图方面认为这是个需要弥补的漏洞,也好让他们知道大门早已洞开,赶紧想法堵上吧!

(update 2007-12-1:
请慎用此法。反精灵留言:“您这是害人呵!国图有防恶意下载的措施,凡是恶意下载,会被封ID的。”)

(update 2008-9-12:
国家图书馆二期开馆,网站改版,民国专栏的图书、期刊、法律文献一律改用PDF方式阅读,以下方法失效!)

国图民国期刊整册下载方法

先在国家图书馆民国期刊网站下载专用阅读器NLCReader后安装,然后“检索”到自己所需期刊。接下来的全文下载步骤如下:

1、先获取各页面的URL
使用阅读器打开所需卷期(单册),点击菜单"章节"后,侧栏会出现章节目录。任意选择一个,用鼠标右键获取页面链接(复制快捷方式)。以《通商海关华洋贸易全年总册》为例,第一册“1905年1904卷”的某个链接为:
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4001400
则此册首页的链接为:
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4000100
阅读器右下角有总页数22,据此,末页链接为:
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4002200

2、用网际快车软件(flashget)批量下载
运行FLASHGET,在"任务"菜单中"添加成批任务",按示例做。以上面的链接为例,在URL部分输入:
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id= 00J0027650001&section=Data&pid=400(*)00
然后设定从01到22,通配符长度为2(2位数字),然后按"确定"就OK了。如果总页数为3位数(如125),则最后部分改为40(*)00,然后设定从001到125,通配符长度为3。

3、使用XNview浏览、打印
下载后的页面是JBG格式的文件。下载后文件名为getpart(*)(*为数字),没有扩展名,需要将文件扩展名改为.jbg。
有几种软件可以浏览JBG格式的文件。如果采用XNview,可以只改第一个文件后缀,然后采用前后翻页的方法看各页并打印。
由于各页文件名都是getpart,批量下载时以下载完成先后加后续数字,所以实际上浏览时的顺序与原刊不同。如果看打印稿,可以在打印后,按页面标示的页码重新理一下顺序;如果看电子稿,可根据实际顺序重新命名文件。如果不幸碰到一册中多段标页的情况(在民国期刊中也不少见),就没有办法了。要保证准确,或许只能逐页核对(那与非整册下载也没多大差别了)。

参见:
卓虎学术:绝对可用的中国数字图书馆入口及其下载方法

Google图书搜索的电子书网址

    越来越多的图书被数字化并上网,如果能够在OPAC中揭示出这些电子书的存在,无疑将方便读者利用。要在OPAC中提供链接,首先需要解决的问题是得到这些电子书的网址。Karen Coyle曾设想建立一个转换数据库("switching" database),能够通过LCCN、ISBN、OCLC#及少量书目元数据,获取数字图书的URL(包括Google图书搜索、开放内容联盟OCA及古登堡计划)。除非这些数字化项目本身支持,否则这个大工程可是很棘手的。

    Google图书搜索(GBS)虽则官司缠身,可与之合作的图书馆却在陆续增加,数字化的图书也在不断上网。目前能提供全文阅读的比例不高(美国以外这个比例更低),但能够阅读部分、或者目次也有一定需求,因此增加GBS的链接,对图书馆有了一定的吸引力。

    在近年OPAC的改进过程中,使用亚马逊的信息比较多。除了内容丰富外,技术上的原因主要是亚马逊在有ISBN的情况下,直接用ISBN号作为其标识,可以很方便地构成图书各方面信息的URL,提供链接;另一个原因是亚马逊提供API,可以把封面、书评等内容直接嵌入OPAC的显示页面。而这两点,对GBS似乎都不存在。

    查GBS就会发现,它的图书标识是一长串似乎随机生成的代码,如“5EccAAAACAAJ”,据说是根据数字化时图书的条码号生成的。澳大利亚国家图书馆的LibraryLabs是很少几个链接GBS的OPAC,它规避了特定电子书的URL问题,通过OPAC检索时所用词串检索GBS得到一批图书封面及链接。而一般OPAC需要链接到某一特定版本,没有其标识号无法实现。

    其实GBS不只有一个ID,ISBN、OCLC#都可能是ID (vid, varied id?),这种多重ID的形式,其实对提供链接是一个福音。如前述ID的这本书,是庄子逸、许文霞所译兰开斯特的《通向无纸情报系统》,在GBS中查得到的URL是http://books.google.com/books?id=5EccAAAACAAJ,而用ISBN号的URL是:http://books.google.com/books?vid=7502305424

    美国东密歇根大学在去年十一月就通过OCLC#在OPAC中动态提供GBS的链接(根据是否能获取全文,给出不同的显示文字)。根据用此法得到的数据,仅有约5%有全文,约10%可以看片断。[update 2007-9-28] Wake Forest 大学 Professional Center Library 也采用东密歇根大学的方法提供GBS链接,一个使用OCLC#的实例:http://books.google.com/books?vid=OCLC49284042

    问题在于,无论是ISBN还是OCLC#,都不能保证查到实际上存在的GBS电子书。比如:http://books.google.com/books?id=CV0lHa0j2YAC,该书的ISBN为0802142818,但用http://books.google.com/books?vid=0802142818则没有结果 [2007-9-28更正:用http://books.google.com/books?vid=ISBN0802142818可以检索到。也就是说,使用ISBN时,加上ISBN标识检出可能性较高]。Karen举了另一个例子:http://books.google.com/books?id=MgSoZJLtmGQC。此书在哈佛大学书目中的OCLC#是16730575,但用此号构造出的URL并不存在(Not Found)。关于OCLC#,据说在WorldCat中对数字化图书都会另外给一个OCLC#,如此则原来纸本的OCLC#在这种情况下有用性大大降低。对于大量早期没有ISBN的图书,就只有利用GBS的ID一条途径了。

    LibraryThing的Tim Spalding要获取GBS的ID。因为之前AADL的John Blyberg曾试图用机器人获取,结果被Google封杀,所以Tim想如之前LT做合并同一版本那样,再次依靠群众的力量。他做了一个名为"Google Book Search Search"的小书签(bookmarklet),让LT用户及其他人在访问GBS时使用,以获取GBS的图书ID。由于是不同IP的人在分散访问GBS,或许可以避免被Google封杀——关于此点,Tim没有把握,毕竟是同用一个程序在获取数据。他在早上2点发布GBSS小书签,到晚上10点多发贴时,已有超过300个LT用户装上并开始使用了。
    Tim承诺所有获取的数据将会共享,供图书馆强化自己的OPAC。并设想(有了足够的数据后)在LibraryThing for Libraries中作为免费的部分提供。目前LT用户提供的数据可以在该网站的“Google Book Search Search Data”看到,全部数据的XML文件也可以下载

via: NGC4LIB
Adding links to books in Google Book Search within the OPAC (2007-9-14)
Announcing Google Book Search, um, Search (2007-9-17)

参见:
LibraryThing Blog: Google Book Search … on LibraryThing (2007-9-17)
http://www.librarything.com/blog/2007/09/google-book-search-on-librarything.php

Google图书搜索成为世界OPAC? (2006-8-25)
/posts/20060825164528.html
Google的《莎士比亚戏剧全集》 (2006-06-22)
/posts/20060622194146.html
Google合作馆如何处理他们的数字化图书 (2007-04-04)
/posts/20070405050354.html

在OPAC中嵌入LibraryThing提供的相关链接 (2007-04-10)
/posts/20070410205431.html
把图书馆2.0带入你的目录:LibraryThing for Libraries有了第一个用户 (2007-05-15)
/posts/20070515214513.html
thingISBN――用户视角的FRBR化成果 (2006-07-02)
/posts/20060702212245.html