Google图书搜索的电子书网址

    越来越多的图书被数字化并上网,如果能够在OPAC中揭示出这些电子书的存在,无疑将方便读者利用。要在OPAC中提供链接,首先需要解决的问题是得到这些电子书的网址。Karen Coyle曾设想建立一个转换数据库("switching" database),能够通过LCCN、ISBN、OCLC#及少量书目元数据,获取数字图书的URL(包括Google图书搜索、开放内容联盟OCA及古登堡计划)。除非这些数字化项目本身支持,否则这个大工程可是很棘手的。

    Google图书搜索(GBS)虽则官司缠身,可与之合作的图书馆却在陆续增加,数字化的图书也在不断上网。目前能提供全文阅读的比例不高(美国以外这个比例更低),但能够阅读部分、或者目次也有一定需求,因此增加GBS的链接,对图书馆有了一定的吸引力。

    在近年OPAC的改进过程中,使用亚马逊的信息比较多。除了内容丰富外,技术上的原因主要是亚马逊在有ISBN的情况下,直接用ISBN号作为其标识,可以很方便地构成图书各方面信息的URL,提供链接;另一个原因是亚马逊提供API,可以把封面、书评等内容直接嵌入OPAC的显示页面。而这两点,对GBS似乎都不存在。

    查GBS就会发现,它的图书标识是一长串似乎随机生成的代码,如“5EccAAAACAAJ”,据说是根据数字化时图书的条码号生成的。澳大利亚国家图书馆的LibraryLabs是很少几个链接GBS的OPAC,它规避了特定电子书的URL问题,通过OPAC检索时所用词串检索GBS得到一批图书封面及链接。而一般OPAC需要链接到某一特定版本,没有其标识号无法实现。

    其实GBS不只有一个ID,ISBN、OCLC#都可能是ID (vid, varied id?),这种多重ID的形式,其实对提供链接是一个福音。如前述ID的这本书,是庄子逸、许文霞所译兰开斯特的《通向无纸情报系统》,在GBS中查得到的URL是http://books.google.com/books?id=5EccAAAACAAJ,而用ISBN号的URL是:http://books.google.com/books?vid=7502305424

    美国东密歇根大学在去年十一月就通过OCLC#在OPAC中动态提供GBS的链接(根据是否能获取全文,给出不同的显示文字)。根据用此法得到的数据,仅有约5%有全文,约10%可以看片断。[update 2007-9-28] Wake Forest 大学 Professional Center Library 也采用东密歇根大学的方法提供GBS链接,一个使用OCLC#的实例:http://books.google.com/books?vid=OCLC49284042

    问题在于,无论是ISBN还是OCLC#,都不能保证查到实际上存在的GBS电子书。比如:http://books.google.com/books?id=CV0lHa0j2YAC,该书的ISBN为0802142818,但用http://books.google.com/books?vid=0802142818则没有结果 [2007-9-28更正:用http://books.google.com/books?vid=ISBN0802142818可以检索到。也就是说,使用ISBN时,加上ISBN标识检出可能性较高]。Karen举了另一个例子:http://books.google.com/books?id=MgSoZJLtmGQC。此书在哈佛大学书目中的OCLC#是16730575,但用此号构造出的URL并不存在(Not Found)。关于OCLC#,据说在WorldCat中对数字化图书都会另外给一个OCLC#,如此则原来纸本的OCLC#在这种情况下有用性大大降低。对于大量早期没有ISBN的图书,就只有利用GBS的ID一条途径了。

    LibraryThing的Tim Spalding要获取GBS的ID。因为之前AADL的John Blyberg曾试图用机器人获取,结果被Google封杀,所以Tim想如之前LT做合并同一版本那样,再次依靠群众的力量。他做了一个名为"Google Book Search Search"的小书签(bookmarklet),让LT用户及其他人在访问GBS时使用,以获取GBS的图书ID。由于是不同IP的人在分散访问GBS,或许可以避免被Google封杀——关于此点,Tim没有把握,毕竟是同用一个程序在获取数据。他在早上2点发布GBSS小书签,到晚上10点多发贴时,已有超过300个LT用户装上并开始使用了。
    Tim承诺所有获取的数据将会共享,供图书馆强化自己的OPAC。并设想(有了足够的数据后)在LibraryThing for Libraries中作为免费的部分提供。目前LT用户提供的数据可以在该网站的“Google Book Search Search Data”看到,全部数据的XML文件也可以下载

via: NGC4LIB
Adding links to books in Google Book Search within the OPAC (2007-9-14)
Announcing Google Book Search, um, Search (2007-9-17)

参见:
LibraryThing Blog: Google Book Search … on LibraryThing (2007-9-17)
http://www.librarything.com/blog/2007/09/google-book-search-on-librarything.php

Google图书搜索成为世界OPAC? (2006-8-25)
/posts/20060825164528.html
Google的《莎士比亚戏剧全集》 (2006-06-22)
/posts/20060622194146.html
Google合作馆如何处理他们的数字化图书 (2007-04-04)
/posts/20070405050354.html

在OPAC中嵌入LibraryThing提供的相关链接 (2007-04-10)
/posts/20070410205431.html
把图书馆2.0带入你的目录:LibraryThing for Libraries有了第一个用户 (2007-05-15)
/posts/20070515214513.html
thingISBN――用户视角的FRBR化成果 (2006-07-02)
/posts/20060702212245.html

秋后算帐:多收了三五斗

   有一老农,辛勤耕耘一年,收入不足5000,还没除去种子、化肥、农药……一应开销。
    看邻居,田没自己多,也不劳作,只偶而站田头袖手观望,就靠前一年收割时掉落在田里的种子自生自灭,居然也从田里收入近4000。
    老农心下暗想:明年?还得多盘算盘算!

附:搬家周年祭 (2006/9/16-2007/9/16)

    这些年来,日渐依赖RSS阅读,到现在,已很少在RSS阅读器之外读博文——除了想留言或看留言,基本上只读阅读器中显示的那部分内容,看不到的,就当不存在了。推己及人,搬家后不久便开始提供全文RSS。

    从开始写博起,一直注意访问统计。一年后注册了“51啦”,后来又同时用Google Analytics,空时看看访问自己Blog者的各种信息,有时也挺有意思。两个月前,无意中发现新旧Blog的访问统计竟然差别很小。虽然并未刻意追求访问数量,也知道Page View将死,但如此结果真是意料之外——仔细想想,似又在情理之中……

       访问量             博客中国/博客网   博客巴士
2006/9/16搬家日      103500(估计)       0
2007/9/16搬家周年    142775           49635
     年访问量                39275           49635


PS:Blogbus新近推出了访问统计,比较简单,也算不错了。除了原来的概览(总访问量、今日/本周/本月访问量、日志数、评论数等)外,新增项目:

最近一周访问量变化趋势(柱形图)
日志排名:访问量前十名日志(及访问数)
来源统计:访问来源前十位域名(及访问数)
来源关键词:前十个来源关键词(及访问数)、最近来源关键词
来源URL:访问来源前十条URL(及访问数)、访问来源最新URL

Scopus与引文评价H指数

    前两天看到丫枝转贴“谁是优秀的科学家 H指数来预测”:

    “H指数是2005年加利福尼亚大学圣地亚哥分校统计物理学家赫希在2005年发明的,立刻引起了全世界学术界的广泛关注,论文在网上公布后,《自然》和《科学》杂志先后报道,正式论文于2005年11月正式发表在《美国科学院院刊》上。”(Hirsch, J. E. An index to quantify an individual’s scientific research output. Proceedings of the National Academy of Sciences, 102, 16569–16572 (2005))
    “在H指数发明之前,常见的评估学术成就的方法有论文的总篇数和总引用率。但是前者的问题在于,那些只大量发表低影响力论文的人会因此受益,而后者的问题在于,一两篇高引用率的文章会掩盖了大量低引用率的文章。相比较而言,更公平的做法是计算文章的平均引用率。”
    “但是,H指数已经被公认为比平均引用率更科学的指标。所谓H指数,是指一个人有N篇论文分别被引用了至少N次。例如,普林斯顿高等研究所的物理学家爱德·威顿(Ed Witten)的H指数是110,表明他有110篇文章每篇至少被引用了110次。”
    “与其它统计方法不同的是,要确定一个人的H指数相当容易,只要到SCI网站,查出某个人发表的所有SCI论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于该论文被引次数,那个序号减去1就是H指数。”
    “赫希说:‘各个领域的人都在使用或者考虑使用H指数,将它作为招聘和研究经费评审的标准。我就亲眼见到过一些人在找工作的时候把H指数写进了简历。’”

    丫枝给的标题是“SCI与H指数:学术水平”,原文也是以SCI为例,说明H指数的获取方式。昨天与Elsevier的孙晓鹏聊天,谈到Scopus也有自己的H指数,并且2007年开始在检索结果中直接提供H指数链接,免去了排序、查找的麻烦。

    与SCI相比,Scopus的来源文献量较大,但收录的引文数据年限较短:
Scopus:来源:15000种同行评议期刊,最早回溯到期刊首期/1900年,文摘量3300百万;引文数据:1996-
Web of Science:来源:约8700种;引文数据:SCI,1900-;SSCI,1956-;A&HCI,1975-
    另一方面,Scopus有作者标识系统(Author identifier),对人名的做了一定的规范,或许对同名者的区分度要好于SCI。因为有上述种种差别,同一作者在SCI与Scopus中的H指数值肯定是不同的。
    如果有兴趣,或许或以做一下SCI与Scopus的H指数的对比研究。Scopus目前国内订购的还不太多,可以在它的网站上注册30天免费试用。
    Elsevier有针对图书馆员的电子版连续出版物LibraryConnect,并不定期地出版一些很实用的专题小册子。记得一年前曾向他们索取过印刷本,后来曾收到电邮告诉有一些有中文版。第9号小册子就是关于Scopus的:Using Scopus for Bibliometric Analysis: A Practical Guide(中文版:利用Scopus进行文献计量分析:应用指南),可以参考。

    
    赫希像当年的加菲尔德那样,持续不断地“挖掘”H指数的内涵,从评价到预测(Does the h-index have predictive power? ),或许H指数会日益引人注目。未来印上名片的可能性也存在啊^-^
    其实只要有引文信息的数据库,都可以提供自己的H指数,中文的也一样。引文数据的排序很简单,关键问题是对同名作者的识别、被引文献的唯一性处理──不解决这两个问题,引文数据库提供出来的数字就是捣浆糊了。

参见:
Scopus的作者规范与分面检索 (2007-02-08)
黄雀在后的《中文社会科学引文索引》 (2005-07-11)
CNKI的引文检索功能(兼及维普)(2005-09-14)

update (2007-9-14): 近段日子有事忙,很少看博。今日暂休,才看到图林中文译站上的两篇相关译稿:

总的说来,我对物理更感兴趣,而非引文

 原文Overall, I’m more interested in physics than citations
作者:Jorge Hirsch, 物理学教授,美国加州大学圣地亚哥分校

科研成果评价体系正在加快发展的步伐

原文Research Performance Measurement is revving up
作者:Helen de Mooij, Scopus 产品经理, Elsevier, 阿姆斯特丹, 荷兰

两篇均出自LibraryConnect,背景参见:山高水长:图林中文译站产生了国际影响