乐此不疲 – 第 34 页 – 编目精灵III

Google图书搜索的电子书网址

越来越多的图书被数字化并上网，如果能够在OPAC中揭示出这些电子书的存在，无疑将方便读者利用。要在OPAC中提供链接，首先需要解决的问题是得到这些电子书的网址。Karen Coyle曾设想建立一个转换数据库("switching" database)，能够通过LCCN、ISBN、OCLC#及少量书目元数据，获取数字图书的URL（包括Google图书搜索、开放内容联盟OCA及古登堡计划）。除非这些数字化项目本身支持，否则这个大工程可是很棘手的。

Google图书搜索(GBS)虽则官司缠身，可与之合作的图书馆却在陆续增加，数字化的图书也在不断上网。目前能提供全文阅读的比例不高（美国以外这个比例更低），但能够阅读部分、或者目次也有一定需求，因此增加GBS的链接，对图书馆有了一定的吸引力。

在近年OPAC的改进过程中，使用亚马逊的信息比较多。除了内容丰富外，技术上的原因主要是亚马逊在有ISBN的情况下，直接用ISBN号作为其标识，可以很方便地构成图书各方面信息的URL，提供链接；另一个原因是亚马逊提供API，可以把封面、书评等内容直接嵌入OPAC的显示页面。而这两点，对GBS似乎都不存在。

查GBS就会发现，它的图书标识是一长串似乎随机生成的代码，如“5EccAAAACAAJ”，据说是根据数字化时图书的条码号生成的。澳大利亚国家图书馆的LibraryLabs是很少几个链接GBS的OPAC，它规避了特定电子书的URL问题，通过OPAC检索时所用词串检索GBS得到一批图书封面及链接。而一般OPAC需要链接到某一特定版本，没有其标识号无法实现。

其实GBS不只有一个ID，ISBN、OCLC#都可能是ID (vid, varied id?)，这种多重ID的形式，其实对提供链接是一个福音。如前述ID的这本书，是庄子逸、许文霞所译兰开斯特的《通向无纸情报系统》，在GBS中查得到的URL是http://books.google.com/books?id=5EccAAAACAAJ，而用ISBN号的URL是：http://books.google.com/books?vid=7502305424。

美国东密歇根大学在去年十一月就通过OCLC#在OPAC中动态提供GBS的链接（根据是否能获取全文，给出不同的显示文字）。根据用此法得到的数据，仅有约5%有全文，约10%可以看片断。[update 2007-9-28] Wake Forest 大学 Professional Center Library 也采用东密歇根大学的方法提供GBS链接，一个使用OCLC#的实例：http://books.google.com/books?vid=OCLC49284042。

问题在于，无论是ISBN还是OCLC#，都不能保证查到实际上存在的GBS电子书。比如：http://books.google.com/books?id=CV0lHa0j2YAC，该书的ISBN为0802142818，但用http://books.google.com/books?vid=0802142818则没有结果 [2007-9-28更正：用http://books.google.com/books?vid=ISBN0802142818可以检索到。也就是说，使用ISBN时，加上ISBN标识检出可能性较高]。Karen举了另一个例子：http://books.google.com/books?id=MgSoZJLtmGQC。此书在哈佛大学书目中的OCLC#是16730575，但用此号构造出的URL并不存在(Not Found)。关于OCLC#，据说在WorldCat中对数字化图书都会另外给一个OCLC#，如此则原来纸本的OCLC#在这种情况下有用性大大降低。对于大量早期没有ISBN的图书，就只有利用GBS的ID一条途径了。

LibraryThing的Tim Spalding要获取GBS的ID。因为之前AADL的John Blyberg曾试图用机器人获取，结果被Google封杀，所以Tim想如之前LT做合并同一版本那样，再次依靠群众的力量。他做了一个名为"Google Book Search Search"的小书签(bookmarklet)，让LT用户及其他人在访问GBS时使用，以获取GBS的图书ID。由于是不同IP的人在分散访问GBS，或许可以避免被Google封杀——关于此点，Tim没有把握，毕竟是同用一个程序在获取数据。他在早上2点发布GBSS小书签，到晚上10点多发贴时，已有超过300个LT用户装上并开始使用了。
Tim承诺所有获取的数据将会共享，供图书馆强化自己的OPAC。并设想（有了足够的数据后）在LibraryThing for Libraries中作为免费的部分提供。目前LT用户提供的数据可以在该网站的“Google Book Search Search Data”看到，全部数据的XML文件也可以下载。

via: NGC4LIB
Adding links to books in Google Book Search within the OPAC (2007-9-14)
Announcing Google Book Search, um, Search (2007-9-17)

参见：
LibraryThing Blog: Google Book Search … on LibraryThing (2007-9-17)
http://www.librarything.com/blog/2007/09/google-book-search-on-librarything.php

Google图书搜索成为世界OPAC? (2006-8-25)
/posts/2006/0825/826
Google的《莎士比亚戏剧全集》 (2006-06-22)
/posts/2006/0622/824
Google合作馆如何处理他们的数字化图书 (2007-04-04)
/posts/2007/0404/482

在OPAC中嵌入LibraryThing提供的相关链接 (2007-04-10)
/posts/2007/0410/480
把图书馆2.0带入你的目录：LibraryThing for Libraries有了第一个用户 (2007-05-15)
/posts/2007/0515/466
thingISBN――用户视角的FRBR化成果 (2006-07-02)
/posts/2006/0702/854

Scopus与引文评价H指数

前两天看到丫枝转贴“谁是优秀的科学家 H指数来预测”：

    “H指数是2005年加利福尼亚大学圣地亚哥分校统计物理学家赫希在2005年发明的，立刻引起了全世界学术界的广泛关注，论文在网上公布后，《自然》和《科学》杂志先后报道，正式论文于2005年11月正式发表在《美国科学院院刊》上。”(Hirsch, J. E. An index to quantify an individual’s scientific research output. Proceedings of the National Academy of Sciences, 102, 16569–16572 (2005))
    “在H指数发明之前，常见的评估学术成就的方法有论文的总篇数和总引用率。但是前者的问题在于，那些只大量发表低影响力论文的人会因此受益，而后者的问题在于，一两篇高引用率的文章会掩盖了大量低引用率的文章。相比较而言，更公平的做法是计算文章的平均引用率。”
    “但是，H指数已经被公认为比平均引用率更科学的指标。所谓H指数，是指一个人有N篇论文分别被引用了至少N次。例如，普林斯顿高等研究所的物理学家爱德·威顿（Ed Witten）的H指数是110，表明他有110篇文章每篇至少被引用了110次。”
    “与其它统计方法不同的是，要确定一个人的H指数相当容易，只要到SCI网站，查出某个人发表的所有SCI论文，让其按被引次数从高到低排列，往下核对，直到某篇论文的序号大于该论文被引次数，那个序号减去1就是H指数。”
    “赫希说：‘各个领域的人都在使用或者考虑使用H指数，将它作为招聘和研究经费评审的标准。我就亲眼见到过一些人在找工作的时候把H指数写进了简历。’”

丫枝给的标题是“SCI与H指数：学术水平”，原文也是以SCI为例，说明H指数的获取方式。昨天与Elsevier的孙晓鹏聊天，谈到Scopus也有自己的H指数，并且2007年开始在检索结果中直接提供H指数链接，免去了排序、查找的麻烦。

    与SCI相比，Scopus的来源文献量较大，但收录的引文数据年限较短：
Scopus：来源：15000种同行评议期刊，最早回溯到期刊首期/1900年，文摘量3300百万；引文数据：1996-
Web of Science：来源：约8700种；引文数据：SCI，1900-；SSCI，1956-；A&HCI，1975-
    另一方面，Scopus有作者标识系统(Author identifier)，对人名的做了一定的规范，或许对同名者的区分度要好于SCI。因为有上述种种差别，同一作者在SCI与Scopus中的H指数值肯定是不同的。
    如果有兴趣，或许或以做一下SCI与Scopus的H指数的对比研究。Scopus目前国内订购的还不太多，可以在它的网站上注册30天免费试用。
    Elsevier有针对图书馆员的电子版连续出版物LibraryConnect，并不定期地出版一些很实用的专题小册子。记得一年前曾向他们索取过印刷本，后来曾收到电邮告诉有一些有中文版。第9号小册子就是关于Scopus的：Using Scopus for Bibliometric Analysis: A Practical Guide（中文版：利用Scopus进行文献计量分析：应用指南），可以参考。

    赫希像当年的加菲尔德那样，持续不断地“挖掘”H指数的内涵，从评价到预测（Does the h-index have predictive power? ），或许H指数会日益引人注目。未来印上名片的可能性也存在啊^-^
    其实只要有引文信息的数据库，都可以提供自己的H指数，中文的也一样。引文数据的排序很简单，关键问题是对同名作者的识别、被引文献的唯一性处理──不解决这两个问题，引文数据库提供出来的数字就是捣浆糊了。

参见：
Scopus的作者规范与分面检索 (2007-02-08)
黄雀在后的《中文社会科学引文索引》 (2005-07-11)
CNKI的引文检索功能（兼及维普）(2005-09-14)

update (2007-9-14): 近段日子有事忙，很少看博。今日暂休，才看到图林中文译站上的两篇相关译稿：

总的说来，我对物理更感兴趣，而非引文

原文：Overall, I’m more interested in physics than citations
作者：Jorge Hirsch, 物理学教授，美国加州大学圣地亚哥分校

科研成果评价体系正在加快发展的步伐

原文：Research Performance Measurement is revving up
作者：Helen de Mooij, Scopus 产品经理, Elsevier, 阿姆斯特丹, 荷兰

两篇均出自LibraryConnect，背景参见：山高水长：图林中文译站产生了国际影响

你们馆参加Google学术搜索“图书馆链接计划”吗？

今天看到Google馆员中心博客报道，始于2005年5月的Google学术搜索的“图书馆链接计划”，至今参加馆已经超过1200家(Google Scholar Library Links Hits 1,200 Participating Libraries)。
加入图书馆链接计划后，图书馆读者在使用Google学术搜索时，如果查到的文献在本馆有馆藏，就会出现访问馆藏的链接（根据IP限定，或者通过“使用偏好”设定）。如果链接的是订购的电子资源，直接点击就可以看原文；如果是印刷文献，点击后就可以进入馆藏目录系统（看馆藏状态等）。

大陆最早参加的应当是清华大学图书馆，2006年初查得的还有国家图书馆、北京师范大学和北京理工大学。国家科学图书馆于2006年4、5月间加入。香港已由2006年初的2家增至目前的4家。台湾现有5家，包括台湾地区联合目录NBINet。由于没有参加馆一览表，具体有哪些图书馆加入，难以全面了解。

“图书馆链接计划”是免费的。根据使用说明，参与馆有两个条件，一是有链接服务器，二是须将电子馆藏告知Google。
去年评论国家科学图书馆加入Google图书馆链接计划一事，有“国图人”留言，说是国家图书馆与国家科学图书馆都只是向Google开放链接，而并未提供馆藏，因为这“是一件需要非常慎重处理的事，一般图书馆恐怕都会三思”。或许说明二家图书馆提供的都是“脱机馆藏资料”，即图书馆目录，而非电子资源的具体订购信息。Google需要电子馆藏的目的是定向到具体的原文，把“脱机馆藏”给Google是没有意义的。

就Google学术搜索而言，用户使用主要是检索学术论文，而不是图书。查图书一般会选择Google图书搜索。所以图书馆以订购电子资源（也包括电子图书）加入图书馆链接计划，比馆藏纸本书目更有意义。订购电子资源并非本馆独特资源，提供给Google大约相对而言也无需“三思”。更重要的是，读者点击后看到的是原文，而不是一个OPAC检索结果，用户体验会比较好，更有实际意义。而“脱机馆藏”或馆藏纸本书目，应当只是个副产品，因为一般链接服务器总会将本馆OPAC配置在内的。

    不知道已经参加的图书馆馆有没有统计数据，反映通过Google学术搜索链接到原文的情况，在原文浏览或下载中占多少比例。
    如果没有这些信息，而图书馆有参与意向，或许也可以先做个读者调查，看有多少读者通过Google学术搜索寻找资料，是否希望经此途径直接链接到电子全文，等等。
    虽然参与计划是免费的，但图书馆的相关部门还是有很多工作要做的，诸如配置链接解析器，提供校园网IP地址范围，校园网外访问处理，提供完整准确的电子馆藏等等。从这个角度，是否要加入这个计划，也是要慎重对待的。

附：
在Google学术搜索的“使用偏好”中“查找图书馆”，可以在命中的结果中选择需要显示访问链接的图书馆。现在缺省的选择是“图书馆搜索”──那是国家科学图书馆联合目录的链接标识（参见下文）。
发现一些查找结果是不可选的，如查“Shanghai”，结果处“灰色”状态，有7个不同的图书馆，但链接显示文字都是“Full Text@IngentaConnect”，显然并非这七所图书馆加入了该计划，而是IngentaConnect加入了该计划。
Google不会把这些图书馆都算入1200家中吧？那水份就太大了。

参见：
通过Google学术搜索下载图书馆订购电子资源 (2006-02-04)
国家科学图书馆的网络营销 (2006-05-03)
趋势：通过搜索引擎查找收费电子资源 (2005-06-18)