Scopus与引文评价H指数

    前两天看到丫枝转贴“谁是优秀的科学家 H指数来预测”:

    “H指数是2005年加利福尼亚大学圣地亚哥分校统计物理学家赫希在2005年发明的,立刻引起了全世界学术界的广泛关注,论文在网上公布后,《自然》和《科学》杂志先后报道,正式论文于2005年11月正式发表在《美国科学院院刊》上。”(Hirsch, J. E. An index to quantify an individual’s scientific research output. Proceedings of the National Academy of Sciences, 102, 16569–16572 (2005))
    “在H指数发明之前,常见的评估学术成就的方法有论文的总篇数和总引用率。但是前者的问题在于,那些只大量发表低影响力论文的人会因此受益,而后者的问题在于,一两篇高引用率的文章会掩盖了大量低引用率的文章。相比较而言,更公平的做法是计算文章的平均引用率。”
    “但是,H指数已经被公认为比平均引用率更科学的指标。所谓H指数,是指一个人有N篇论文分别被引用了至少N次。例如,普林斯顿高等研究所的物理学家爱德·威顿(Ed Witten)的H指数是110,表明他有110篇文章每篇至少被引用了110次。”
    “与其它统计方法不同的是,要确定一个人的H指数相当容易,只要到SCI网站,查出某个人发表的所有SCI论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于该论文被引次数,那个序号减去1就是H指数。”
    “赫希说:‘各个领域的人都在使用或者考虑使用H指数,将它作为招聘和研究经费评审的标准。我就亲眼见到过一些人在找工作的时候把H指数写进了简历。’”

    丫枝给的标题是“SCI与H指数:学术水平”,原文也是以SCI为例,说明H指数的获取方式。昨天与Elsevier的孙晓鹏聊天,谈到Scopus也有自己的H指数,并且2007年开始在检索结果中直接提供H指数链接,免去了排序、查找的麻烦。

    与SCI相比,Scopus的来源文献量较大,但收录的引文数据年限较短:
Scopus:来源:15000种同行评议期刊,最早回溯到期刊首期/1900年,文摘量3300百万;引文数据:1996-
Web of Science:来源:约8700种;引文数据:SCI,1900-;SSCI,1956-;A&HCI,1975-
    另一方面,Scopus有作者标识系统(Author identifier),对人名的做了一定的规范,或许对同名者的区分度要好于SCI。因为有上述种种差别,同一作者在SCI与Scopus中的H指数值肯定是不同的。
    如果有兴趣,或许或以做一下SCI与Scopus的H指数的对比研究。Scopus目前国内订购的还不太多,可以在它的网站上注册30天免费试用。
    Elsevier有针对图书馆员的电子版连续出版物LibraryConnect,并不定期地出版一些很实用的专题小册子。记得一年前曾向他们索取过印刷本,后来曾收到电邮告诉有一些有中文版。第9号小册子就是关于Scopus的:Using Scopus for Bibliometric Analysis: A Practical Guide(中文版:利用Scopus进行文献计量分析:应用指南),可以参考。

    
    赫希像当年的加菲尔德那样,持续不断地“挖掘”H指数的内涵,从评价到预测(Does the h-index have predictive power? ),或许H指数会日益引人注目。未来印上名片的可能性也存在啊^-^
    其实只要有引文信息的数据库,都可以提供自己的H指数,中文的也一样。引文数据的排序很简单,关键问题是对同名作者的识别、被引文献的唯一性处理──不解决这两个问题,引文数据库提供出来的数字就是捣浆糊了。

参见:
Scopus的作者规范与分面检索 (2007-02-08)
黄雀在后的《中文社会科学引文索引》 (2005-07-11)
CNKI的引文检索功能(兼及维普)(2005-09-14)

update (2007-9-14): 近段日子有事忙,很少看博。今日暂休,才看到图林中文译站上的两篇相关译稿:

总的说来,我对物理更感兴趣,而非引文

 原文Overall, I’m more interested in physics than citations
作者:Jorge Hirsch, 物理学教授,美国加州大学圣地亚哥分校

科研成果评价体系正在加快发展的步伐

原文Research Performance Measurement is revving up
作者:Helen de Mooij, Scopus 产品经理, Elsevier, 阿姆斯特丹, 荷兰

两篇均出自LibraryConnect,背景参见:山高水长:图林中文译站产生了国际影响

你们馆参加Google学术搜索“图书馆链接计划”吗?

    今天看到Google馆员中心博客报道,始于2005年5月的Google学术搜索的“图书馆链接计划”,至今参加馆已经超过1200家(Google Scholar Library Links Hits 1,200 Participating Libraries)。
    加入图书馆链接计划后,图书馆读者在使用Google学术搜索时,如果查到的文献在本馆有馆藏,就会出现访问馆藏的链接(根据IP限定,或者通过“使用偏好”设定)。如果链接的是订购的电子资源,直接点击就可以看原文;如果是印刷文献,点击后就可以进入馆藏目录系统(看馆藏状态等)。

    大陆最早参加的应当是清华大学图书馆,2006年初查得的还有国家图书馆、北京师范大学和北京理工大学。国家科学图书馆于2006年4、5月间加入。香港已由2006年初的2家增至目前的4家。台湾现有5家,包括台湾地区联合目录NBINet。由于没有参加馆一览表,具体有哪些图书馆加入,难以全面了解。

    “图书馆链接计划”是免费的。根据使用说明,参与馆有两个条件,一是有链接服务器,二是须将电子馆藏告知Google。
    去年评论国家科学图书馆加入Google图书馆链接计划一事,有“国图人”留言,说是国家图书馆与国家科学图书馆都只是向Google开放链接,而并未提供馆藏,因为这“是一件需要非常慎重处理的事,一般图书馆恐怕都会三思”。或许说明二家图书馆提供的都是“脱机馆藏资料”,即图书馆目录,而非电子资源的具体订购信息。Google需要电子馆藏的目的是定向到具体的原文,把“脱机馆藏”给Google是没有意义的。

    就Google学术搜索而言,用户使用主要是检索学术论文,而不是图书。查图书一般会选择Google图书搜索。所以图书馆以订购电子资源(也包括电子图书)加入图书馆链接计划,比馆藏纸本书目更有意义。订购电子资源并非本馆独特资源,提供给Google大约相对而言也无需“三思”。更重要的是,读者点击后看到的是原文,而不是一个OPAC检索结果,用户体验会比较好,更有实际意义。而“脱机馆藏”或馆藏纸本书目,应当只是个副产品,因为一般链接服务器总会将本馆OPAC配置在内的。

    不知道已经参加的图书馆馆有没有统计数据,反映通过Google学术搜索链接到原文的情况,在原文浏览或下载中占多少比例。
    如果没有这些信息,而图书馆有参与意向,或许也可以先做个读者调查,看有多少读者通过Google学术搜索寻找资料,是否希望经此途径直接链接到电子全文,等等。
    虽然参与计划是免费的,但图书馆的相关部门还是有很多工作要做的,诸如配置链接解析器,提供校园网IP地址范围,校园网外访问处理,提供完整准确的电子馆藏等等。从这个角度,是否要加入这个计划,也是要慎重对待的。

附:
在Google学术搜索的“使用偏好”中“查找图书馆”,可以在命中的结果中选择需要显示访问链接的图书馆。现在缺省的选择是“图书馆搜索”──那是国家科学图书馆联合目录的链接标识(参见下文)。
发现一些查找结果是不可选的,如查“Shanghai”,结果处“灰色”状态,有7个不同的图书馆,但链接显示文字都是“Full Text@IngentaConnect”,显然并非这七所图书馆加入了该计划,而是IngentaConnect加入了该计划。
Google不会把这些图书馆都算入1200家中吧?那水份就太大了。

参见:
通过Google学术搜索下载图书馆订购电子资源 (2006-02-04)
国家科学图书馆的网络营销 (2006-05-03)
趋势:通过搜索引擎查找收费电子资源 (2005-06-18)

中文图书搜索网站比较

    前几天写“百度图书搜索试用记”时,在百度贴吧看到“百度四月底图书搜索线,展望与猜想”,又看到二个图书网站。与百度图书搜索一样,也用“刘国钧”查,对照一下结果(“百度一下,找到相关网页133篇”)。

朗润书目(http://book.lrbook.com/)
找到与 刘国钧 相关的图书约 62 种

觉得检索结果页面很像超星:
左栏是中图分类,可以按类限定检索(对排除不同学科同名作者很有用);
右侧是带封面的简单书目信息,可以选择按书名、作者、出版日期排序。
详细信息页除图书封面及书目信息(包括主题词)外,还可以“试读”版权页、前言、目录及正文10页(推荐!)。

据介绍,朗润书店是个专为图书馆提供图书的书店,详细信息页还有“图书馆借阅”,显示的应该是从该店购书的图书馆链接,有点像联合目录,大都直接链接到各馆OPAC记录。

用户参与部分与做得很好,在详细信息页,可以“收藏到我的图书馆”,看到“本书收藏人”“收藏本书的专题馆”;也可以给本书“评分”(1-5颗星)“报告错误”“推荐朋友”“发表我的评论”“添加信息”(欢迎转发各类媒体上与本书相关的信息)甚至“我要提供”(全文)。

编目员或许感兴趣的“获得CNMARC数据”则要通过发邮件获取。也是到了此页面,才发现原来转到了“读秀”(http://www.duxiu.com),“我的图书馆”、“专题图书馆”都是读秀上的内容,据称已有35万注册用户了。怪不得前面觉得像超星呢,原来是同胞啊。才想起贴吧上那位说的是:“读秀已出,谁与争锋”。

中文图书信息库(http://www.cbdb.cn/)
找到与 刘国钧 相关的图书约 102 种

缺省为按相关度排序,也可按出版日期正序、倒序排列

结果数比百度图书搜索少,但排序方式不错。
按出版日期正序排,可以看到其中收录了不少民国时期图书,要做近代学术研究,应该是个不错的信息搜寻地。在检索结果中随意找了一本《江西暑期学术讲演集》,在百度、朗润、读秀中均未查到。

详细信息页有“图书详情”“发表评论”“上传此书的封面”“此条目有错误?”,均需注册登录才能参与;还可以“把这本书加入我的收藏”,分为“读过”“在读”“想读”,自然也需登录。从“本书常用标签”可以推测,登录后可以为图书加标签。用户体验不如朗润/读秀,至少我现在是见到要注册,第一个念头就是放弃,看都没看到能做些什么、已经做了些什么,凭什么就要注册?看图书详情就要注册,更不应该。

网站显示“目前可查询图书信息: 2207515+”,收录信息丰富不用说。但“个人书架”“专题书架”甚至“帮助与设置”都还只是空设的;论坛虽有867个会员,但总共才109篇主题、205篇帖子,与读秀之热闹尚有距离。

    网站上没有对自己的任何介绍。据“百度四月底图书搜索上线,展望与猜想”一文所说,中文图书信息库是由“IT界元老级人物,手机在线创始人高春辉paulgao和朋友合办的”。

   最后如前文所说,“google图书搜索真的很差”:

谷歌图书搜索(http://books.google.cn)
搜索 刘国钧 共得到 4 本图书

结果真是少得可怜。不过,由于搜索包括图书全文而不限于目次简介,很多情况下可以看到在搜索结果标题栏标明了页码,这表明可以直接链接到搜索词所在页面、看到上下文。这也是其它几个中文图书搜索、包括电子书网站均不具备的功能。电子书网站目前都是看前XX页,也未提供全文搜索。

豆瓣(http://www.douban.com):3个结果
豆瓣粉丝很多,就不说了。(今天好不容易看到一个说它坏话的
参见:用“豆瓣”的一站式图书搜索帮助编目 (2005-09-06)

附电子书网站检索结果,使用情况详见“百度图书搜索试用记
超星(http://www.ssreader.com/)
找到与刘国钧相关的图书 12 种
阿帕比(http://search.apabi.com/)
约有2项结果