试用维普中国科学指标数据库

    前一阵用CNKI的《中国引文数据库,感觉不错。看到本馆试用维普的《中国科学指标数据库(CSI),赶紧试试,也可对照感受一下。

三个模块:
排名分析:学者、机构、地区、期刊
学科评估:学科排名、学科基线、研究前沿
顶尖论文:高被引论文、热点论文

学者排名:“展示各学科核心研究成员及其研究成果,提供各学科学者的科学指标查询”。可按学科、作者、机构、地区选择或检索查看,再按发文量、被引量、篇均被引值排序。

    选择学科“图书馆情报学”,缺省按被引量排序,改按篇均被引值排序,结果发现“郑州大学”的“程焕文”只发了1篇文章,就被引110次,真是太牛了(点击该文,显示被引量为108次,二者竟然不一致)。
    点击看“顶尖论文”,含意不明,比如图书馆情报学被引量排名第一的张晓林,顶尖论文4篇,被引量从81到21不等;而排第三的范并思,顶尖论文12篇,被引量从146到2不等。差别也太大了。
    点击看“趋势图”,更有意思了,不是逐年、而是交叉的5年时间段,显示发文量、被引量、篇均被引值的柱形图。

期刊排名:选择学科,图书馆情报学有1190种。按篇均被引值排序,原来依据的是刊登文章的学科,不少期刊发文量只有一篇。这也有一定的合理性。

研究前沿:“科学家紧密联系的研究区域一定程度上代表了学科发展的前沿区域”。选择学科,或者查关键词。
    图书馆情报学:列出了17个研究前沿,按被引排名第一的是“公共图书馆 图书馆精神 服务 图书馆权利”,不知道是如何组合出来的。一览表中列有平均发表年,有好几个都是2001年的,不论其主题如何,仅从年份而言,8年前的还能称“前沿”吗?
    关键词:查“数字图书馆”、“编目”、“文献”都没有结果,实在不甘心,查“图书馆”,总算有了14个结果──应该说“关键词”是名不符实的。点击第1个”公共图书馆 图书馆精神 服务 图书馆权利”,跳出来一个很酷的关系图,每一个节点都链接到图下的文章信息,边上有下载全文链接:

热点论文:“近两年发表的,在一个较短时间内被高度关注的论文是一个潜在的研究热点”
    图书馆情报学:列出79条,被引数在20到2之间,时间在2006年中以后。全部学科有2006年第1期的,似乎不同学科年限不尽一致。

   
印象中维普收录期刊数量一直在CNKI之上,但从CSI引文数据看,应该在CNKI之下。比如查机构,本校被引量最前的二篇均为范并思的,肯定会让本校众多教育学科的大牛不爽。再比如那篇”图书馆2.0:构建新的图书馆服务“,在CSI被引145次,而在CNKI中接近翻番。
     找来两方的介绍做一下对比:
CNKI《中国引文数据库》“收录了中国学术期刊(光盘版)电子杂志社出版的所有源数据库产品的参考文献……截至2007年12月,累计链接被引文献达 6848642 篇”。
维普《中国科学指标数据库》(CSI)“涵盖了包括理、工、农、医和社会科学等方面的4000余种期刊,数据评价时段从2000年跨度至当前,每双月更新”。与维普《中文科技期刊数据库(引文版)》“收录1989年以来8000多种期刊论文的参考文献”相比,竟然少了一半──实在想不通啊。

    总的来说,维普CSI是一个与CNKI引文库不同的产品,只是数据的数量与质量均差强人意,可用性就存疑了。虽然不知道二个产品内在运行机制,但从上述自我介绍及使用感受,CNKI引文数据应该是与主库同步的,数据量大、动态性好,而维普CSI却是独立于主库的产品,技术上似乎就落后了一截。现在H指数作为个人评价指标很流行,但维普如此数据,显然不敢提供──某人在CNKI的H指数为9,到了维普,竟只有1,谁还用它?

CNKI引文数据库与H指数、W指数

    丫枝介绍w-index后(h指数(h-index)之变体–w指数(w-index)诞生),去那儿留言鼓动他做牛人们的h-index和w-index,看到结果(图林牛人们的h指数与w指数选择阅读图情牛人经典文献(鸡鱼w指数)),也想算算自己的指数几何。
    进入CNKI中国引文数据库(http://ref.cnki.net/),看到左栏“统计数据”下有“作者统计”,想当然地由此而入,其下已有“H指数”这一项,但如何获取w指数?总不至于逐篇查找后统计?
    看丫枝一日间做了N多牛人的统计,网上碰到,就讨教如何做成的。一来二去,才发现自己弄错了入口,如丫枝所言,“在初级检索处,直接输入作者名就行”──JADSL的人机交互老师Michael B. Twidale说,What you see depands on what you know,这里居然是个逆向干扰的例子。
    如上所说是新的引文库入口,需要注册才能使用(依丫枝告,免费注册使用),直接检索的结果提供题名及被引频次等信息,可依次复制到EXCEL中处理。由于进入时看得不仔细,一度从旧版进入(竟然是无需注册的),结果发现检索结果一览就是表格形式的,可以整批复制到EXCEL表中,处理起来方便不少。(在CNKI主页上看介绍新旧引文库应该是一致的,但实际检索结果略有差异,不知何故)
    根据丫枝发来的统计表样例,按文章被引频次在EXCEL表中降序排序,从上到下有N篇被引N次,则H指数为N;有M篇被引10M次,则W指数为M。果然“简单”。

    转引丫枝对w指数值意义的说明:
i) w 指数为 1 或者 2,表示该研究者已经学到了一个课题的基本。
ii) w 指数为 3 或者 4,表示该研究者已经掌握了 the art of scientific activity。
iii) w 指数为 5,表明他是位成功的研究者。
iv) w 指数为 10,表明他是为出色的科学家。
v) 工作 20 年后 w 指数超过 15,或者 30 年后指数超过 20,那就是顶尖科学家了。

    查了一些人的H指数和W指数后,感觉H指数更有区别性,任何人只要发表一篇文章得到一次引用,就得到H指数为1;而要使W指数为1,至少须得有一篇文章被引十次以上(不是总被引次数)。我查到几位H指数从1到4的,W指数均为0──W指数用来给大牛们排名还有点用,要用做一般人的评价指标则是形同虚设了。不过,如果上面这个“意义说明”竟被有关部门认可,也会让N多牛人非常伤心的。

    老槐曾认为当年选择“三大检索刊物”作为大学排名研究的依据是由于这几个刊物的检索功能而非收录内容(排行榜研究的智慧),事实是否如此不得而知。但此次丫枝做引文分析选CNKI而舍CSSCI,则明确申明是功能的原因。自己很少有几次不得已使用CSSCI,总有恨铁不成钢的感觉──多少年了,得到荣誉无数,怎么还看不到多少长进呢?

参见:
CNKI的引文检索功能(兼及维普)(2005-09-14))
Scopus与引文评价H指数 (2007-09-12)
中美数图研讨班2008·人机交互与数字化图书馆 (2008-05-24)

Scopus与引文评价H指数

    前两天看到丫枝转贴“谁是优秀的科学家 H指数来预测”:

    “H指数是2005年加利福尼亚大学圣地亚哥分校统计物理学家赫希在2005年发明的,立刻引起了全世界学术界的广泛关注,论文在网上公布后,《自然》和《科学》杂志先后报道,正式论文于2005年11月正式发表在《美国科学院院刊》上。”(Hirsch, J. E. An index to quantify an individual’s scientific research output. Proceedings of the National Academy of Sciences, 102, 16569–16572 (2005))
    “在H指数发明之前,常见的评估学术成就的方法有论文的总篇数和总引用率。但是前者的问题在于,那些只大量发表低影响力论文的人会因此受益,而后者的问题在于,一两篇高引用率的文章会掩盖了大量低引用率的文章。相比较而言,更公平的做法是计算文章的平均引用率。”
    “但是,H指数已经被公认为比平均引用率更科学的指标。所谓H指数,是指一个人有N篇论文分别被引用了至少N次。例如,普林斯顿高等研究所的物理学家爱德·威顿(Ed Witten)的H指数是110,表明他有110篇文章每篇至少被引用了110次。”
    “与其它统计方法不同的是,要确定一个人的H指数相当容易,只要到SCI网站,查出某个人发表的所有SCI论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于该论文被引次数,那个序号减去1就是H指数。”
    “赫希说:‘各个领域的人都在使用或者考虑使用H指数,将它作为招聘和研究经费评审的标准。我就亲眼见到过一些人在找工作的时候把H指数写进了简历。’”

    丫枝给的标题是“SCI与H指数:学术水平”,原文也是以SCI为例,说明H指数的获取方式。昨天与Elsevier的孙晓鹏聊天,谈到Scopus也有自己的H指数,并且2007年开始在检索结果中直接提供H指数链接,免去了排序、查找的麻烦。

    与SCI相比,Scopus的来源文献量较大,但收录的引文数据年限较短:
Scopus:来源:15000种同行评议期刊,最早回溯到期刊首期/1900年,文摘量3300百万;引文数据:1996-
Web of Science:来源:约8700种;引文数据:SCI,1900-;SSCI,1956-;A&HCI,1975-
    另一方面,Scopus有作者标识系统(Author identifier),对人名的做了一定的规范,或许对同名者的区分度要好于SCI。因为有上述种种差别,同一作者在SCI与Scopus中的H指数值肯定是不同的。
    如果有兴趣,或许或以做一下SCI与Scopus的H指数的对比研究。Scopus目前国内订购的还不太多,可以在它的网站上注册30天免费试用。
    Elsevier有针对图书馆员的电子版连续出版物LibraryConnect,并不定期地出版一些很实用的专题小册子。记得一年前曾向他们索取过印刷本,后来曾收到电邮告诉有一些有中文版。第9号小册子就是关于Scopus的:Using Scopus for Bibliometric Analysis: A Practical Guide(中文版:利用Scopus进行文献计量分析:应用指南),可以参考。

    
    赫希像当年的加菲尔德那样,持续不断地“挖掘”H指数的内涵,从评价到预测(Does the h-index have predictive power? ),或许H指数会日益引人注目。未来印上名片的可能性也存在啊^-^
    其实只要有引文信息的数据库,都可以提供自己的H指数,中文的也一样。引文数据的排序很简单,关键问题是对同名作者的识别、被引文献的唯一性处理──不解决这两个问题,引文数据库提供出来的数字就是捣浆糊了。

参见:
Scopus的作者规范与分面检索 (2007-02-08)
黄雀在后的《中文社会科学引文索引》 (2005-07-11)
CNKI的引文检索功能(兼及维普)(2005-09-14)

update (2007-9-14): 近段日子有事忙,很少看博。今日暂休,才看到图林中文译站上的两篇相关译稿:

总的说来,我对物理更感兴趣,而非引文

 原文Overall, I’m more interested in physics than citations
作者:Jorge Hirsch, 物理学教授,美国加州大学圣地亚哥分校

科研成果评价体系正在加快发展的步伐

原文Research Performance Measurement is revving up
作者:Helen de Mooij, Scopus 产品经理, Elsevier, 阿姆斯特丹, 荷兰

两篇均出自LibraryConnect,背景参见:山高水长:图林中文译站产生了国际影响