出版还是出局——一款引文分析软件

    出版还是出局,是每个从事学术研究者都不得不面对的问题。现有一个同名引文分析软件 Publish or Perish,供个人非赢利使用。其方法是检索Google Scholar获取原始引文信息,经分析后提供一些统计数据。

    软件相当小巧,415K,包括1作者影响分析、2期刊影响分析、3高级引文检索,可选择限定在七大学科门类中进行。目前版本是2.2.2781 (12 August 2007),提交查询后出现等候框,说根据数据量、最多需等二分钟,由于没有显示进程或表明统计进行中,等候时有运行中止之感。

    实际等候时间不算太长,原因大概由于Google Scholar只返1000条结果,因而也只需分析这些结果——这是该软件的致命伤。比如在Google Scholar查"Library Journal",结果有35,200个,实际能看到的只有994条。“用户手册”在解释结果的准确性(Accuracy of the results)时指出,Google Scholar的返回是根据引文数量排序的,因而能够反映引用最多的结果。同时手册也承认,由于引文分析依赖Google Scholar返回的结果,因而不是100%准确的。

    Library Journal 的引文分析结果概述如下:

Papers:         990    Cites/paper:    1.41    h-index:    19    AWCR:    182.40
Citations:  1394    Cites/author:    1126.23    g-index:    29    AW-index:13.51
Years:          37    Papers/author:    935.02    hc-index:    11    AWCRpA:    144.95
Cites/year:37.68    Authors/paper:    1.15    hI-index:    13.88
                                hI,norm:    18

    FW Lancaster 的引文分析结果概述如下:
Papers:           321      Cites/paper:    5.58    h-index:    20    AWCR:    158.83
Citations:    1792    Cites/author:    1253.85    g-index:    37    AW-index:12.60
Years:           127    Papers/author:    244.82    hc-index:    11    AWCRpA:    122.91
Cites/year:  14.11    Authors/paper:    1.68    hI-index:    10.00
                                hI,norm:    16

    多年未碰引文分析,很多结果看不懂。其实其“用户手册”及软件下载网页上有说明,懒得细看了。

    在结果概述下,依引用次数顺序列出各篇文章,包括总引用数、年均引用数、排序rank、作者、题名、出版年、出版物及出版者。点击结果行,则跳转到浏览器的Google Scholar的检索结果页面——也就是所有引用该文章的文章一览了。

    分析结果可以复制。软件的查询中心(Multi-query center)保留各次查询结果概述,可供比较;点击其概述也可重新看详细结果。

    Lorcan Dempsey说(Publish or Perish),希望看到与ISI结果的比较。这或许是写论文的好题材。
    当然这首先取决于Google Scholar收录学术期刊的情况。如果本软件的分析结果真与SCI/SSCI/A&HCI的结果差别不大,就别花大价钱买了吧。

    什么时候,有谁做出谷歌学术搜索中文版的引文分析软件,或许也可取CSSCI、CSCI而代之?

CNKI的引文检索功能(兼及维普)

    前些日子写“黄雀在后的《中文社会科学引文索引》”,因为CSSCI实在让人为之担忧(纯属自作多情)。而“期刊网”虽非专为引文分析而做,但作为一个副产品,可以查到的引文结果更多。查了几个人,在基本相同的时间段中,通过期刊网查到的结果均数倍甚至十倍于CSSCI。CNKI引文功能的市场前景比CSSCI乐观得多,当然还大有发展余地。

    通称的中国期刊网,现在其收录范围已经不限于期刊,正式名称不知何时变成了“中国知网”(CNKI)。前段日子改版后,其“ 中国学术期刊全文数据库”改变了以检索结果一览表提供单篇文章下载的简单形式,强化了相关文献分析与链接功能。点击单篇文献后,“关键词”有了链接检索功能,另外还有同类文献链接、相关研究机构链接、相关文献作者链接、相关关键词链接、中图法分类文献导航(分类检索链接)。

    单篇文献页面上方,还有目前尚不可用的“参考文献链接”和“引证文献链接”。不知道是本馆购买的产品功能不全,还是CNKI确未开通此功能。想来“参考文献链接”应该是本文引用文献链接,而“引证文献链接”应该是引用本文文献的链接。只要不是高产作者,未来通过“引证文献链接”逐篇统计某作者期刊论文被引情况,应该是十分方便的。

    现在提供的引文检索功能,是首页的检索项“参考文献”。通过“参考文献”可以进行更广泛的被引文献检索――包括CNKI收录期刊论文引用的其他类型文献,如专著、论文集等。奇怪的是,在其他检索状态下(无论是初级检索、高级检索还是专业检索),都没有“参考文献”检索功能。
    “参考文献”检索在缺省情况下依时间倒序列出检索结果。分别显示引用文献的题名、来源(刊名)、年期等。要知道是某人的哪篇文章被引?目前还得逐篇下载看个究竟。如果前述“参考文献链接”功能可用,则只需看此链接即可,无需逐篇下载。只是仍需要手工汇总非期刊被引文献的被引次数等信息。

    更原始且不依赖CNKI特定功能的方法,是多年前某网友介绍的,即通过CNKI的“全文”检索功能,查作者姓名。和在Google中查人名一样,这种方法对于姓名比较常见,或双字姓名等情况,查准率相当低,需要花不少工夫筛掉不希望出现的结果。

    引文统计分析最大的问题,就是来源文献的参考文献信息不准确,前面讲CSSCI例子时已经看到一些。目前还看不出CNKI处理功夫如何,但从“CNKI的中国学术期刊综合引证报告”的宣传资料来看,CNKI“ 执行《中国学术期刊(光盘版)检索与评价数据规范》(CAJ-CD B/T1-1998),加强了引文数据的规范化、标准化”,听上去很是专业。
    《中国学术期刊综合引证报告》2002年试刊后,已经在单位的文献评价这一层次得到了不少“订单”:

  • 2002年以来北京大学、北京师范大学等50余所高校社会科学学报引文统计分析
  • 2002年以来清华大学出版社出版图书的引用统计
  • 2003年306所高校申报博、硕士学位授权单位文献评估
  • 2004年北京交通大学等22所高校研究生院设置文献评估
  • 2004年500余所高校重点学科建设研究文献统计

    有规范化的引文数据做保障,如SCI/SSCI一般,未来CNKI“ 中国学术期刊全文数据库”再占领个人文献评价市场,似乎也是顺理成章的事了。

附:维普资讯网的引文检索功能
    维普资讯网(http://www.tydata.com/www.cqvip.com)的“中刊库(引文版)”,有“源文献-->被引文献”和“被引文献-->源文献”二个检索途径。“被引文献-->源文献”,有篇名、刊名、作者三个检索途径,检索结果为被引文献的作者、题名、刊名、卷期等。但没有显示引用文献及引用次数。
    尽管其收录期刊种类与年限多于CSSCI,但从检索结果看,数量甚至还少于CSSCI。我以自己为例,对比了源文献与被引文献的检索结果,明显看出其数据有遗漏。应该在技术上还有重大问题没有解决。
    维普如要发展引文这一块,看来要改善的地方比CSSCI还要多。

 

把自己的论文放上网

    订了几种邮件表服务,不时有人发消息,告知自己在开放存取(OA)的机构库(repository)、预印本服务系统(Preprints)、电子文库(E-prints)中发表了相关文章,欢迎大家去看。这些文章,一些已在正式出版物中发表,还有一些日后也可能在正式出版物中发表。
    为什么大家喜欢把已发或未发文章发表在OA中呢?在国外,这种趋势似乎越来越明显。理由应当是吸引注意力,提高被引率。
    CatalogABlog在年初关于“预印本服务系统”(Preprint Servers) 的介绍很能说明问题。他介绍了Greg J. Schwar和Robert C. Kennicutt Jr的文章,说明将文章放在预印本服务系统上能使被引率加倍。结论是:“是否正发展着这样一种倾向,即不在预印本服务系统的上研究被忽略,就象现在不被联机数据库索引的工作被忽略那样?”

    Schwar和Kennicutt的论文“《天体物理学杂志》论文与预印本的作者与引文趋势”(Demographic and Citation Trends in Astrophysical Journal papers and Preprints)本身首先发表在arxiv.org预印本服务系统的astro-ph(天体物理学)部分,后被《美国天文学会简报》(Bulletin of the American Astronomical Society)采用。二位对《天体物理学杂志》(The Astrophysical Journal,简称ApJ)的统计及结论如下:

  • 2002年有72%的ApJ文章作为“天体物理学预印本”(astro-ph)贴出,其中61%是在被ApJ接受后贴出的,88%在被接受后贴出或更新。
  • 贴在astro-ph上的ApJ文章,与那些没有贴在astro-ph上的文章相比,平均被引超过二倍。预印本已经明显代替期刊,成为作者们了解论文的主要手段。
  • 在一个广泛认可的同行评议期刊上发表,仍是论文影响的主要决定因素。贴于astro-ph中的会议录论文,在被引频率上也二倍于未贴论文,但这些论文总被引比ApJ论文平均少20倍。

    如此多的文章出现在预印本服务系统中,的确令人吃惊。但这只是国外某些学科的现状。目前国内的预印本服务养在深闺人未识,吸引不了多少人投稿,更不会对引用产生多大的影响。有关信息如下:

    中国科学技术信息研究所的“中国预印本服务系统”(http://prep.istic.ac.cn/),至今文章总数不足500,“生物学”169篇居第一,“图书馆、情报与文献学”125篇居第二,“物理学”94篇居第三,其余学科差不多可以忽略不计。
    教育部科技发展中心主办的“中国科技论文在线”(2003- ,http://www.paper.edu.cn/home.jsp),据不完全统计,目前约有2000余篇,超过200篇的是“电子、通信与自动控制技术”和“计算机科学技术”。官方网站,还有“可为在本网站发表论文的作者提供该论文发表时间的证明”这一条,本应比较吸引人。
    民营的“奇迹文库”(http://www.qiji.cn/eprint/)情况略好,有2600项。但不全部是存贮在其服务器上的文章。“图书馆学”仅有5项,另有“开放存取”链接7项。其中有网络自动引用索引发明者Steve Lawrence (NEC Research Institute)发表在Nature (Volume 411, Number 6837, p. 521, 2001)上的著名文章“Online or Invisible?”:

“在互联网上能够免费获得的研究文章通常会有更高的引用率。为了使自己的研究获得更多的关注并促使科学更快进步。研究者及出版商应当让研究文章通过互联网可以更方便地被读者获取。 ”

但原链接已经失效,在CiteSeer的新链接在此

    年心曾大力推广一个国外的图书馆情报学论文电子文库E-LIS (E-prints in Library and Information Science),虽是设在国外的OA服务,但也接受中文论文。换言之,该文库中也会有中文论文。年心是中国部编辑,不知有些什么活干?
    E-LIS(2003- ,http://eprints.rclis.org/)据称是本领域首个国际性电子文库,由西班牙文化部支持,服务器设在意大利,现有论文2723篇。考虑到仅限图情领域,数量还算可以。网站最近改版,除检索功能外,另有作者/编者、期刊/图书、主题、国家、年份及最近更新浏览,便于追踪某些作者、期刊、国家、主题,及时了解最近增加的文章。
    看中国的文章,有以下几位:刘炜(4篇)、黄建年(5篇)、冼丽环等(1篇)、顾?模?4篇)。其中8篇为中文。

    何时预印本服务在中国也能吸引眼球?首先吸引作者上载自己的论文,进而吸引用户阅读、引用,从而形成良性循环?

参见:
年心博客(http://hjn66.blogchina.com/
开放存取:学术出版的理性回归(http://openaccess.blogchina.com/