日志标签 ‘引文’

Google学术引用初探

2011年11月19日

Google学术搜索推出引文分析服务,三个简单步骤即可给出一份作者的引用档案(Citation Profile)。以自己做小白鼠,试用了一下。基本结论是,除了数据来源有待开拓,功能强大、操作方便、细节贴心。
数据来源问题,一是作者文献是否收录完整,二是引用来源是否权威,其实对引文分析来说是致命的。后者比较容易解决,如果需要,对引用来源做一个分级,对擅长数据处理的Google来说不是难事。比较困难的是前者,此服务推出,或许会进一步阻碍有类似服务的数据库供应商向其提供信息。比如目前中文来源看到有万方、维普、CNKI和其他零散来源,CNKI会不会担心影响自己的引文数据库?现在来看,与直接在来源数据库搜索的篇数比对,至少维普和CNKI的信息是不完整的。

———-三步操作———-
注册入口

1、建档
提供4项基本信息:姓名、单位、认证邮箱、兴趣领域。
单位和兴趣领域对自动筛选同名作者至关重要。单位邮箱是认证用的,如引文分析报告选择公开,会有认证标识。
2、文章
根据第1步提供的基本信息,自动出现检索结果,可以浏览后直接加入(add)。从我的结果看,没有错误。
由于我建档时提供的是英文信息,检出篇数太少(英文题名)。这时在检索框中改用中文姓名检索,检出较多篇数(中文题名)。结果同样没有错误,全部加入。
在检索结果集中,会出现合作者。由于自己名下会检出自己非第一作者的文章,所以通常不需要在合作者中做筛选。
3、更新
选择自动更新还是邮件告知,应该主要针对公开自己引文分析报告的人。
这一步实际上不需要做任何事情,直接点击去看建成的档案就行了。

在建成的档案页面,可以选择公开自己的档案(先预览──这是必须的)。
以后大概会流行在个人信息(如个人网站、社交网络等)中加入Google学术引用档案了。

———-Google学术引用档案样本———-
Google员工:Anurag Acharya

§ 右侧栏列出合作者:有助了解其学术合作伙伴(建档者可以选择删除某人,这个比较贴心)

§ 除了显眼的引文年代分布图外,引文指数包括所有年代和近5年的两组引文数据:
被引量、h指数、i10指数
根据说明,i10指数指被引至少10次的文献数。

§ 文献按被引次数从高到低排列,列表提供基本书目信息、被引次数及年代
☆ 点击题名可看详细信息(以他的第一篇文章为例),包括:
1、书目信息
题名可链接到信息来源(一般是某个订购数据库),如果有可直接下载的其他来源(如PDF文件),会在右侧给出链接
2、引文信息:引文年代分面图
下面的“学术文章”同样是链接到信息来源

☆ 点击被引次数,列出所有引用文献──链接到Google学术界面,同样列表右侧会有可直接下载来源(如PDF文件)

———-质量控制(Action)———-
除了三个步骤自动生成引用档案,Google也充分利用人个参与(Action),对档案手工强化。
可执行的操作有:
1、增加
如果之前步骤2没有完成,此时可重新检索后增加。
不能自己添加条目──对Google来说,搜不到的就是不存在的。
2、合并
比如以不同语种显示的同一篇。我用英文搜到的是CNKI的英文版,比较奇怪的是同一篇文章的中英文版引用次数不同。
3、删除
比如加入了非自己的文章
4、编辑
点击文章篇名后,可选择“编辑”,修改书目信息,似乎期刊页码错误较多(不改也无大碍吧)。如果合并错了,可在此拆分
在此界面可以看到:
被引文献包括:文章、图书、学位论文、专利、其他
引用来源包括:期刊/会议录/图书

5、导出
格式:BibTex,EndNote,RefMan
这个功能不属于质量控制,但很贴心,也是鼓励个人参与的必备功能吧。只是支持的格式尚待增加。

via 谷奥:学术搜索的 Google Scholar Citations 引文分析服务开放注册 (2011年11月17日)

[update 2012-3-9] 一早收到Google Scholar发来认证单位邮箱的邮件。很久没去访问了,不知道为什么事隔百多天,它才想起来发邮件让我认证。Google后竟然发现自己的早期博文:Google Scholar将取代引文索引? (2004年11月19日)。

青岛大学医学院期刊的引文优势

2010年11月5日

那天在CNKI查2009年高被引文章,看到被引频次排名1和2的文章如下:
序号 题名 作者 文献来源 发表时间 来源库 被引频次↓ 下载频次
1 医用统计学软件PPMS 1.5的组成和应用特点
周晓彬; 纪新强; 徐莉  齐鲁医学杂志  2009-02-15  期刊  142   44
2 PPMS 1.5统计软件的功能及其应用
周晓彬; 纪新强; 徐莉  青岛大学医学院学报  2009-02-15  期刊  132   56

很罕见地“被引频次”大大高于“下载频次”,于是就很好奇,都是哪些文章引用同样3位作者的这两篇文章。一览表出来,实在太整齐了,竟然大部分是同一种期刊,:
《齐鲁医学杂志》的第1篇有142篇引用,114篇来自《青岛大学医学院学报》(占80%),23篇自引(占16%),2篇来自青岛大学学位论文,3篇来自其他期刊。
《青岛大学医学院学报》的第2篇有132篇引用,119篇来自《齐鲁医学杂志》(占90%)10篇自引(占7.5%),1篇来自青岛大学学位论文,2篇来自其他期刊。

很无聊地继续查《齐鲁医学杂志》2010年第3期,前10篇文章中9篇有参考文献(合计33篇,平均每篇不到4篇),其中8篇引用了发表在《青岛大学医学院学报》的上述文章(有2篇是唯一引文),也就是说同一期刊某期80%的文章引用同一篇文章。换一个角度计算,自该文发表后,《齐鲁医学杂志》至今只出版了10期,平均每期有11.9篇引用该文。
不想再查《青岛大学医学院学报》了,估计也是差不多的结果,大多引用发表在《齐鲁医学杂志》的上述文章。计算一下,平均每期11.4篇引用此文。

没有看两篇文章,从标题及简介看,是对同一种医学统计软件的介绍,工具性的应用面广,因而频频被引也不能说完全不正常。只是,为什么《齐鲁医学杂志》的作者齐刷刷地选择《青岛大学医学院学报》上的那篇,而《青岛大学医学院学报》的作者齐刷刷地选择《齐鲁医学杂志》上的那篇?

想起前一阵有人在某处写自己给某刊投稿,编辑要求在参考文献中加上该刊的文章才予以发表。看了觉得不可思议,可从文后留言看,似乎这已是司空见惯的了。
经查,《齐鲁医学杂志》由青岛大学医学院与青岛大学医学院附属医院联合主办,于是不惮以最坏的恶意揣测:看来这两份姐妹医学杂志对录用稿件的要求不是引用本刊文章,而是互相引用对方期刊的文章。
此法甚好,如果查刊物自引,那是一点也不高,但是两家杂志的被引却大大提高了。
所谓山外有山、天外有天。那些要求刊物自引的期刊,没有青岛大学医学院同时拥有两份期刊的得天独厚优势,只能望洋兴叹了。

试用维普中国科学指标数据库

2009年11月24日

    前一阵用CNKI的《中国引文数据库,感觉不错。看到本馆试用维普的《中国科学指标数据库(CSI),赶紧试试,也可对照感受一下。

三个模块:
排名分析:学者、机构、地区、期刊
学科评估:学科排名、学科基线、研究前沿
顶尖论文:高被引论文、热点论文

学者排名:“展示各学科核心研究成员及其研究成果,提供各学科学者的科学指标查询”。可按学科、作者、机构、地区选择或检索查看,再按发文量、被引量、篇均被引值排序。

    选择学科“图书馆情报学”,缺省按被引量排序,改按篇均被引值排序,结果发现“郑州大学”的“程焕文”只发了1篇文章,就被引110次,真是太牛了(点击该文,显示被引量为108次,二者竟然不一致)。
    点击看“顶尖论文”,含意不明,比如图书馆情报学被引量排名第一的张晓林,顶尖论文4篇,被引量从81到21不等;而排第三的范并思,顶尖论文12篇,被引量从146到2不等。差别也太大了。
    点击看“趋势图”,更有意思了,不是逐年、而是交叉的5年时间段,显示发文量、被引量、篇均被引值的柱形图。

期刊排名:选择学科,图书馆情报学有1190种。按篇均被引值排序,原来依据的是刊登文章的学科,不少期刊发文量只有一篇。这也有一定的合理性。

研究前沿:“科学家紧密联系的研究区域一定程度上代表了学科发展的前沿区域”。选择学科,或者查关键词。
    图书馆情报学:列出了17个研究前沿,按被引排名第一的是“公共图书馆 图书馆精神 服务 图书馆权利”,不知道是如何组合出来的。一览表中列有平均发表年,有好几个都是2001年的,不论其主题如何,仅从年份而言,8年前的还能称“前沿”吗?
    关键词:查“数字图书馆”、“编目”、“文献”都没有结果,实在不甘心,查“图书馆”,总算有了14个结果──应该说“关键词”是名不符实的。点击第1个”公共图书馆 图书馆精神 服务 图书馆权利”,跳出来一个很酷的关系图,每一个节点都链接到图下的文章信息,边上有下载全文链接:

热点论文:“近两年发表的,在一个较短时间内被高度关注的论文是一个潜在的研究热点”
    图书馆情报学:列出79条,被引数在20到2之间,时间在2006年中以后。全部学科有2006年第1期的,似乎不同学科年限不尽一致。

   
印象中维普收录期刊数量一直在CNKI之上,但从CSI引文数据看,应该在CNKI之下。比如查机构,本校被引量最前的二篇均为范并思的,肯定会让本校众多教育学科的大牛不爽。再比如那篇”图书馆2.0:构建新的图书馆服务“,在CSI被引145次,而在CNKI中接近翻番。
     找来两方的介绍做一下对比:
CNKI《中国引文数据库》“收录了中国学术期刊(光盘版)电子杂志社出版的所有源数据库产品的参考文献……截至2007年12月,累计链接被引文献达 6848642 篇”。
维普《中国科学指标数据库》(CSI)“涵盖了包括理、工、农、医和社会科学等方面的4000余种期刊,数据评价时段从2000年跨度至当前,每双月更新”。与维普《中文科技期刊数据库(引文版)》“收录1989年以来8000多种期刊论文的参考文献”相比,竟然少了一半──实在想不通啊。

    总的来说,维普CSI是一个与CNKI引文库不同的产品,只是数据的数量与质量均差强人意,可用性就存疑了。虽然不知道二个产品内在运行机制,但从上述自我介绍及使用感受,CNKI引文数据应该是与主库同步的,数据量大、动态性好,而维普CSI却是独立于主库的产品,技术上似乎就落后了一截。现在H指数作为个人评价指标很流行,但维普如此数据,显然不敢提供──某人在CNKI的H指数为9,到了维普,竟只有1,谁还用它?

CNKI引文数据库与H指数、W指数

2008年6月8日

    丫枝介绍w-index后(h指数(h-index)之变体–w指数(w-index)诞生),去那儿留言鼓动他做牛人们的h-index和w-index,看到结果(图林牛人们的h指数与w指数选择阅读图情牛人经典文献(鸡鱼w指数)),也想算算自己的指数几何。
    进入CNKI中国引文数据库(http://ref.cnki.net/),看到左栏“统计数据”下有“作者统计”,想当然地由此而入,其下已有“H指数”这一项,但如何获取w指数?总不至于逐篇查找后统计?
    看丫枝一日间做了N多牛人的统计,网上碰到,就讨教如何做成的。一来二去,才发现自己弄错了入口,如丫枝所言,“在初级检索处,直接输入作者名就行”──JADSL的人机交互老师Michael B. Twidale说,What you see depands on what you know,这里居然是个逆向干扰的例子。
    如上所说是新的引文库入口,需要注册才能使用(依丫枝告,免费注册使用),直接检索的结果提供题名及被引频次等信息,可依次复制到EXCEL中处理。由于进入时看得不仔细,一度从旧版进入(竟然是无需注册的),结果发现检索结果一览就是表格形式的,可以整批复制到EXCEL表中,处理起来方便不少。(在CNKI主页上看介绍新旧引文库应该是一致的,但实际检索结果略有差异,不知何故)
    根据丫枝发来的统计表样例,按文章被引频次在EXCEL表中降序排序,从上到下有N篇被引N次,则H指数为N;有M篇被引10M次,则W指数为M。果然“简单”。

    转引丫枝对w指数值意义的说明:
i) w 指数为 1 或者 2,表示该研究者已经学到了一个课题的基本。
ii) w 指数为 3 或者 4,表示该研究者已经掌握了 the art of scientific activity。
iii) w 指数为 5,表明他是位成功的研究者。
iv) w 指数为 10,表明他是为出色的科学家。
v) 工作 20 年后 w 指数超过 15,或者 30 年后指数超过 20,那就是顶尖科学家了。

    查了一些人的H指数和W指数后,感觉H指数更有区别性,任何人只要发表一篇文章得到一次引用,就得到H指数为1;而要使W指数为1,至少须得有一篇文章被引十次以上(不是总被引次数)。我查到几位H指数从1到4的,W指数均为0──W指数用来给大牛们排名还有点用,要用做一般人的评价指标则是形同虚设了。不过,如果上面这个“意义说明”竟被有关部门认可,也会让N多牛人非常伤心的。

    老槐曾认为当年选择“三大检索刊物”作为大学排名研究的依据是由于这几个刊物的检索功能而非收录内容(排行榜研究的智慧),事实是否如此不得而知。但此次丫枝做引文分析选CNKI而舍CSSCI,则明确申明是功能的原因。自己很少有几次不得已使用CSSCI,总有恨铁不成钢的感觉──多少年了,得到荣誉无数,怎么还看不到多少长进呢?

参见:
CNKI的引文检索功能(兼及维普)(2005-09-14))
Scopus与引文评价H指数 (2007-09-12)
中美数图研讨班2008·人机交互与数字化图书馆 (2008-05-24)

Scopus与引文评价H指数

2007年9月12日

    前两天看到丫枝转贴“谁是优秀的科学家 H指数来预测”:

    “H指数是2005年加利福尼亚大学圣地亚哥分校统计物理学家赫希在2005年发明的,立刻引起了全世界学术界的广泛关注,论文在网上公布后,《自然》和《科学》杂志先后报道,正式论文于2005年11月正式发表在《美国科学院院刊》上。”(Hirsch, J. E. An index to quantify an individual’s scientific research output. Proceedings of the National Academy of Sciences, 102, 16569–16572 (2005))
    “在H指数发明之前,常见的评估学术成就的方法有论文的总篇数和总引用率。但是前者的问题在于,那些只大量发表低影响力论文的人会因此受益,而后者的问题在于,一两篇高引用率的文章会掩盖了大量低引用率的文章。相比较而言,更公平的做法是计算文章的平均引用率。”
    “但是,H指数已经被公认为比平均引用率更科学的指标。所谓H指数,是指一个人有N篇论文分别被引用了至少N次。例如,普林斯顿高等研究所的物理学家爱德·威顿(Ed Witten)的H指数是110,表明他有110篇文章每篇至少被引用了110次。”
    “与其它统计方法不同的是,要确定一个人的H指数相当容易,只要到SCI网站,查出某个人发表的所有SCI论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于该论文被引次数,那个序号减去1就是H指数。”
    “赫希说:‘各个领域的人都在使用或者考虑使用H指数,将它作为招聘和研究经费评审的标准。我就亲眼见到过一些人在找工作的时候把H指数写进了简历。’”

    丫枝给的标题是“SCI与H指数:学术水平”,原文也是以SCI为例,说明H指数的获取方式。昨天与Elsevier的孙晓鹏聊天,谈到Scopus也有自己的H指数,并且2007年开始在检索结果中直接提供H指数链接,免去了排序、查找的麻烦。

    与SCI相比,Scopus的来源文献量较大,但收录的引文数据年限较短:
Scopus:来源:15000种同行评议期刊,最早回溯到期刊首期/1900年,文摘量3300百万;引文数据:1996-
Web of Science:来源:约8700种;引文数据:SCI,1900-;SSCI,1956-;A&HCI,1975-
    另一方面,Scopus有作者标识系统(Author identifier),对人名的做了一定的规范,或许对同名者的区分度要好于SCI。因为有上述种种差别,同一作者在SCI与Scopus中的H指数值肯定是不同的。
    如果有兴趣,或许或以做一下SCI与Scopus的H指数的对比研究。Scopus目前国内订购的还不太多,可以在它的网站上注册30天免费试用。
    Elsevier有针对图书馆员的电子版连续出版物LibraryConnect,并不定期地出版一些很实用的专题小册子。记得一年前曾向他们索取过印刷本,后来曾收到电邮告诉有一些有中文版。第9号小册子就是关于Scopus的:Using Scopus for Bibliometric Analysis: A Practical Guide(中文版:利用Scopus进行文献计量分析:应用指南),可以参考。

    
    赫希像当年的加菲尔德那样,持续不断地“挖掘”H指数的内涵,从评价到预测(Does the h-index have predictive power? ),或许H指数会日益引人注目。未来印上名片的可能性也存在啊^-^
    其实只要有引文信息的数据库,都可以提供自己的H指数,中文的也一样。引文数据的排序很简单,关键问题是对同名作者的识别、被引文献的唯一性处理──不解决这两个问题,引文数据库提供出来的数字就是捣浆糊了。

参见:
Scopus的作者规范与分面检索 (2007-02-08)
黄雀在后的《中文社会科学引文索引》 (2005-07-11)
CNKI的引文检索功能(兼及维普)(2005-09-14)

update (2007-9-14): 近段日子有事忙,很少看博。今日暂休,才看到图林中文译站上的两篇相关译稿:

总的说来,我对物理更感兴趣,而非引文

 原文Overall, I’m more interested in physics than citations
作者:Jorge Hirsch, 物理学教授,美国加州大学圣地亚哥分校

科研成果评价体系正在加快发展的步伐

原文Research Performance Measurement is revving up
作者:Helen de Mooij, Scopus 产品经理, Elsevier, 阿姆斯特丹, 荷兰

两篇均出自LibraryConnect,背景参见:山高水长:图林中文译站产生了国际影响