Google学术引用初探

Google学术搜索推出引文分析服务,三个简单步骤即可给出一份作者的引用档案(Citation Profile)。以自己做小白鼠,试用了一下。基本结论是,除了数据来源有待开拓,功能强大、操作方便、细节贴心。
数据来源问题,一是作者文献是否收录完整,二是引用来源是否权威,其实对引文分析来说是致命的。后者比较容易解决,如果需要,对引用来源做一个分级,对擅长数据处理的Google来说不是难事。比较困难的是前者,此服务推出,或许会进一步阻碍有类似服务的数据库供应商向其提供信息。比如目前中文来源看到有万方、维普、CNKI和其他零散来源,CNKI会不会担心影响自己的引文数据库?现在来看,与直接在来源数据库搜索的篇数比对,至少维普和CNKI的信息是不完整的。

———-三步操作———-
注册入口

1、建档
提供4项基本信息:姓名、单位、认证邮箱、兴趣领域。
单位和兴趣领域对自动筛选同名作者至关重要。单位邮箱是认证用的,如引文分析报告选择公开,会有认证标识。
2、文章
根据第1步提供的基本信息,自动出现检索结果,可以浏览后直接加入(add)。从我的结果看,没有错误。
由于我建档时提供的是英文信息,检出篇数太少(英文题名)。这时在检索框中改用中文姓名检索,检出较多篇数(中文题名)。结果同样没有错误,全部加入。
在检索结果集中,会出现合作者。由于自己名下会检出自己非第一作者的文章,所以通常不需要在合作者中做筛选。
3、更新
选择自动更新还是邮件告知,应该主要针对公开自己引文分析报告的人。
这一步实际上不需要做任何事情,直接点击去看建成的档案就行了。

在建成的档案页面,可以选择公开自己的档案(先预览──这是必须的)。
以后大概会流行在个人信息(如个人网站、社交网络等)中加入Google学术引用档案了。

———-Google学术引用档案样本———-
Google员工:Anurag Acharya

§ 右侧栏列出合作者:有助了解其学术合作伙伴(建档者可以选择删除某人,这个比较贴心)

§ 除了显眼的引文年代分布图外,引文指数包括所有年代和近5年的两组引文数据:
被引量、h指数、i10指数
根据说明,i10指数指被引至少10次的文献数。

§ 文献按被引次数从高到低排列,列表提供基本书目信息、被引次数及年代
☆ 点击题名可看详细信息(以他的第一篇文章为例),包括:
1、书目信息
题名可链接到信息来源(一般是某个订购数据库),如果有可直接下载的其他来源(如PDF文件),会在右侧给出链接
2、引文信息:引文年代分面图
下面的“学术文章”同样是链接到信息来源

☆ 点击被引次数,列出所有引用文献──链接到Google学术界面,同样列表右侧会有可直接下载来源(如PDF文件)

———-质量控制(Action)———-
除了三个步骤自动生成引用档案,Google也充分利用人个参与(Action),对档案手工强化。
可执行的操作有:
1、增加
如果之前步骤2没有完成,此时可重新检索后增加。
不能自己添加条目──对Google来说,搜不到的就是不存在的。[update 2012-8-10, 现可选择手工添加]
2、合并
比如以不同语种显示的同一篇。我用英文搜到的是CNKI的英文版,比较奇怪的是同一篇文章的中英文版引用次数不同。
3、删除
比如加入了非自己的文章
4、编辑
点击文章篇名后,可选择“编辑”,修改书目信息,似乎期刊页码错误较多(不改也无大碍吧)。如果合并错了,可在此拆分
在此界面可以看到:
被引文献包括:文章、图书、学位论文、专利、其他
引用来源包括:期刊/会议录/图书

5、导出
格式:BibTex,EndNote,RefMan
这个功能不属于质量控制,但很贴心,也是鼓励个人参与的必备功能吧。只是支持的格式尚待增加。

via 谷奥:学术搜索的 Google Scholar Citations 引文分析服务开放注册 (2011年11月17日)

[update 2012-3-9] 一早收到Google Scholar发来认证单位邮箱的邮件。很久没去访问了,不知道为什么事隔百多天,它才想起来发邮件让我认证。Google后竟然发现自己的早期博文:Google Scholar将取代引文索引? (2004年11月19日)。

青岛大学医学院期刊的引文优势

那天在CNKI查2009年高被引文章,看到被引频次排名1和2的文章如下:
序号 题名 作者 文献来源 发表时间 来源库 被引频次↓ 下载频次
1 医用统计学软件PPMS 1.5的组成和应用特点
周晓彬; 纪新强; 徐莉  齐鲁医学杂志  2009-02-15  期刊  142   44
2 PPMS 1.5统计软件的功能及其应用
周晓彬; 纪新强; 徐莉  青岛大学医学院学报  2009-02-15  期刊  132   56

很罕见地“被引频次”大大高于“下载频次”,于是就很好奇,都是哪些文章引用同样3位作者的这两篇文章。一览表出来,实在太整齐了,竟然大部分是同一种期刊,:
《齐鲁医学杂志》的第1篇有142篇引用,114篇来自《青岛大学医学院学报》(占80%),23篇自引(占16%),2篇来自青岛大学学位论文,3篇来自其他期刊。
《青岛大学医学院学报》的第2篇有132篇引用,119篇来自《齐鲁医学杂志》(占90%)10篇自引(占7.5%),1篇来自青岛大学学位论文,2篇来自其他期刊。

很无聊地继续查《齐鲁医学杂志》2010年第3期,前10篇文章中9篇有参考文献(合计33篇,平均每篇不到4篇),其中8篇引用了发表在《青岛大学医学院学报》的上述文章(有2篇是唯一引文),也就是说同一期刊某期80%的文章引用同一篇文章。换一个角度计算,自该文发表后,《齐鲁医学杂志》至今只出版了10期,平均每期有11.9篇引用该文。
不想再查《青岛大学医学院学报》了,估计也是差不多的结果,大多引用发表在《齐鲁医学杂志》的上述文章。计算一下,平均每期11.4篇引用此文。

没有看两篇文章,从标题及简介看,是对同一种医学统计软件的介绍,工具性的应用面广,因而频频被引也不能说完全不正常。只是,为什么《齐鲁医学杂志》的作者齐刷刷地选择《青岛大学医学院学报》上的那篇,而《青岛大学医学院学报》的作者齐刷刷地选择《齐鲁医学杂志》上的那篇?

想起前一阵有人在某处写自己给某刊投稿,编辑要求在参考文献中加上该刊的文章才予以发表。看了觉得不可思议,可从文后留言看,似乎这已是司空见惯的了。
经查,《齐鲁医学杂志》由青岛大学医学院与青岛大学医学院附属医院联合主办,于是不惮以最坏的恶意揣测:看来这两份姐妹医学杂志对录用稿件的要求不是引用本刊文章,而是互相引用对方期刊的文章。
此法甚好,如果查刊物自引,那是一点也不高,但是两家杂志的被引却大大提高了。
所谓山外有山、天外有天。那些要求刊物自引的期刊,没有青岛大学医学院同时拥有两份期刊的得天独厚优势,只能望洋兴叹了。

试用维普中国科学指标数据库

    前一阵用CNKI的《中国引文数据库,感觉不错。看到本馆试用维普的《中国科学指标数据库(CSI),赶紧试试,也可对照感受一下。

三个模块:
排名分析:学者、机构、地区、期刊
学科评估:学科排名、学科基线、研究前沿
顶尖论文:高被引论文、热点论文

学者排名:“展示各学科核心研究成员及其研究成果,提供各学科学者的科学指标查询”。可按学科、作者、机构、地区选择或检索查看,再按发文量、被引量、篇均被引值排序。

    选择学科“图书馆情报学”,缺省按被引量排序,改按篇均被引值排序,结果发现“郑州大学”的“程焕文”只发了1篇文章,就被引110次,真是太牛了(点击该文,显示被引量为108次,二者竟然不一致)。
    点击看“顶尖论文”,含意不明,比如图书馆情报学被引量排名第一的张晓林,顶尖论文4篇,被引量从81到21不等;而排第三的范并思,顶尖论文12篇,被引量从146到2不等。差别也太大了。
    点击看“趋势图”,更有意思了,不是逐年、而是交叉的5年时间段,显示发文量、被引量、篇均被引值的柱形图。

期刊排名:选择学科,图书馆情报学有1190种。按篇均被引值排序,原来依据的是刊登文章的学科,不少期刊发文量只有一篇。这也有一定的合理性。

研究前沿:“科学家紧密联系的研究区域一定程度上代表了学科发展的前沿区域”。选择学科,或者查关键词。
    图书馆情报学:列出了17个研究前沿,按被引排名第一的是“公共图书馆 图书馆精神 服务 图书馆权利”,不知道是如何组合出来的。一览表中列有平均发表年,有好几个都是2001年的,不论其主题如何,仅从年份而言,8年前的还能称“前沿”吗?
    关键词:查“数字图书馆”、“编目”、“文献”都没有结果,实在不甘心,查“图书馆”,总算有了14个结果──应该说“关键词”是名不符实的。点击第1个”公共图书馆 图书馆精神 服务 图书馆权利”,跳出来一个很酷的关系图,每一个节点都链接到图下的文章信息,边上有下载全文链接:

热点论文:“近两年发表的,在一个较短时间内被高度关注的论文是一个潜在的研究热点”
    图书馆情报学:列出79条,被引数在20到2之间,时间在2006年中以后。全部学科有2006年第1期的,似乎不同学科年限不尽一致。

   
印象中维普收录期刊数量一直在CNKI之上,但从CSI引文数据看,应该在CNKI之下。比如查机构,本校被引量最前的二篇均为范并思的,肯定会让本校众多教育学科的大牛不爽。再比如那篇”图书馆2.0:构建新的图书馆服务“,在CSI被引145次,而在CNKI中接近翻番。
     找来两方的介绍做一下对比:
CNKI《中国引文数据库》“收录了中国学术期刊(光盘版)电子杂志社出版的所有源数据库产品的参考文献……截至2007年12月,累计链接被引文献达 6848642 篇”。
维普《中国科学指标数据库》(CSI)“涵盖了包括理、工、农、医和社会科学等方面的4000余种期刊,数据评价时段从2000年跨度至当前,每双月更新”。与维普《中文科技期刊数据库(引文版)》“收录1989年以来8000多种期刊论文的参考文献”相比,竟然少了一半──实在想不通啊。

    总的来说,维普CSI是一个与CNKI引文库不同的产品,只是数据的数量与质量均差强人意,可用性就存疑了。虽然不知道二个产品内在运行机制,但从上述自我介绍及使用感受,CNKI引文数据应该是与主库同步的,数据量大、动态性好,而维普CSI却是独立于主库的产品,技术上似乎就落后了一截。现在H指数作为个人评价指标很流行,但维普如此数据,显然不敢提供──某人在CNKI的H指数为9,到了维普,竟只有1,谁还用它?