信息素养培训新宠:个人数据管理

很多年前,看国外或者香港的大学图书馆网站,觉得我们最该学的,就是面向不同读者对象的Subject Guide或Research Guide版块,针对对教员或学生各自需求,提供不同层次的信息。“研究指南”对馆员本身的信息素养有比较高的要求,至今仍很少在国内网站上看到类似版块,其中也包括本馆。
昨天到上图听张甲老师讲座“新型图书馆服务对自动化系统的要求”,其中提到麻省理工学院的数据管理与出版(Data Management and Publishing)(PPT第76张),就是其“研究指南”的一个新内容,关于数字环境下,如何在研究进程中管理自己的数据。包括:

为什么管理数据?
评价数据需求
文献与元数据
文档格式
组织文档
备份与安全
共享数据
引用数据
数据集成
资助需求
道德与法律问题

还有一个培训用的PPT“管理研究数据初步”(Managing Research Data 101)(56张) 可以比较直观地了解所涉及的内容。
网页链接了澳大利亚国立大学的“数据管理”(Data Management),看来是先行者。链过去,是该校的信息素养课程之一。包括数据管理手册及课程PPT等资料。
张老师提到一个背景,读者其实对图书馆建设机构库兴趣不大,图书馆向读者提供管理自己数据的方法,也是换一种思路。
机构库最初的设想是由内容生产者提供内容,但现在大部分似乎都是由图书馆员录入的。因为要想通过用户生成内容达到成功,需要让用户感到有所得,而机构库大概很难让用户产生这种感觉。比如若要让大家共享自己的成果,开放存取库比本校机构库有更大的曝光度,或许是更好的选择。所以图书馆如果仅仅从本身资源建设角度出发,很难让读者帮自己打工。让研究人员管理自己在研究过程中的数据,图书馆提供存放平台,或许是换一种角度思考的结果。不知道国外研究者的需求如何,国内研究者无疑也需要管理数据,只是不知道有没有共享的愿望?
前些天听伊大香槟分校消防服务培训学院阮金炼馆长谈到她们有图书馆员参与研究项目的课程,同济大学田忠政馆长很感兴趣。课程无疑很契合目前图书馆对学科馆员的需求,只是我同样对国内研究者对“外人”介入研究有多大接纳度有所怀疑。

参见数图研究笔记:张甲老师报告听后有感 (十二月 1st, 2009)

附:关于机构库的相关博文
周年盘点:图情流行缩写词一瞥(上)(2005-10-28)
中美数图研讨班(4)·机构库,看起来很美 (2007-05-27)
知道你已经在做机构库了吗——摘评一份详尽的IR调查报告 (2007-05-28)
国际机构库调查出版 (2007-11-14)

日本国立国会图书馆的“近代数字图书馆”

    日本国立国会图书馆的电子图书馆,含:
近代数字图书馆:10.8万种15.6万册
贵重书画像数据库:957种51000幅图片,多彩色
儿童数字图书馆:数量不明
互联网档案(WARP)
数字图书馆门户(PORTA)

近代数字图书馆(近代デジタルライブラリー)
    2002年(平成14年)10月1日发布,截至2009年(平成21年)8月25日提供电子书达10.8万种共15.6万册。

    检索方式:
简单检索:到目次级别的书目全文检索
NDC分类浏览:可在类内限定检索
高级检索:题名、著者、出版地、出版者、出版年、NDC分类、主题(件名)、全国书目号、目次,可选择排序方式。有人名主题辞典(人名件名辞書)链接。

    書誌情報:
书目信息
看目次或全文链接(由目次可直接链接到相应全文页面)
著作权信息

本文:
    全文双页扫描,首页有标尺,显示原件尺寸(前次看世界数字图书馆www.wdl.org时就发现日本是这样做的)。
    图像缺省以JPEG显示,如选择JPEG2000格式,则要求安装JuGeMu阅览插件。
    页面URL形如:http://kindai.ndl.go.jp/BIImgFrame.php?JP_NUM=41008225&VOL_NUM=00000&KOMA=52&ITYPE=0(《伊藤博文》第52幅)
    一次可以保存10扫描页,PDF格式文件。

著作权:
    明治(1867-1912)、大正(1912-1926)距今已有百年左右历史,但作品并不一定就属于公共领域。按日本《著作権法》,著作权存续到著作人死亡后50年,长寿作者及其后代可能仍享有著作权。为此,日本国会图书馆于2003年、2004年、2005年和2009年先后四次实施“著作者情报公开调查”,了解作者的卒年或著作权所有人的联系方式。
    从浏览的几册图书看,著作权情况有“保護期間満了”,也有“文化庁長官裁定”公开的。

    童书数字图书馆(児童書デジタルライブラリー)收录全文图书数量不明,查到有昭和年间的图书,或许属于童书,却也对研究历史有用的。但没有每册书可引用的URL。

附贵重书画像一枚(比原图略有缩小;下侧有标尺、左侧有色卡,不得不赞叹日本人的细致

Via 戴铮:日本电子书叫板Google图书馆. 《中华读书报》2009年11月25日第17版
“日本国立国会图书馆目前已将大约15.6万册已过著作权保护期的明治、大正时期的书籍制作成电子书,现正以“近代电子图书馆”为名,通过网络免费发送。今年6月,新修订的日本《著作权法》在日本参院全体会议上正式获得通过,将于明年1月起实施。新《著作权法》限定国会图书馆在未征得著作权人许可的情况下,也可以将书籍电子化。国会图书馆正着手将大约90万册藏书制作成电子书,为打造电子图书馆,日本政府本年度投入的财政预算高达127亿日元,相当于上一年度的100倍。”

试用维普中国科学指标数据库

    前一阵用CNKI的《中国引文数据库,感觉不错。看到本馆试用维普的《中国科学指标数据库(CSI),赶紧试试,也可对照感受一下。

三个模块:
排名分析:学者、机构、地区、期刊
学科评估:学科排名、学科基线、研究前沿
顶尖论文:高被引论文、热点论文

学者排名:“展示各学科核心研究成员及其研究成果,提供各学科学者的科学指标查询”。可按学科、作者、机构、地区选择或检索查看,再按发文量、被引量、篇均被引值排序。

    选择学科“图书馆情报学”,缺省按被引量排序,改按篇均被引值排序,结果发现“郑州大学”的“程焕文”只发了1篇文章,就被引110次,真是太牛了(点击该文,显示被引量为108次,二者竟然不一致)。
    点击看“顶尖论文”,含意不明,比如图书馆情报学被引量排名第一的张晓林,顶尖论文4篇,被引量从81到21不等;而排第三的范并思,顶尖论文12篇,被引量从146到2不等。差别也太大了。
    点击看“趋势图”,更有意思了,不是逐年、而是交叉的5年时间段,显示发文量、被引量、篇均被引值的柱形图。

期刊排名:选择学科,图书馆情报学有1190种。按篇均被引值排序,原来依据的是刊登文章的学科,不少期刊发文量只有一篇。这也有一定的合理性。

研究前沿:“科学家紧密联系的研究区域一定程度上代表了学科发展的前沿区域”。选择学科,或者查关键词。
    图书馆情报学:列出了17个研究前沿,按被引排名第一的是“公共图书馆 图书馆精神 服务 图书馆权利”,不知道是如何组合出来的。一览表中列有平均发表年,有好几个都是2001年的,不论其主题如何,仅从年份而言,8年前的还能称“前沿”吗?
    关键词:查“数字图书馆”、“编目”、“文献”都没有结果,实在不甘心,查“图书馆”,总算有了14个结果──应该说“关键词”是名不符实的。点击第1个”公共图书馆 图书馆精神 服务 图书馆权利”,跳出来一个很酷的关系图,每一个节点都链接到图下的文章信息,边上有下载全文链接:

热点论文:“近两年发表的,在一个较短时间内被高度关注的论文是一个潜在的研究热点”
    图书馆情报学:列出79条,被引数在20到2之间,时间在2006年中以后。全部学科有2006年第1期的,似乎不同学科年限不尽一致。

   
印象中维普收录期刊数量一直在CNKI之上,但从CSI引文数据看,应该在CNKI之下。比如查机构,本校被引量最前的二篇均为范并思的,肯定会让本校众多教育学科的大牛不爽。再比如那篇”图书馆2.0:构建新的图书馆服务“,在CSI被引145次,而在CNKI中接近翻番。
     找来两方的介绍做一下对比:
CNKI《中国引文数据库》“收录了中国学术期刊(光盘版)电子杂志社出版的所有源数据库产品的参考文献……截至2007年12月,累计链接被引文献达 6848642 篇”。
维普《中国科学指标数据库》(CSI)“涵盖了包括理、工、农、医和社会科学等方面的4000余种期刊,数据评价时段从2000年跨度至当前,每双月更新”。与维普《中文科技期刊数据库(引文版)》“收录1989年以来8000多种期刊论文的参考文献”相比,竟然少了一半──实在想不通啊。

    总的来说,维普CSI是一个与CNKI引文库不同的产品,只是数据的数量与质量均差强人意,可用性就存疑了。虽然不知道二个产品内在运行机制,但从上述自我介绍及使用感受,CNKI引文数据应该是与主库同步的,数据量大、动态性好,而维普CSI却是独立于主库的产品,技术上似乎就落后了一截。现在H指数作为个人评价指标很流行,但维普如此数据,显然不敢提供──某人在CNKI的H指数为9,到了维普,竟只有1,谁还用它?