关联数据和移动的未来

昨天参加“2011年图书馆前沿技术论坛:移动的未来”会议。因借曾蕾、秦健两师由成都数图会会议网站资料下载)转站而来之机,所以关联数据成为一个重点,移动的意味相对弱些──如果只看会名没看议程就注册,或许不免失望。不过,对我倒是两方面都有收获,当然之外还其他收获。

1、关联数据

以前听得比较多的是关联数据给了图书馆让外界(通过计算机)利用自己内容的机会。馆藏的大量工具是做关联数据的很好来源,但图书馆并不拥有版权,除了如历史年表这样的客观知识外,如将工具书内容做成关联数据发布基本上是自找麻烦。对图书馆来说,馆藏书目是主要的可发布内容,但独特到唯一唯二的并不多,如果大家都发布,有没有人用不说,还凭白添乱,因为需要在不同机构发布的关联数据间做关联(Same as)。以上种种,让自己觉得关联数据基本上是国家级图书馆的事,如先行者瑞典国家图书馆、美国国会图书馆、匈牙利国家图书馆、德国国家图书馆、大英图书馆已所或打算做的那样,把馆藏(联合)目录/国家书目、规范数据、分类法/主题词表做成或发布为关联数据,供各方利用。

参见:关联数据相关博文

今天让我知道,图书馆还可以利用关联数据。曾师说,关联的开放数据(Linked Open Data, LOD)所带来的是极大的财富[所以,图书馆没有理由不去用],对于图书馆来说,需要把终点(如OPAC中的详细记录页面)作为关联的起点,把绑在一起的“记录”打开,找到可以作为起点的地方(如作者、出版社……),让数据走出图书馆的围墙,由封闭的数据变为开放的数据──例子就是增加到VIAF(虚拟国际规范档)、WorldCat Identity(OCLC身份档)的链接[甚至直接取来相关的信息,类似mashup]。如此,则读者通过OPAC不仅可以知道图书馆收藏了该作者多少书,还可以了解该作者更多更详细的信息(参见:规范档2.0:WorldCat身份档)。

接下来秦师正好举到她之前做过的一个试验,给某数据库用上关联数据,详解了实施过程。概言之:1、分析有哪些元数据要关联;2、有哪些可用于关联即数据来源;3、实施嵌入XML,用样式表实现。

知道可以怎么做了。需要面对的现实是,中文关联数据来源稀少。

参见:W3C图书馆关联数据孵化小组使用案例

图书馆关联数据孵化小组 (2010年5月23日)

当然,除了把现有数据经格式转换发布为关联数据供机器调用外,图书馆也是有关联数据可发布的。上图夏翠娟(xtykc)介绍把上海市中心图书馆名录发布为关联数据。如果各省市都这么做,任何人都可凭此完成一个全国性的图书馆名录,标注在地图上……(预留想象空间)。

不过,事情永远不是那么一目了然的。如曾师言,搜索引擎Bing/Google/Yahoo新推出的schema.org走的是和W3C关联数据不同的另一条路。未来会如何?No one knows.

===

2、移动图书馆

移动图书馆方面,本馆去年3.8推出手机网站,有统计数据的八个多月,访问总数才3万多。今年4月改版,突出OPAC,增加个人借阅查询、访问手机版电子资源。更换了统计途径,访问情况尚未统计,大致看过一眼,看上去也不乐观。本月刚借鉴南师大的做法,推出了OPAC的QR码,这个使用统计就很难做了。

不管使用情况如何,我始终相信,当越来越多的人拿着手机做打电话、发短信之外获取信息的事情,图书馆没有理由不在这里找到自己的位置,关键是要找到合适的入口。

东道主复旦大学图书馆张计龙馆长介绍中提及一些移动应用,未细说,待看PPT。

辽师高春玲MM介绍其2010年国家社科基金课题“移动阅读与图书馆延伸服务研究”的初期成果,主要是一些调研,包括国内外的相关统计数据。有些数据对移动网站或App设计会有参考价值,比如OPAC查询使用不多之类,有待细看。报告受到上图刘炜、上大吕斌及一位复旦DD的拍砖,虽然离结题尚远,不过对她而言类似于一次预审,收获肯定不小。有这样的机会,还是不错的。

Keven即兴发言,谈及移动服务的三个要素:LBS(基于位置的服务)、Social、UX(用户体验)。虽然有多个校区的情况,总体来讲LBS对于高校馆应该没有公共馆那么有用。Social如何结合到移动网站或app中,还需做更多了解──目前本馆手机网站用了新浪微博秀。UX方面最让人头痛,缺乏有经验的人手来设计实施,自己也缺乏理论指导,很多时候更多凭直觉判断,难免受人诟病。

上图夏MM介绍的上海市中心图书馆名录的QR码,听着就很专业,有兴趣者可联系她。内容标准基于vCard,包括电话号码(可拨打电话并保存到电话薄)、地址、网址、地理坐标(链接到地图应用)等。给我的启示是,无论是否纸质的东西,印QR码都是很好的选择,在这个例子里,要打电话不需输入号码,要查交通方式不需输入地址、要上网站不需要输入网址。

在会议期间和会后与曾师等的交流中,还想到或聊到QR码的其他可能应用,比如书架上贴分类号,比如在图书馆一些位置上的指引……需要发散性思维(Nalsi应该收集了很多实例)。

陈源蒸老先生提到当年建议在书上印QR码,可用于物流(Judy说是放书目数据),当年是要开发专门的识别器的。技术的发展,手机已经具备条码识别功能了。问题是,很多智能手机用户不知道条码扫描软件,当然就更不会安装使用了。我们的宣传中考虑到了这个因素,还是要加强扫盲。如果你是其中之盲,推荐安装:QuickMark,条码扫描器,Goggles(这款需联网使用,但可以拍照搜)。

===

3、体感技术

毕业于空政的二炮李东旭DD演示Kinect,活力四射,果然“不太安静”(网名)。个人对Kinect感兴趣是想用来锻炼身体,他想到的是用来开发图书馆应用。听着交大的孙翌对此颇有兴趣,而不太安静也强烈要求与大家分享开发经验、共同研究,“求你们来盗版”。

想象中在图书馆大厅放一个,让读者在看书之余运动一下,当然不是玩XBox游戏,而是边运动边了解图书馆需要推广的活动、资源……。有网友问为什么不用wii,我的回复是:“没有Kinect酷啦。另外我觉得,wii是要拿在手上的,对图书馆来说,恐怕还要专门弄个人管。但Kinect固定在某处就可以了,不需要特别管理。”后来看到不太安静说可以同时有五六个人参与。

===

4、RDA

RDA比较小众,与以上都沾不上边,但因为最近美国刚发布测试报告,属于比较热的议题,所以Leon让我做一个普及。我按Leon的三个问题做了准备:

What is RDA?

What’s going on with RDA?

What it will be?

结束页面提供了一个竹帛斋主文章的链接。回家临睡才想起,竟然放弃了一个和移动搭点边的大好机会──今晨把PPT中的链接改成了QR码,给夏MM发邮件替换掉昨天的那个,小小地作个弊吧。如果昨天就放上这个QR码,会场上有人用手机拍下上网访问,效果会不错吧?

===

会议网站:http://it4l.dlresearch.cn/node/390/

授权的PPT会上网,请静等待──此次与会的很多人,包括曾秦两师、keven、高春玲、空心菜、xtykc、花生壳一干人等都是昨日凌晨1点多才从成都飞抵上海的,又开了一天的会,很辛苦的。
参见书社会老槐的日志:“2011图书馆前沿技术论坛:移动的未来”杂谈

Data Curation:数据监护?数据保管?

在书社会读到二则会议信息,都涉及Data Curation,看来是越来越热了。之前曾在“2010美国大学图书馆馆长调查:图表及其解读”(2011年4月9日)博文末乱解道“似乎OA也是图书馆比用户更感兴趣,如同机构库(IR)、数据监护/保存(Data Curation)……”
———- 之一:美国富布赖特学者西安电子科技大学图书馆讲学 ———-

图书馆网站消息:美国富布赖特学者来我馆讲学课件下载

加州大学圣巴巴拉分校Davidson图书馆地图与图像实验室主任Jon R. Jablonski副教授于5月20日在逸夫图书馆报告厅做了三个学术报告。第三场报告:Drowning in data? how librarians preserve research results through data curation?(PPT含部分中文,例子为武汉大学,看来先期在武大做过报告)

via 西北图客:美国富布赖特学者Jon R. Jablonski西安讲座参会记 (2011-05-21)

via 慢慢悠悠:Jon 讲座资料已在西电图书馆网站发布
———- 之二:「E-Research:新世代學術研究之利器」研討會 ———-

杨美华教授在书社会介绍台大图书馆等于5月17日邀请伊利诺大学图书馆的Paula Kaufman馆长和Sarah Shreeves副教授与宾州州立大学图书馆Partricia Hswe博士,举办「E-Research:新世代学术研究之利器」研讨会。博文标题为“高校图书馆在新时代的新角色:Digital Curation for Preservation”,最后提到Data Curation/Digital Curation在台湾尚无贴切译法。

关于此次会议,可访问:

会议网站:「E-Research:新世代學術研究之利器」研討會

中华民国图书馆学会电子报:5/17 「E-Research:新世代學術研究之利器」研討會
———- UIUC暑期班的Data Curation ———-

想到去年的UIUC暑期班,Paula Kaufman馆长和Sarah Shreeves副教授都曾给我们上过课,Paula讲《学术图书馆的领导》,Sarah分别讲HathiTrust和IDEALS (Illinois Digital Environment for Access to Learning and Scholarship)。当时Data Curation是图情学院研究助教Melissa Cragin讲的,她申请到了一个ILMS项目Data Curation Education Program($852,502?真是一大笔呀)。
找出当时笔记,照录:
“图情学院研究助教Melissa Cragin讲科技数据保管(Data Curation, DC),介绍了众多网站与项目。正式出版物变为native digital,图书馆收藏的内容因之需要转向非正式出版物了。以前只以为是e-Science的内容,从介绍上看,霍普金斯大学图书馆等已经参与进去了。印象最深的是说:了解科研流程与工具,以便更好地支持科研工作,如同1940-60年代了解(情报)用户(需求)那样。美国这方面有加速的趋势,并不是教授本人有这方面的需求,而是提供研究基金的机构如NSF对数据保管提出要求,教授不得不了解如何让数据被别人共享,而大学管理层也有这方面的压力。开放存取在美国已经是自上而下的要求,在中国的管理层还没有考虑到这一层。一旦走到这一步,中国的发展也会很快,但图书馆恐怕也需要努力,才能参与进去,毕竟档案馆也会是很有力的竞争者。伊大争取到项目在2008年开始暑期培训班,按申请时承诺,分享课程,以后可以去网站看看。”
暑期班同学杨鹤林在《大学图书馆学报》今年第2期发表了“数据监护:美国高校图书馆的新探索”(PDF下载),也是暑期班的收获吧。

[update 2012-4-16] Research Data Curation Bibliography (2012-4-16) / Charles W. Bailey, Jr.
包括100多篇英语文章及技术报告,基本上发表在2000-2011年间,大多数提供自由获取版本的链接。以创作共用署名-非商业协议发布

[update 2012-6-12] 更新版:Digital Curation Bibliography: Preservation and Stewardship of Scholarly Works / Charles W. Bailey, Jr. Houston, TX : Digital Scholarship, 2012. ISBN 1477497692 and ISBN-13: 9781477497692(有OA版下载)
收录650多英语文章、图书、技术报告,主要发表在2000-2011年间,提供自由获取版本的链接。

用相机代替扫描仪

曾经在本馆看到过同事用相机代替扫描仪,给古籍拍照做数字化。依稀记得是在两侧用台灯打光,上部固定一架相机,古籍平放在台面上。
前两天,在图书扫描DIY网站(diybookscanner.org),看到了更多用相机代替扫描仪,将图书数字化的设计。一些看上去相当简陋,但感觉效果不见得比普通扫描仪差。因为大部分都设计了一个V形的支架,使被扫描图书翻成一定夹角而非平放──这样的扫描仪我只在网上看到过,用于大规模数字化项目。V形支架的好处在于,被扫描图书处于比较自然的翻开状态,不但有利于保护图书,还能避免中缝受压导致字体变形,有利于成像效果。常安排左右两台相机,以便处理相对的两页。
象上面这个设计,图书翻页后可以比较方便地放下压书页的玻璃,保证页面平整。
下面这个设计十分简单,可以保证页面平整,但翻页速度怕难以保证:
特别欣赏下面这个设计,完美的零边距扫描,尤其适合中缝留白较少的文献:
DIY Book Scanners是一个社区,分享使用普通数码相机、免费软件制作电子书的经验。在相机拍摄图像后,使用免费软件做图像处理,再生成PDF或DJVU文档即可。社区原来使用的图像处理软件是Scan Tailor(扫描裁缝),最近又有了一个新的软件Book Scan Wizard(图书扫描精灵),可以直接把制作好的图书上传到互联网档案。
另外有个问题,用多少像素的相机拍摄,才能保证有一般扫描仪的扫描精度?查到“数码相机之照片像素与打印像素(DPI)”:
“一部有效像素900万的数码相机拍的照片,如果以300DPI的精度打印出来,这张照片的尺寸就应该是900万除以300再除以300,即100平方英寸。……再比如:一张3488X2616的数码照片(长宽之比为4:3),如果以300DPI的精度打印,那么其长度应该为3488除以300等于11.6英寸,宽度应该为2616除以300等于8.7英寸,大约为101平方英寸的照片。”
1英寸=2.54cm,这个尺寸大致为29.5cm*22cm,差不多是A4/16开幅面。也就是说,900万像素的数码相机,可以让A4幅面达到300dpi?如要600dpi,就要4倍即3600万像素?
———-免费扫描图像处理软件———-
Scan Tailor:分页、去污、增/除边
Book Scan Wizard:自动裁剪、旋转、固定失真校正、固定DPI,输出成Tiff文件
参见:
图书扫描机器人 (2008年8月11日)