关联数据和移动的未来

昨天参加“2011年图书馆前沿技术论坛:移动的未来”会议。因借曾蕾、秦健两师由成都数图会会议网站资料下载)转站而来之机,所以关联数据成为一个重点,移动的意味相对弱些──如果只看会名没看议程就注册,或许不免失望。不过,对我倒是两方面都有收获,当然之外还其他收获。

1、关联数据

以前听得比较多的是关联数据给了图书馆让外界(通过计算机)利用自己内容的机会。馆藏的大量工具是做关联数据的很好来源,但图书馆并不拥有版权,除了如历史年表这样的客观知识外,如将工具书内容做成关联数据发布基本上是自找麻烦。对图书馆来说,馆藏书目是主要的可发布内容,但独特到唯一唯二的并不多,如果大家都发布,有没有人用不说,还凭白添乱,因为需要在不同机构发布的关联数据间做关联(Same as)。以上种种,让自己觉得关联数据基本上是国家级图书馆的事,如先行者瑞典国家图书馆、美国国会图书馆、匈牙利国家图书馆、德国国家图书馆、大英图书馆已所或打算做的那样,把馆藏(联合)目录/国家书目、规范数据、分类法/主题词表做成或发布为关联数据,供各方利用。

参见:关联数据相关博文

今天让我知道,图书馆还可以利用关联数据。曾师说,关联的开放数据(Linked Open Data, LOD)所带来的是极大的财富[所以,图书馆没有理由不去用],对于图书馆来说,需要把终点(如OPAC中的详细记录页面)作为关联的起点,把绑在一起的“记录”打开,找到可以作为起点的地方(如作者、出版社……),让数据走出图书馆的围墙,由封闭的数据变为开放的数据──例子就是增加到VIAF(虚拟国际规范档)、WorldCat Identity(OCLC身份档)的链接[甚至直接取来相关的信息,类似mashup]。如此,则读者通过OPAC不仅可以知道图书馆收藏了该作者多少书,还可以了解该作者更多更详细的信息(参见:规范档2.0:WorldCat身份档)。

接下来秦师正好举到她之前做过的一个试验,给某数据库用上关联数据,详解了实施过程。概言之:1、分析有哪些元数据要关联;2、有哪些可用于关联即数据来源;3、实施嵌入XML,用样式表实现。

知道可以怎么做了。需要面对的现实是,中文关联数据来源稀少。

参见:W3C图书馆关联数据孵化小组使用案例

图书馆关联数据孵化小组 (2010年5月23日)

当然,除了把现有数据经格式转换发布为关联数据供机器调用外,图书馆也是有关联数据可发布的。上图夏翠娟(xtykc)介绍把上海市中心图书馆名录发布为关联数据。如果各省市都这么做,任何人都可凭此完成一个全国性的图书馆名录,标注在地图上……(预留想象空间)。

不过,事情永远不是那么一目了然的。如曾师言,搜索引擎Bing/Google/Yahoo新推出的schema.org走的是和W3C关联数据不同的另一条路。未来会如何?No one knows.

===

2、移动图书馆

移动图书馆方面,本馆去年3.8推出手机网站,有统计数据的八个多月,访问总数才3万多。今年4月改版,突出OPAC,增加个人借阅查询、访问手机版电子资源。更换了统计途径,访问情况尚未统计,大致看过一眼,看上去也不乐观。本月刚借鉴南师大的做法,推出了OPAC的QR码,这个使用统计就很难做了。

不管使用情况如何,我始终相信,当越来越多的人拿着手机做打电话、发短信之外获取信息的事情,图书馆没有理由不在这里找到自己的位置,关键是要找到合适的入口。

东道主复旦大学图书馆张计龙馆长介绍中提及一些移动应用,未细说,待看PPT。

辽师高春玲MM介绍其2010年国家社科基金课题“移动阅读与图书馆延伸服务研究”的初期成果,主要是一些调研,包括国内外的相关统计数据。有些数据对移动网站或App设计会有参考价值,比如OPAC查询使用不多之类,有待细看。报告受到上图刘炜、上大吕斌及一位复旦DD的拍砖,虽然离结题尚远,不过对她而言类似于一次预审,收获肯定不小。有这样的机会,还是不错的。

Keven即兴发言,谈及移动服务的三个要素:LBS(基于位置的服务)、Social、UX(用户体验)。虽然有多个校区的情况,总体来讲LBS对于高校馆应该没有公共馆那么有用。Social如何结合到移动网站或app中,还需做更多了解──目前本馆手机网站用了新浪微博秀。UX方面最让人头痛,缺乏有经验的人手来设计实施,自己也缺乏理论指导,很多时候更多凭直觉判断,难免受人诟病。

上图夏MM介绍的上海市中心图书馆名录的QR码,听着就很专业,有兴趣者可联系她。内容标准基于vCard,包括电话号码(可拨打电话并保存到电话薄)、地址、网址、地理坐标(链接到地图应用)等。给我的启示是,无论是否纸质的东西,印QR码都是很好的选择,在这个例子里,要打电话不需输入号码,要查交通方式不需输入地址、要上网站不需要输入网址。

在会议期间和会后与曾师等的交流中,还想到或聊到QR码的其他可能应用,比如书架上贴分类号,比如在图书馆一些位置上的指引……需要发散性思维(Nalsi应该收集了很多实例)。

陈源蒸老先生提到当年建议在书上印QR码,可用于物流(Judy说是放书目数据),当年是要开发专门的识别器的。技术的发展,手机已经具备条码识别功能了。问题是,很多智能手机用户不知道条码扫描软件,当然就更不会安装使用了。我们的宣传中考虑到了这个因素,还是要加强扫盲。如果你是其中之盲,推荐安装:QuickMark,条码扫描器,Goggles(这款需联网使用,但可以拍照搜)。

===

3、体感技术

毕业于空政的二炮李东旭DD演示Kinect,活力四射,果然“不太安静”(网名)。个人对Kinect感兴趣是想用来锻炼身体,他想到的是用来开发图书馆应用。听着交大的孙翌对此颇有兴趣,而不太安静也强烈要求与大家分享开发经验、共同研究,“求你们来盗版”。

想象中在图书馆大厅放一个,让读者在看书之余运动一下,当然不是玩XBox游戏,而是边运动边了解图书馆需要推广的活动、资源……。有网友问为什么不用wii,我的回复是:“没有Kinect酷啦。另外我觉得,wii是要拿在手上的,对图书馆来说,恐怕还要专门弄个人管。但Kinect固定在某处就可以了,不需要特别管理。”后来看到不太安静说可以同时有五六个人参与。

===

4、RDA

RDA比较小众,与以上都沾不上边,但因为最近美国刚发布测试报告,属于比较热的议题,所以Leon让我做一个普及。我按Leon的三个问题做了准备:

What is RDA?

What’s going on with RDA?

What it will be?

结束页面提供了一个竹帛斋主文章的链接。回家临睡才想起,竟然放弃了一个和移动搭点边的大好机会──今晨把PPT中的链接改成了QR码,给夏MM发邮件替换掉昨天的那个,小小地作个弊吧。如果昨天就放上这个QR码,会场上有人用手机拍下上网访问,效果会不错吧?

===

会议网站:http://it4l.dlresearch.cn/node/390/

授权的PPT会上网,请静等待──此次与会的很多人,包括曾秦两师、keven、高春玲、空心菜、xtykc、花生壳一干人等都是昨日凌晨1点多才从成都飞抵上海的,又开了一天的会,很辛苦的。
参见书社会老槐的日志:“2011图书馆前沿技术论坛:移动的未来”杂谈

RDA厂商访谈之III

Vendor Interview — Innovative Interfaces, Inc. (III) / by jhennelly (10 Jun 2011)

RDA开发方针对RDA工具套件调查中用户最关心的一些问题,选择若干厂商做访谈,让大家了解在由AACR2转向RDA过程中,相关产品会有哪些变化。第一家是Innovative公司,作答者为产品经理Ken Wells。本馆是III用户,其解答得认真看──最后一段比较出彩。

估计向各家提的问题是一样的。以下编号为本人所加:

1、你们的编目系统是否与MARC 21为适应RDA而做改变的9,10,11更新同步?如果没有,是否计划更新、有无时间表?是否改变书目记录与规范记录两者?

Yes。对于目前MARC的所有更新,Millennium系统都支持。已安装的需要免费更新以增加功能(通过CSDirect提交)。

2、你们系统的显示(面向公众的与内部的)能否显示新增加到MARC的RDA字段?有无未来改变计划、时间表?

Yes。Millennium馆员模块、WebPAC及Encore均可显示。正在评估如何用新数据元素来强化显示与访问记录数据。

3、请描述你们系统的检索界面(包括索引、限定、分面功能),它们如何处理新的RDA字段。有无未来改变计划、时间表?

如果图书馆需要的话,可以索引新的RDA字段[这里没说免费,不会要收钱吧]。正考虑以RDA字段增加限定与分面选项。

4、你们的系统是否支持用MARC以外的编码进行编目上?如果是的话,是否为支持RDA做过任何改变?有无未来改变计划、时间表?

Millennium原来就支持非MARC编目,目前没有对非MARC功能作进一步改变的计划,将待6月RDA测试结果公布再定。[III的非MARC编目主要通过其固定的字段与索引标签实现检索与显示功能,很粗放]

5、图书馆将在未来一段时间内处于混合记录环境中。在可见的未来,你们是否有停止支持AACR2的计划?

No。AACR2与RDA数据可以在数据库中并存,不但在Millennium,在新的Sierra服务平台也将同时支持两者。

6、对于AACR2和RDA记录在目录中并存的混合记录环境中,是否对使用你们系统的显示、检索或其他有所担心?

No。不管什么记录格式,用户可以选择向公众显示的字段。

7、RDA特别关注基于FRBR的记录间关系,采用作品-内容表达-载体表现-单件结构。你们的系统目前是否以什么方式利用了这一新数据与结构以改善用户体验?是否有计划未来基于这一数据改善用户体验?如果有,时间表?

Millennium目前没有FRBR化界面,但我们正致力于采用此一新数据与结构强化系统,现在还没有开发的具体时间表。[失望]

8、有人说,只要MARC仍然是主导的编码标准,RDA的好处不能充分体现。如果RDA被采用,你觉得MARC将如何?离开MARC对于你们的产品会产生何种问题?

不管对RDA的官方立场是什么,我们相信在可见的未来,图书馆仍将处于RDA与AACR2记录混合的状态,如同现在AACR、AACR2及其他记录格式的混合。

就Millennium和Sierra所关注的,AACR2和RDA在数据格式化风格上基本相同,差别只在数据如何解释。因此对于数据库,改变到RDA风格编码没有问题。在图书馆越来越转向目录结构FRBR化、记录本身原子化时,会引起一些问题。也就是说,当单个记录分解成到描述性元素(如主题标目、作者标目等)的链接,而非在每条记录中重复输入的数据,我们可以最终看到更加由关系驱动的数据结构,而非如现在目录中所见的逐个记录那样的孤立数据。这种改变将完全重构图书馆目录,向这一方向转变,需要厂商与图书馆双方的全力努力。我们知道,假以时日,这将是图书馆目录的本质,加入其他现代、多行业数据结构的结构与格式。[最后落实到了关联数据,如何在系统中实现,确实是一大挑战。在RDA官方测试结果出来前的回应虽然回避了MARC问题,却也描述了替代品的模样……]

[update 2011-11-11] qingyi在书社会翻译的访谈全集:
RDA自动化系统开发商系列访谈1-4:III、VTLS、BiblioMondo、Polaris (2011-07-03)
RDA自动化系统开发商系列访谈5-8:Ex Libris、Follett、OCLC、SkyRiver (2011-07-27)

准备抛弃MARC?美国国会图书馆启动“书目框架转变行动”

2004年初,美国国会图书馆(LC)副馆长Deanna B. Marcum发表“编目的未来”演讲(The Future of Cataloging),公开了LC管理层对编目工作的全面反思。2006年LC成立书目控制未来工作组(Working Group on the Future of Bibliographic Control),最终导致采编合并,对LC的编目工作产生了实质性影响。

在Marcum馆长主导下,不久前LC又把目标对准了MARC──“启动检讨书目框架的计划,意在更好地适应未来的需要。该行动(Initiative)的主要重点是为MARC 21交换格式确定一条转变路径,以便从新技术获益,同时维持近几十年间支持资源共享、节省编目费用的强健的数据交换(功能)。这项工作将与MARC 21格式的相关机构协调实施,包括正式合作伙伴(加拿大图书档案馆和大英图书馆),非正式合作伙伴(德国国家图书馆和其他国家图书馆),提供图书馆服务与产品的机构,众多MARC用户机构,以及MARC咨询委员会如ALA的MARBI委员会、加拿大MARC委员会和英国的BIC书目标准组。”

LC网站发展与MARC标准办公室为行动建立了官方网站,提供相关信息、公告及资源:Bibliographic Framework Transition Initiative

5月13日,网站发布了LC的声明“改变我们的书目框架”,并宣布将在6月ALA年会对此讨论的基础上,发布进一步的声明。
Transforming our Bibliographic Framework: A Statement from the Library of Congress

声明称,“来自美国RDA测试参与者的自发评论显示,图书馆界很多部门感觉到经费压力,但仍认为有必要取代MARC 21,以从新兴的内容标准中充分受益。”在准备抛弃MARC的同时,表示对RDA的认可?对于前几年刚开始把机读目录格式转到MARC 21的德奥等国,以及不久前刚宣布改用MARC 21的对岸“国家图书馆”,将何去何从?声明结尾称将在2012及2013年召开一系列专家及利益相关者会议──2014年大概就可以尘埃落定了,尽管现在并没有一个可选择的应用标准。

声明的主要内容是提出LC将解决的问题:

> 确定当前元数据编码标准的哪些方面应当予以保留,并演化至未来的格式。我们会考虑现已编制了数十亿记录的MARC 21,以及其他。

> 以语义网和关联数据技术做实验,看看他们对书目框架有何益处,我们现有的模式需要如何调节,才能充分利用这些优势。

> 希望在更广泛的网络搜索环境中最大限度重用图书馆元数据,让最终用户接触到更多优质元数据,并以创新方式使用。

> 能够为用户在实体关系间导航──如个人、地点、组织、概念──从而在图书馆目录及更广泛的互联网中检索得更准确。我们将探索在导航关系中使用有前途的数据模型如“书目记录的功能需求”(FRBR),无论这些关系是由馆员主动编制的,还是经由语义网而识别的。

> 探索在当前基于MARC的系统之外的显示元数据的方法。

> 识别采取或不采取行动的风险,包括评估改变得到更广泛接受的步伐:我们会采取渐进的步骤,或是采取更大胆、更快的行动?

> 在LC更广泛的技术基础结构中将现有元数据带入新书目系统的计划──特别需要考虑原来数据库的规模与价值。

[update 2011-5-28] 参见

Nalsi的西文编目笔记III:【翻译】国会图书馆可能开始放弃MARC

原文:Library of Congress May Begin Transitioning Away from MARC / Michael Kelley. LibraryJournal, May 26, 2011