OCLC发布新的数据挖掘项目――读者对象

    图林Library 2.0很热闹,最近刚被选为下届北美专业图书馆协会(SLA)主席的SirsiDynix公司副总裁Stephen Abram对此也一直是谈兴甚浓,但OCLC只谈Web 2.0,绝口不提L2。
    Web 2.0有很多特征,其中之一是“数据是下一个Intel Inside”,不知道是不是确切,我把它译为“数据核心”――对图书馆来说,内容是基础,围绕着自己特有的内容来提供丰富的用户体验,才是Web 2.0时代的生存之道。而OCLC积数十年而成的联合目录数据库WorldCat,5千万书目、10亿馆藏,就是这样一个独特的“数据核心”。OCLC副总裁、首席策略家Lorcan Dempsey一直在呼吁“让数据起作用”,数据挖掘是研究部的重头戏

    3月24日,OCLC正式公布了研究数年的数据挖掘研究成果之Audience Level,通过对WorldCat中馆藏数据的挖掘,结合其FRBR研究的xISBN项目,提供作品(而非某一出版物)的读者对象。
    在书目记录中,虽然为“读者对象”代码预留有位置,但西文编目的传统是除了儿童读物,一般不作标记。为获取读者对象信息,OCLC转而利用其独特而庞大的馆藏数据,通过对不同类型的收藏馆加以不同的权重,以数字方式提示文献可能的读者对象。

    这个项目有什么意义呢?按OCLC的说法,可用于以下三个方面的进一步开发:
1、information relevancefor retrieval(信息检索相关性)
2、reference services (including readers advisory)(参考服务,含读者咨询)
3、collection development(馆藏发展)

    提供三种利用途径:

1、用户界面
输入WorldCat号或ISBN,在页面的最下面,会以图示法显示该作品的读者对象(从中小学级Schooler到学术级Scholar)

2、Web服务
大家可以在自己的网页中加上如下链接,显示作品的读者对象信息(我以《哈利?波特与魔法石》为例,可以用WorldCat号或其它ISBN代替这里的0590353403):
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403

如在后面加参数“&manifest=true”,则显示所有版本的读者对象信息,如:
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403&manifest=true

[update (2006-3-25 17:00)]
以上只是简单的示例。实际上Web服务提供了最广泛的应用可能性,只要有足够的想象力,任何人都可以将这一服务结合进自己的应用。最原始的方法如在自己的OPAC中显示某书的读者对象,高级一点的如评估本馆西文馆藏的学术层次……

3、Greasemonkey用户脚本
在Firefox浏览器中安装Greasemonkey扩展后,再分别增加用于Open WorldCat或者亚马逊的用户脚本,在访问这两个网站时,脚本会自动在它检测到ISBN的网页中插入读者对象评价信息。

    看OCLC研究部主页的那一长排研究项目,就不会奇怪为什么它会成为本行业的龙头老大了。

Audience Level prototype资料
新闻发布:New OCLC Research prototype assesses likely audience for resources in WorldCat, the world&aposs largest catalog of library resources

使用说明:Learn more about the Audience Level prototype

算法介绍:Audience Level project overview

经典回放:
Lynn Silipigni Connaway, Edward T. O&aposNeill and Chandra Prabha. 2004. “Estimating Audience Level of Monographs Using Holding Patterns in WorldCat”. Presentation given at Library Research Seminar III: Learning and Growing; Inquiry into Librarianship, 14?C16 October 2004, Kansas City, Missouri (USA). (PowerPoint : 32MB/29slides)
 

其它相关资料:
Lorcan Dempsey: Making data work harder
Lorcan Dempsey: Making data work – Web 2.0 and catalogs

Greasemonkey中文手册

 

图书馆供应商谈图书馆

    图书馆界会多。开会的一大好处,就是可以碰到很多以往没机会结识的人――听一些业界大腕作报告或与之聊天,得到许多思想火花。博客们将这些信息公之于众,没机会与会的看客们也因此得到很多信息。(国外与会者还会很潇洒地把大量照片放到图片网站如Flickr上,让大家得到更多感性认识。而国内似乎颇多顾忌,怕涉及肖像权、引起不快?难道国外就没有肖像权麻烦?)
    TTW的Michael Stephens记录了在两次会议上,图书馆集成系统供应商Sirsi公司副总裁Stephen Abram与OCLC副总裁的George M. Needham的谈话。两位不是真正的图书馆人,基本上可说是商人(不要说OCLC是什么非赢利性机构)――但又是十分关注图书馆前途、对图书馆新技术颇多了解的商人。看看他们如何谈图书馆[方括号后为本人感言]:

Abram如是说Abram-isms

“The next step in libraries is what are we going to do to &apostrick&apos our new users to use the library.”

下一步,图书馆要做的是如何“哄骗”新用户去使用图书馆。
[未来一代不会象上代人那样习惯使用图书馆。没人来,只有关门大吉]

“Technology needs to take a step back, like utilities, like heat and light, and let the services and people come forward.”

技术需要退后一步,如同公用事业、如同热与光,让服务与人冲在前面。
[技术应当是看不见的基础设施]

“You must have a vision of the future, or you will always be stuck in the present, over and over again.”

必须具有未来的眼光,否则将永远被钉在现在。
[说起来容易做起来难]

“DVDs and CDs will be extinct by 2012.” (See this article for more)

到2012年,DVD与CD将灭绝。
[国外很多图书馆音像资料的收藏量增长很快,这是一个警示?iPod的流行,从声音向影像发展,确实可能导致实体音像资料的消亡――DVD与CD本身依赖特定的播放器,其灭亡速度比印刷品快也是可以想象的――当年我们在学校学外语时的盘式录音带现在哪里还能见到?]

“Technological Divide: Everyone under 25 has an IM account but most librarians over 30 don&apost. This needs to change.”

技术鸿沟:每个25岁以下的人都有即时通讯帐号,而大部分30岁以上的图书馆员没有。这需要改变。
[IM已经成为很多图书馆参考咨询的有效工具。除此而外,还有什么用?]

“It&aposs more important to create a community portal than a library web site.”

创建一个社区门户比创建一个图书馆网站更重要。
[公共图书馆网站成为社区门户的一部分]

Needham如是说Needham-isms

“We need to stop thinking we are Information Priests and Priestesses…”

我们需要停止认为我们是信息牧师……”
[别老觉得自己很崇高……]

“If you wrap something up in the mantle of training, you&aposre going to turn them off..give them short cuts instead…”

如果把东西用培训包装起来,就是在放弃它们…还是弄得简洁一点吧…
[图书馆最高档的事情就是“培训”,如果因简洁而失业,图书馆利用率会更高]

“Nobody ever died of bad cataloging…”

没人曾死于糟糕的编目……
[编目员是早该下岗了的。只是,缺了谁,地球会停止转动呢?]

“We need to get over the fact that libraries are not the first place people go for information and never have been…we need to be something else.”

我们需要承认这个事实――图书馆并非人们获取信息的首要地,从来不是…我们必须是别的什么。
[“从来不是”,对很多人的打击真是够大的!]

On change in Libraries: “We need to appeal to different learning styles…”

对于改变图书馆:“我们必须吸引不同的学习风格….”
[具体指什么呢?]

“IM is the way people are communicating today..we need to use it.”

即时通讯是当今人们交流的方式…我们需要利用它。
[又是IM,国内有多少图书馆在利用它?]

“Bring Digital Natives into your planning process (even if they don&apost have an MLS)…”

把“数字原住民”列入人事编制(即使他们没有图书馆学硕士学位)…
[一出生就活在随时随地可以上网的宽频互联网环境下的“数字原住民”还没有到找工作的年龄,现在大家都是“数字移民”(Digital Immigrants),不管学什么,都不要把计算机、网络这样基本工具忽略了]

“Let&aposs try things…”

让我们尝试…
[要知道试什么,可不是那么容易的事。既要埋头拉车,也要抬头看路。]

 

由OCLC TOP 1000想到的

    Lorcan Dempsey推荐2005新版的OCLC TOP 1000――OCLC成员馆收藏最多的1000种文献。这篇“Top 1000 works”从标题开始就一直在强调“作品”――集中不同的版本与译本。在FRBR深入人心的情形下,很吸引人。

    去年OCLC首次编制TOP 1000,自己当时凭直觉以为是按各书目记录下的馆藏数从多到少排列得出的,全然没有注意前面的说明,是通过全球图书馆的“购买投票”评出的值得收藏的智力作品(the intellectual works that have been judged to be worth owning by the “purchase vote” of libraries around the globe)。今天仔细看TOP 1000,发现在书名、作者下,有二个数字,分别是Library holdings(馆藏数)和Bibliographic records(书目记录数)。既然是图书馆收藏最多的排行榜,排序当然是以“馆藏数”为依据的。但这是由同一作品的不同书目记录下的馆藏合计而成的。我原来忽略了“智力作品”一词,把在现有书目数据库状态下相当复杂的集中同一作品的算法,看成一个简单的排序,实在是极可笑的。

    大致比较新、旧两个版本的TOP 1000,发现一个奇怪的数据变化。《圣经》由去年的第二上升到第一,原没什么,奇怪的是数值的变化:
                         2004      2005    变化
Library holdings:       271,534  796,882  2.9倍
Bibliographic records:  36,738    93,567  2.5倍

从上述数据来看,如果说图书馆忽然想起来,一窝蜂购买大量《圣经》,这种解释已经很勉强;如果说全世界的出版商忽然想起来,一窝蜂在一年内出版几万种《圣经》,差不多可以说是笑话。可能增加的有部分回溯的旧书目数据,但数据变化如此之大,只能认为是算法变化所致。也就是说,OCLC进一步改进了它集中同一种“作品”的算法,包括了更多原来未视作同一作品的书目记录。这本身就是OCLC的财富,也是它雄霸图林天下的资本之一。

乱弹一篇:
    Lorcan还推荐TOP 1000的副产品“Fun factsabout the updated OCLC Top 1000。其中有一段关于TOP 1000中出版次数最多的作品,一至四位分别是:《圣经》,《哈加达》(犹太教《圣经?旧约》故事),《神曲》和《古兰经》。看着这几部书,四大宗教,独缺佛教。仔细想想,佛经众多,却并没有一部象《圣经》、《古兰经》那样所有教徒都熟诵的至上经典。佛教徒也如佛教经典一般四分五裂,因之与其它宗教相比,终是处于弱势。