OCLC发布新的数据挖掘项目――读者对象

    图林Library 2.0很热闹,最近刚被选为下届北美专业图书馆协会(SLA)主席的SirsiDynix公司副总裁Stephen Abram对此也一直是谈兴甚浓,但OCLC只谈Web 2.0,绝口不提L2。
    Web 2.0有很多特征,其中之一是“数据是下一个Intel Inside”,不知道是不是确切,我把它译为“数据核心”――对图书馆来说,内容是基础,围绕着自己特有的内容来提供丰富的用户体验,才是Web 2.0时代的生存之道。而OCLC积数十年而成的联合目录数据库WorldCat,5千万书目、10亿馆藏,就是这样一个独特的“数据核心”。OCLC副总裁、首席策略家Lorcan Dempsey一直在呼吁“让数据起作用”,数据挖掘是研究部的重头戏

    3月24日,OCLC正式公布了研究数年的数据挖掘研究成果之Audience Level,通过对WorldCat中馆藏数据的挖掘,结合其FRBR研究的xISBN项目,提供作品(而非某一出版物)的读者对象。
    在书目记录中,虽然为“读者对象”代码预留有位置,但西文编目的传统是除了儿童读物,一般不作标记。为获取读者对象信息,OCLC转而利用其独特而庞大的馆藏数据,通过对不同类型的收藏馆加以不同的权重,以数字方式提示文献可能的读者对象。

    这个项目有什么意义呢?按OCLC的说法,可用于以下三个方面的进一步开发:
1、information relevancefor retrieval(信息检索相关性)
2、reference services (including readers advisory)(参考服务,含读者咨询)
3、collection development(馆藏发展)

    提供三种利用途径:

1、用户界面
输入WorldCat号或ISBN,在页面的最下面,会以图示法显示该作品的读者对象(从中小学级Schooler到学术级Scholar)

2、Web服务
大家可以在自己的网页中加上如下链接,显示作品的读者对象信息(我以《哈利?波特与魔法石》为例,可以用WorldCat号或其它ISBN代替这里的0590353403):
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403

如在后面加参数“&manifest=true”,则显示所有版本的读者对象信息,如:
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403&manifest=true

[update (2006-3-25 17:00)]
以上只是简单的示例。实际上Web服务提供了最广泛的应用可能性,只要有足够的想象力,任何人都可以将这一服务结合进自己的应用。最原始的方法如在自己的OPAC中显示某书的读者对象,高级一点的如评估本馆西文馆藏的学术层次……

3、Greasemonkey用户脚本
在Firefox浏览器中安装Greasemonkey扩展后,再分别增加用于Open WorldCat或者亚马逊的用户脚本,在访问这两个网站时,脚本会自动在它检测到ISBN的网页中插入读者对象评价信息。

    看OCLC研究部主页的那一长排研究项目,就不会奇怪为什么它会成为本行业的龙头老大了。

Audience Level prototype资料
新闻发布:New OCLC Research prototype assesses likely audience for resources in WorldCat, the world&aposs largest catalog of library resources

使用说明:Learn more about the Audience Level prototype

算法介绍:Audience Level project overview

经典回放:
Lynn Silipigni Connaway, Edward T. O&aposNeill and Chandra Prabha. 2004. “Estimating Audience Level of Monographs Using Holding Patterns in WorldCat”. Presentation given at Library Research Seminar III: Learning and Growing; Inquiry into Librarianship, 14?C16 October 2004, Kansas City, Missouri (USA). (PowerPoint : 32MB/29slides)
 

其它相关资料:
Lorcan Dempsey: Making data work harder
Lorcan Dempsey: Making data work – Web 2.0 and catalogs

Greasemonkey中文手册

 

不仅仅是第100万张数字化图片上网

    网上由图书馆主持的数字化图片库很多。前两天刚说到英国利兹图书馆的照片档案,又顺便回顾了一下纽约公共图书馆数字画廊的惊人发展,Leon留言还提到美国Ann Arbor图书馆的pictureAnnArbor!,这是由社区居民自已上传图片建立的。
    昨天又看到消息,美国国会图书馆的印品与照片部(Prints & Photographs Division)正庆祝他们第一百万张数字化图片上网。这些照片通过印品与照片联机目录(Prints and Photographs Online Catalog,PPOC)检索。

    PPOC包括自1984年以来编目的静态图像资料,目前占该部馆藏的65%,也包括该馆其它部门的一些图片,内容上大量是历史图片。部分书目记录附有数字图片。
    PPOC部分与联机目录重叠(但联机目录无图片显示),还有很大一部分包括在“美国记忆”中。出于版权保护考虑,馆外使用时,某些图片只显示gif格式小图片;而馆内使用则可以访问较大的jpeg和tiff格式图片。
    PPOC检索方式有以下几种:

1、按责任者、题名、主题等途径检索
2、按所列的58个专题检索:
    各专题下列有数字化完成情况(全部、大部分、部分),以及jpeg和tiff格式图片能否在馆外显示
3、按图片资料叙词表浏览
    58个专题中的第53个,是Thesaurus for Graphic Materials (TGM),从这个入口,可以按有参照系统的叙词检索或浏览。

    前二种检索的缺省显示状态是简单记录(文字列表),点击“预览图像”按钮后,再以图像列表方式显示。
    从检索结果看,似乎没有图像的记录还不少。图片已达一百万张,可见书目记录数量也相当大(部分为多图片记录)。

    除了在线的图片,印品与照片部还有一个内容丰富的“编目与数字化工具箱”(Cataloging & Digitizing Toolbox。如果正在或准备开始图片的数字化工作,这里的资料与工作经验绝对是不容错过的

  • Cataloging Tools Produced by the Prints and Photographs Division(编目工具)
  • “How to” Tip Sheets(图片资料处理技巧)
  • Resource Lists(资源一览表)
  • Articles and Presentations(文章与演示)

    美国国会图书馆首页列有五大数字化项目――联机目录、美国记忆、特藏展示、全球网关、托马斯法律信息,其中并没有印品与照片联机目录。另外编目常用的还有规范库,还真不知道LC网站中藏有多少数字化项目。

 

Leodis(利兹照片档案)与Web2.0

    Leodis――(英国)利兹照片档案,现有近45000张图片,时间跨度由1690年代到现在。

    Leodis是在线的当地历史图片集,无论在图片数量还是在检索、浏览功能上,都无法与纽约公共图书馆数字画廊相比。之所以对Leodis感兴趣,主要原因是发现这个也是由图书馆建立并维护的“数字图书馆”很有些web2.0用户参与的特征:

  • 可以对照片发表评论,提供相关信息(Contribute your own information)
  • 可以上传自己的图片(Your Leodis Album)

    另外二点也是值得图书馆对资源进行数字化时参考的:

一、在建立Leodis前,先做调查,确认有需求后再动手:
    利兹研究图书馆收藏有丰富的与该市有关的照片。为探测对照片的需求,市议会互联网小组先把一些照片放在利兹市议会网站上,发现公众对此有很大兴趣,于是在一彩票基金资助下,花两年时间,于2003年建立起Leodis网站。照片来自利兹研究图书馆及各分馆,以及当地其它一些机构。Leodis由利兹图书馆与信息服务部管理,仍在继续增加图片。

二、资源是生存的根本,也是可以获利的途径(用Tim O&aposReilly的话说,“数据是下一个Intel Inside”):
    由于数字化的是公众有兴趣的资源,所以Leodis打印出售这些网上的照片(NYPL也出售照片)。
    在出售时,Leodis非常注意版权问题,既维护其他照片提供者的版权,也维护自己作为照片所有者的版权。某些照片因提供方原因不出售;标示的价格只供个人使用,如要出版,需增加授权费用。

    是从Information Takes Over的“Library 2.0 – idea #4”得知Leodis的。他没有提到Leodis的web2.0特征,他的设想是用Google地图标注这些在特定地点拍的照片…。想“图书馆2.0”,好象有点走火入魔了?

另参见:
纽约公共图书馆数字画廊(今天访问,发现NYPL Digital Gallery的图片已由3月初的27万5千上升至41万5千了)。