乱花迷眼 – 第 64 页 – 编目精灵III

OCLC发布新的数据挖掘项目――读者对象

图林Library 2.0很热闹，最近刚被选为下届北美专业图书馆协会(SLA)主席的SirsiDynix公司副总裁Stephen Abram对此也一直是谈兴甚浓，但OCLC只谈Web 2.0，绝口不提L2。
Web 2.0有很多特征，其中之一是“数据是下一个Intel Inside”，不知道是不是确切，我把它译为“数据核心”――对图书馆来说，内容是基础，围绕着自己特有的内容来提供丰富的用户体验，才是Web 2.0时代的生存之道。而OCLC积数十年而成的联合目录数据库WorldCat，5千万书目、10亿馆藏，就是这样一个独特的“数据核心”。OCLC副总裁、首席策略家Lorcan Dempsey一直在呼吁“让数据起作用”，数据挖掘是研究部的重头戏。

3月24日，OCLC正式公布了研究数年的数据挖掘研究成果之Audience Level，通过对WorldCat中馆藏数据的挖掘，结合其FRBR研究的xISBN项目，提供作品（而非某一出版物）的读者对象。
在书目记录中，虽然为“读者对象”代码预留有位置，但西文编目的传统是除了儿童读物，一般不作标记。为获取读者对象信息，OCLC转而利用其独特而庞大的馆藏数据，通过对不同类型的收藏馆加以不同的权重，以数字方式提示文献可能的读者对象。

这个项目有什么意义呢？按OCLC的说法，可用于以下三个方面的进一步开发：
1、information relevancefor retrieval（信息检索相关性）
2、reference services (including readers advisory)（参考服务，含读者咨询）
3、collection development（馆藏发展）

提供三种利用途径：

1、用户界面
输入WorldCat号或ISBN，在页面的最下面，会以图示法显示该作品的读者对象（从中小学级Schooler到学术级Scholar）

2、Web服务
大家可以在自己的网页中加上如下链接，显示作品的读者对象信息（我以《哈利?波特与魔法石》为例，可以用WorldCat号或其它ISBN代替这里的0590353403）：
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403

如在后面加参数“&manifest=true”，则显示所有版本的读者对象信息，如：
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403&manifest=true

[update (2006-3-25 17:00)]
以上只是简单的示例。实际上Web服务提供了最广泛的应用可能性，只要有足够的想象力，任何人都可以将这一服务结合进自己的应用。最原始的方法如在自己的OPAC中显示某书的读者对象，高级一点的如评估本馆西文馆藏的学术层次……

3、Greasemonkey用户脚本
在Firefox浏览器中安装Greasemonkey扩展后，再分别增加用于Open WorldCat或者亚马逊的用户脚本，在访问这两个网站时，脚本会自动在它检测到ISBN的网页中插入读者对象评价信息。

看OCLC研究部主页的那一长排研究项目，就不会奇怪为什么它会成为本行业的龙头老大了。

Audience Level prototype资料：
新闻发布：New OCLC Research prototype assesses likely audience for resources in WorldCat, the world&aposs largest catalog of library resources

使用说明：Learn more about the Audience Level prototype

算法介绍：Audience Level project overview

经典回放：
Lynn Silipigni Connaway, Edward T. O&aposNeill and Chandra Prabha. 2004. “Estimating Audience Level of Monographs Using Holding Patterns in WorldCat”. Presentation given at Library Research Seminar III: Learning and Growing; Inquiry into Librarianship, 14?C16 October 2004, Kansas City, Missouri (USA). (PowerPoint : 32MB/29slides)

其它相关资料：
Lorcan Dempsey: Making data work harder
Lorcan Dempsey: Making data work – Web 2.0 and catalogs

Greasemonkey中文手册

不仅仅是第100万张数字化图片上网

网上由图书馆主持的数字化图片库很多。前两天刚说到英国利兹图书馆的照片档案，又顺便回顾了一下纽约公共图书馆数字画廊的惊人发展，Leon留言还提到美国Ann Arbor图书馆的pictureAnnArbor!，这是由社区居民自已上传图片建立的。
昨天又看到消息，美国国会图书馆的印品与照片部（Prints & Photographs Division）正庆祝他们第一百万张数字化图片上网。这些照片通过印品与照片联机目录（Prints and Photographs Online Catalog，PPOC）检索。

    PPOC包括自1984年以来编目的静态图像资料，目前占该部馆藏的65%，也包括该馆其它部门的一些图片，内容上大量是历史图片。部分书目记录附有数字图片。
    PPOC部分与联机目录重叠（但联机目录无图片显示），还有很大一部分包括在“美国记忆”中。出于版权保护考虑，馆外使用时，某些图片只显示gif格式小图片；而馆内使用则可以访问较大的jpeg和tiff格式图片。
    PPOC检索方式有以下几种：

1、按责任者、题名、主题等途径检索
2、按所列的58个专题检索：
各专题下列有数字化完成情况（全部、大部分、部分），以及jpeg和tiff格式图片能否在馆外显示
3、按图片资料叙词表浏览
58个专题中的第53个，是Thesaurus for Graphic Materials (TGM)，从这个入口，可以按有参照系统的叙词检索或浏览。

前二种检索的缺省显示状态是简单记录（文字列表），点击“预览图像”按钮后，再以图像列表方式显示。
从检索结果看，似乎没有图像的记录还不少。图片已达一百万张，可见书目记录数量也相当大（部分为多图片记录）。

除了在线的图片，印品与照片部还有一个内容丰富的“编目与数字化工具箱”（Cataloging & Digitizing Toolbox）。如果正在或准备开始图片的数字化工作，这里的资料与工作经验绝对是不容错过的：

Cataloging Tools Produced by the Prints and Photographs Division（编目工具）
“How to” Tip Sheets（图片资料处理技巧）
Resource Lists（资源一览表）
Articles and Presentations（文章与演示）

美国国会图书馆首页列有五大数字化项目――联机目录、美国记忆、特藏展示、全球网关、托马斯法律信息，其中并没有印品与照片联机目录。另外编目常用的还有规范库，还真不知道LC网站中藏有多少数字化项目。

Leodis(利兹照片档案)与Web2.0

Leodis――（英国）利兹照片档案，现有近45000张图片，时间跨度由1690年代到现在。

Leodis是在线的当地历史图片集，无论在图片数量还是在检索、浏览功能上，都无法与纽约公共图书馆数字画廊相比。之所以对Leodis感兴趣，主要原因是发现这个也是由图书馆建立并维护的“数字图书馆”很有些web2.0用户参与的特征：

可以对照片发表评论，提供相关信息（Contribute your own information）
可以上传自己的图片（Your Leodis Album）

另外二点也是值得图书馆对资源进行数字化时参考的：

一、在建立Leodis前，先做调查，确认有需求后再动手：
利兹研究图书馆收藏有丰富的与该市有关的照片。为探测对照片的需求，市议会互联网小组先把一些照片放在利兹市议会网站上，发现公众对此有很大兴趣，于是在一彩票基金资助下，花两年时间，于2003年建立起Leodis网站。照片来自利兹研究图书馆及各分馆，以及当地其它一些机构。Leodis由利兹图书馆与信息服务部管理，仍在继续增加图片。

二、资源是生存的根本，也是可以获利的途径（用Tim O&aposReilly的话说，“数据是下一个Intel Inside”）：
由于数字化的是公众有兴趣的资源，所以Leodis打印出售这些网上的照片（NYPL也出售照片）。
在出售时，Leodis非常注意版权问题，既维护其他照片提供者的版权，也维护自己作为照片所有者的版权。某些照片因提供方原因不出售；标示的价格只供个人使用，如要出版，需增加授权费用。

是从Information Takes Over的“Library 2.0 – idea #4”得知Leodis的。他没有提到Leodis的web2.0特征，他的设想是用Google地图标注这些在特定地点拍的照片…。想“图书馆2.0”，好象有点走火入魔了？

另参见：
纽约公共图书馆数字画廊（今天访问，发现NYPL Digital Gallery的图片已由3月初的27万5千上升至41万5千了）。