OCLC – 第 30 页 – 编目精灵III

OCLC的LC名称规范服务及其它

OCLC研究部在参与eprints UK 项目时，开发了“LC名称规范服务”(LC Name Authority Service)。这是一个建机构库中使用LC名称规范档确认名称的Web服务。最近Ralph LeVan改进了名称查找的匹配算法，可以处理拼写错误及名称变异形式，检索结果智能排序基于WorldCat中名称的使用次数，以及规范档中的规范形式而非参照款目。

    试试它的交互检索联机演示：http://alcme.oclc.org/eprintsUK/index.html
    在搜索词框中输入检索词“Mark Twain”（没有按常规则的倒序输入），不管设定最大结果数为多少（如5或10），结果都是把所有相关的二十多条规范记录都列了出来。最相关的列在最前。大名鼎鼎的马克?吐温，竟然也会有二条规范记录？原来一个是真人，一个是某部作品中与作者交谈的马克?吐温的灵魂(Spirit)――应该是名称主题了。
    OCLC给每条规范记录一个固定URL，还有相应的XML记录，形式如：
http://errol.oclc.org/laf/n79-21164.html （MARC规范记录）
http://errol.oclc.org/laf/n79-21164.marcxml （MARCXML规范记录）
（其中n79-21164为LC的规范记录号）

OCLC开发这个服务的目的，是为了使机构库软件（如DSpace, ePrints UK, CONTENTdm, eprints.org, Fedora）可以提供规范控制，而不必自建规范控制模块。使用OCLC研究部的名称规范服务，可以在输入元数据时确保作者名称的一致性。DSpace计划在未来集成交互式的规范检查。

    不过，机构库用LC名称规范？恐怕大部分人在LC规范库中都是找不到的，毕竟出版图书的人与发表文章的人相比，数量要少得多。Lorcan在谈到上述名称规范服务时，提到他早些时候的想法，利用“科学社区”(Community of science, COS) 的50万研究人员信息做实验，看是不是可以用其数据扩充LC规范档。
    看COS的研究人员存档信息示例，内容丰富详尽，包括所属机构、联系信息、学历、专长与研究兴趣、研究项目、产业相关性、关键词、使用语言、学会/协会成员、获奖信息、专利、获得资助项目、发表/出版一览等。像猎头公司的数据库，与LC规范记录以名称的各种变体为主的结构完全不同。COS还是一个Web 2.0的网站，研究者可以自己提供与维护相关信息。
    另外，Scopus宣布5月13日起提供名称规范功能“Scopus Author Identifier”，可惜有关演示仅限其客户。Scopus是最大的研究文献与精选网页的文摘引文数据库，收录2700万文摘、2.3亿引文、2亿网页。不知其中有多少不同的人名。

看来，名称规范也已不是图书馆界的独家秘技了。Leon问地狱是不是需要元数据（天堂需要元数据吗？），岂止需要，早就有了。阎王的生死薄就是一个古往今来中国人的名称规范档，尽管偶而有点问题，小鬼据此抓错了人（不排除小鬼没有认真查核规范而出的错），但其完整性是不容置疑的。我们现在有质量这么高的规范档吗？国家图书馆？CSSCI？期刊网？

相关链接：
Lorcan Dempsey&aposs weblog:
A note on names (2006-5-16) http://orweblog.oclc.org/archives/001022.html
Research support: COS and CSA (2006-2-13)
http://orweblog.oclc.org/archives/000946.html

Outgoing: Name searching (2006-5-17)
http://outgoing.typepad.com/outgoing/2006/05/name_searching.html

OCLC发布新的数据挖掘项目――读者对象

图林Library 2.0很热闹，最近刚被选为下届北美专业图书馆协会(SLA)主席的SirsiDynix公司副总裁Stephen Abram对此也一直是谈兴甚浓，但OCLC只谈Web 2.0，绝口不提L2。
Web 2.0有很多特征，其中之一是“数据是下一个Intel Inside”，不知道是不是确切，我把它译为“数据核心”――对图书馆来说，内容是基础，围绕着自己特有的内容来提供丰富的用户体验，才是Web 2.0时代的生存之道。而OCLC积数十年而成的联合目录数据库WorldCat，5千万书目、10亿馆藏，就是这样一个独特的“数据核心”。OCLC副总裁、首席策略家Lorcan Dempsey一直在呼吁“让数据起作用”，数据挖掘是研究部的重头戏。

3月24日，OCLC正式公布了研究数年的数据挖掘研究成果之Audience Level，通过对WorldCat中馆藏数据的挖掘，结合其FRBR研究的xISBN项目，提供作品（而非某一出版物）的读者对象。
在书目记录中，虽然为“读者对象”代码预留有位置，但西文编目的传统是除了儿童读物，一般不作标记。为获取读者对象信息，OCLC转而利用其独特而庞大的馆藏数据，通过对不同类型的收藏馆加以不同的权重，以数字方式提示文献可能的读者对象。

这个项目有什么意义呢？按OCLC的说法，可用于以下三个方面的进一步开发：
1、information relevancefor retrieval（信息检索相关性）
2、reference services (including readers advisory)（参考服务，含读者咨询）
3、collection development（馆藏发展）

提供三种利用途径：

1、用户界面
输入WorldCat号或ISBN，在页面的最下面，会以图示法显示该作品的读者对象（从中小学级Schooler到学术级Scholar）

2、Web服务
大家可以在自己的网页中加上如下链接，显示作品的读者对象信息（我以《哈利?波特与魔法石》为例，可以用WorldCat号或其它ISBN代替这里的0590353403）：
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403

如在后面加参数“&manifest=true”，则显示所有版本的读者对象信息，如：
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403&manifest=true

[update (2006-3-25 17:00)]
以上只是简单的示例。实际上Web服务提供了最广泛的应用可能性，只要有足够的想象力，任何人都可以将这一服务结合进自己的应用。最原始的方法如在自己的OPAC中显示某书的读者对象，高级一点的如评估本馆西文馆藏的学术层次……

3、Greasemonkey用户脚本
在Firefox浏览器中安装Greasemonkey扩展后，再分别增加用于Open WorldCat或者亚马逊的用户脚本，在访问这两个网站时，脚本会自动在它检测到ISBN的网页中插入读者对象评价信息。

看OCLC研究部主页的那一长排研究项目，就不会奇怪为什么它会成为本行业的龙头老大了。

Audience Level prototype资料：
新闻发布：New OCLC Research prototype assesses likely audience for resources in WorldCat, the world&aposs largest catalog of library resources

使用说明：Learn more about the Audience Level prototype

算法介绍：Audience Level project overview

经典回放：
Lynn Silipigni Connaway, Edward T. O&aposNeill and Chandra Prabha. 2004. “Estimating Audience Level of Monographs Using Holding Patterns in WorldCat”. Presentation given at Library Research Seminar III: Learning and Growing; Inquiry into Librarianship, 14?C16 October 2004, Kansas City, Missouri (USA). (PowerPoint : 32MB/29slides)

其它相关资料：
Lorcan Dempsey: Making data work harder
Lorcan Dempsey: Making data work – Web 2.0 and catalogs

Greasemonkey中文手册

图书馆供应商谈图书馆

图书馆界会多。开会的一大好处，就是可以碰到很多以往没机会结识的人――听一些业界大腕作报告或与之聊天，得到许多思想火花。博客们将这些信息公之于众，没机会与会的看客们也因此得到很多信息。（国外与会者还会很潇洒地把大量照片放到图片网站如Flickr上，让大家得到更多感性认识。而国内似乎颇多顾忌，怕涉及肖像权、引起不快？难道国外就没有肖像权麻烦？）
TTW的Michael Stephens记录了在两次会议上，图书馆集成系统供应商Sirsi公司副总裁Stephen Abram与OCLC副总裁的George M. Needham的谈话。两位不是真正的图书馆人，基本上可说是商人（不要说OCLC是什么非赢利性机构）――但又是十分关注图书馆前途、对图书馆新技术颇多了解的商人。看看他们如何谈图书馆[方括号后为本人感言]：

Abram如是说（Abram-isms）

“The next step in libraries is what are we going to do to &apostrick&apos our new users to use the library.”

下一步，图书馆要做的是如何“哄骗”新用户去使用图书馆。
[未来一代不会象上代人那样习惯使用图书馆。没人来，只有关门大吉]

“Technology needs to take a step back, like utilities, like heat and light, and let the services and people come forward.”

技术需要退后一步，如同公用事业、如同热与光，让服务与人冲在前面。
[技术应当是看不见的基础设施]

“You must have a vision of the future, or you will always be stuck in the present, over and over again.”

必须具有未来的眼光，否则将永远被钉在现在。
[说起来容易做起来难]

“DVDs and CDs will be extinct by 2012.” (See this article for more)

到2012年，DVD与CD将灭绝。
[国外很多图书馆音像资料的收藏量增长很快，这是一个警示？iPod的流行，从声音向影像发展，确实可能导致实体音像资料的消亡――DVD与CD本身依赖特定的播放器，其灭亡速度比印刷品快也是可以想象的――当年我们在学校学外语时的盘式录音带现在哪里还能见到？]

“Technological Divide: Everyone under 25 has an IM account but most librarians over 30 don&apost. This needs to change.”

技术鸿沟：每个25岁以下的人都有即时通讯帐号，而大部分30岁以上的图书馆员没有。这需要改变。
[IM已经成为很多图书馆参考咨询的有效工具。除此而外，还有什么用？]

“It&aposs more important to create a community portal than a library web site.”

创建一个社区门户比创建一个图书馆网站更重要。
[公共图书馆网站成为社区门户的一部分]

Needham如是说（Needham-isms）

“We need to stop thinking we are Information Priests and Priestesses…”

我们需要停止认为我们是信息牧师……”
[别老觉得自己很崇高……]

“If you wrap something up in the mantle of training, you&aposre going to turn them off..give them short cuts instead…”

如果把东西用培训包装起来，就是在放弃它们…还是弄得简洁一点吧…
[图书馆最高档的事情就是“培训”，如果因简洁而失业，图书馆利用率会更高]

“Nobody ever died of bad cataloging…”

没人曾死于糟糕的编目……
[编目员是早该下岗了的。只是，缺了谁，地球会停止转动呢？]

“We need to get over the fact that libraries are not the first place people go for information and never have been…we need to be something else.”

我们需要承认这个事实――图书馆并非人们获取信息的首要地，从来不是…我们必须是别的什么。
[“从来不是”，对很多人的打击真是够大的！]

On change in Libraries: “We need to appeal to different learning styles…”

对于改变图书馆：“我们必须吸引不同的学习风格….”
[具体指什么呢？]

“IM is the way people are communicating today..we need to use it.”

即时通讯是当今人们交流的方式…我们需要利用它。
[又是IM，国内有多少图书馆在利用它？]

“Bring Digital Natives into your planning process (even if they don&apost have an MLS)…”

把“数字原住民”列入人事编制（即使他们没有图书馆学硕士学位）…
[一出生就活在随时随地可以上网的宽频互联网环境下的“数字原住民”还没有到找工作的年龄，现在大家都是“数字移民”（Digital Immigrants），不管学什么，都不要把计算机、网络这样基本工具忽略了]

“Let&aposs try things…”

让我们尝试…
[要知道试什么，可不是那么容易的事。既要埋头拉车，也要抬头看路。]