OCLC – 第 31 页 – 编目精灵III

第二届OCLC软件竞赛

OCLC正举办第二届软件竞赛，截止期为9月15日。要求、评判标准、奖金等等，基本同2005年上半年首次竞赛，可参看：

“要求参赛者编写一个程序，提供一个工作原型，通过使用至少一项OCLC提供的服务，实现对WorldCat数据的”有趣”或”创新”的应用。为此OCLC提供取自WorldCat的一组书目记录以及OCLC的ResearchWorks（各种新技术的实验室）和Terminology Services（多种在线词表服务）的部分服务，参赛者也可以使用Open WorldCat。”

注意到今年提供的WorldCat记录子集有三个文档：书目记录、书目记录相应的馆藏计数、记录的读者对象值。印象当中去年只有一个？OCLC在2004年就利用起馆藏计数编制OCLC Top 1000，但“读者对象”(audience-level)是今年才开发出来的成果，看是不是能够在竞赛中出现一些有意思的应用。

Update 2006/7/8：

对比前届竞赛网页，不但WorldCat文档增加了，左栏列出的ResearchWorks服务也有所增加，除“读者对象”，还有OCLC WorldMap和DDC。

参见：
OCLC软件竞赛
 OCLC软件竞赛结果

由OCLC TOP 1000想到的
 OCLC发布新的数据挖掘项目――读者对象

OCLC的LC名称规范服务及其它

OCLC研究部在参与eprints UK 项目时，开发了“LC名称规范服务”(LC Name Authority Service)。这是一个建机构库中使用LC名称规范档确认名称的Web服务。最近Ralph LeVan改进了名称查找的匹配算法，可以处理拼写错误及名称变异形式，检索结果智能排序基于WorldCat中名称的使用次数，以及规范档中的规范形式而非参照款目。

    试试它的交互检索联机演示：http://alcme.oclc.org/eprintsUK/index.html
    在搜索词框中输入检索词“Mark Twain”（没有按常规则的倒序输入），不管设定最大结果数为多少（如5或10），结果都是把所有相关的二十多条规范记录都列了出来。最相关的列在最前。大名鼎鼎的马克?吐温，竟然也会有二条规范记录？原来一个是真人，一个是某部作品中与作者交谈的马克?吐温的灵魂(Spirit)――应该是名称主题了。
    OCLC给每条规范记录一个固定URL，还有相应的XML记录，形式如：
http://errol.oclc.org/laf/n79-21164.html （MARC规范记录）
http://errol.oclc.org/laf/n79-21164.marcxml （MARCXML规范记录）
（其中n79-21164为LC的规范记录号）

OCLC开发这个服务的目的，是为了使机构库软件（如DSpace, ePrints UK, CONTENTdm, eprints.org, Fedora）可以提供规范控制，而不必自建规范控制模块。使用OCLC研究部的名称规范服务，可以在输入元数据时确保作者名称的一致性。DSpace计划在未来集成交互式的规范检查。

    不过，机构库用LC名称规范？恐怕大部分人在LC规范库中都是找不到的，毕竟出版图书的人与发表文章的人相比，数量要少得多。Lorcan在谈到上述名称规范服务时，提到他早些时候的想法，利用“科学社区”(Community of science, COS) 的50万研究人员信息做实验，看是不是可以用其数据扩充LC规范档。
    看COS的研究人员存档信息示例，内容丰富详尽，包括所属机构、联系信息、学历、专长与研究兴趣、研究项目、产业相关性、关键词、使用语言、学会/协会成员、获奖信息、专利、获得资助项目、发表/出版一览等。像猎头公司的数据库，与LC规范记录以名称的各种变体为主的结构完全不同。COS还是一个Web 2.0的网站，研究者可以自己提供与维护相关信息。
    另外，Scopus宣布5月13日起提供名称规范功能“Scopus Author Identifier”，可惜有关演示仅限其客户。Scopus是最大的研究文献与精选网页的文摘引文数据库，收录2700万文摘、2.3亿引文、2亿网页。不知其中有多少不同的人名。

看来，名称规范也已不是图书馆界的独家秘技了。Leon问地狱是不是需要元数据（天堂需要元数据吗？），岂止需要，早就有了。阎王的生死薄就是一个古往今来中国人的名称规范档，尽管偶而有点问题，小鬼据此抓错了人（不排除小鬼没有认真查核规范而出的错），但其完整性是不容置疑的。我们现在有质量这么高的规范档吗？国家图书馆？CSSCI？期刊网？

相关链接：
Lorcan Dempsey&aposs weblog:
A note on names (2006-5-16) http://orweblog.oclc.org/archives/001022.html
Research support: COS and CSA (2006-2-13)
http://orweblog.oclc.org/archives/000946.html

Outgoing: Name searching (2006-5-17)
http://outgoing.typepad.com/outgoing/2006/05/name_searching.html

OCLC发布新的数据挖掘项目――读者对象

图林Library 2.0很热闹，最近刚被选为下届北美专业图书馆协会(SLA)主席的SirsiDynix公司副总裁Stephen Abram对此也一直是谈兴甚浓，但OCLC只谈Web 2.0，绝口不提L2。
Web 2.0有很多特征，其中之一是“数据是下一个Intel Inside”，不知道是不是确切，我把它译为“数据核心”――对图书馆来说，内容是基础，围绕着自己特有的内容来提供丰富的用户体验，才是Web 2.0时代的生存之道。而OCLC积数十年而成的联合目录数据库WorldCat，5千万书目、10亿馆藏，就是这样一个独特的“数据核心”。OCLC副总裁、首席策略家Lorcan Dempsey一直在呼吁“让数据起作用”，数据挖掘是研究部的重头戏。

3月24日，OCLC正式公布了研究数年的数据挖掘研究成果之Audience Level，通过对WorldCat中馆藏数据的挖掘，结合其FRBR研究的xISBN项目，提供作品（而非某一出版物）的读者对象。
在书目记录中，虽然为“读者对象”代码预留有位置，但西文编目的传统是除了儿童读物，一般不作标记。为获取读者对象信息，OCLC转而利用其独特而庞大的馆藏数据，通过对不同类型的收藏馆加以不同的权重，以数字方式提示文献可能的读者对象。

这个项目有什么意义呢？按OCLC的说法，可用于以下三个方面的进一步开发：
1、information relevancefor retrieval（信息检索相关性）
2、reference services (including readers advisory)（参考服务，含读者咨询）
3、collection development（馆藏发展）

提供三种利用途径：

1、用户界面
输入WorldCat号或ISBN，在页面的最下面，会以图示法显示该作品的读者对象（从中小学级Schooler到学术级Scholar）

2、Web服务
大家可以在自己的网页中加上如下链接，显示作品的读者对象信息（我以《哈利?波特与魔法石》为例，可以用WorldCat号或其它ISBN代替这里的0590353403）：
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403

如在后面加参数“&manifest=true”，则显示所有版本的读者对象信息，如：
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403&manifest=true

[update (2006-3-25 17:00)]
以上只是简单的示例。实际上Web服务提供了最广泛的应用可能性，只要有足够的想象力，任何人都可以将这一服务结合进自己的应用。最原始的方法如在自己的OPAC中显示某书的读者对象，高级一点的如评估本馆西文馆藏的学术层次……

3、Greasemonkey用户脚本
在Firefox浏览器中安装Greasemonkey扩展后，再分别增加用于Open WorldCat或者亚马逊的用户脚本，在访问这两个网站时，脚本会自动在它检测到ISBN的网页中插入读者对象评价信息。

看OCLC研究部主页的那一长排研究项目，就不会奇怪为什么它会成为本行业的龙头老大了。

Audience Level prototype资料：
新闻发布：New OCLC Research prototype assesses likely audience for resources in WorldCat, the world&aposs largest catalog of library resources

使用说明：Learn more about the Audience Level prototype

算法介绍：Audience Level project overview

经典回放：
Lynn Silipigni Connaway, Edward T. O&aposNeill and Chandra Prabha. 2004. “Estimating Audience Level of Monographs Using Holding Patterns in WorldCat”. Presentation given at Library Research Seminar III: Learning and Growing; Inquiry into Librarianship, 14?C16 October 2004, Kansas City, Missouri (USA). (PowerPoint : 32MB/29slides)

其它相关资料：
Lorcan Dempsey: Making data work harder
Lorcan Dempsey: Making data work – Web 2.0 and catalogs

Greasemonkey中文手册