第二届OCLC软件竞赛

    OCLC正举办第二届软件竞赛,截止期为9月15日。要求、评判标准、奖金等等,基本同2005年上半年首次竞赛,可参看

“要求参赛者编写一个程序,提供一个工作原型,通过使用至少一项OCLC提供的服务,实现对WorldCat数据的”有趣”或”创新”的应用。为此OCLC提供取自WorldCat的一组书目记录以及OCLC的ResearchWorks(各种新技术的实验室)和Terminology Services(多种在线词表服务)的部分服务,参赛者也可以使用Open WorldCat。”

    注意到今年提供的WorldCat记录子集有三个文档:书目记录、书目记录相应的馆藏计数、记录的读者对象值。印象当中去年只有一个?OCLC在2004年就利用起馆藏计数编制OCLC Top 1000,但“读者对象”(audience-level)是今年才开发出来的成果,看是不是能够在竞赛中出现一些有意思的应用。

Update 2006/7/8:

对比前届竞赛网页,不但WorldCat文档增加了,左栏列出的ResearchWorks服务也有所增加,除“读者对象”,还有OCLC WorldMapDDC


参见:
OCLC软件竞赛
OCLC软件竞赛结果

由OCLC TOP 1000想到的
OCLC发布新的数据挖掘项目――读者对象

 

OCLC的LC名称规范服务及其它

    OCLC研究部在参与eprints UK项目时,开发了“LC名称规范服务”(LC Name Authority Service)。这是一个建机构库中使用LC名称规范档确认名称的Web服务。最近Ralph LeVan改进了名称查找的匹配算法,可以处理拼写错误及名称变异形式,检索结果智能排序基于WorldCat中名称的使用次数,以及规范档中的规范形式而非参照款目。

    试试它的交互检索联机演示:http://alcme.oclc.org/eprintsUK/index.html
    在搜索词框中输入检索词“Mark Twain”(没有按常规则的倒序输入),不管设定最大结果数为多少(如5或10),结果都是把所有相关的二十多条规范记录都列了出来。最相关的列在最前。大名鼎鼎的马克?吐温,竟然也会有二条规范记录?原来一个是真人,一个是某部作品中与作者交谈的马克?吐温的灵魂(Spirit)――应该是名称主题了。
    OCLC给每条规范记录一个固定URL,还有相应的XML记录,形式如:
http://errol.oclc.org/laf/n79-21164.html (MARC规范记录)
http://errol.oclc.org/laf/n79-21164.marcxml (MARCXML规范记录)
(其中n79-21164为LC的规范记录号)

    OCLC开发这个服务的目的,是为了使机构库软件(如DSpace, ePrints UK, CONTENTdm, eprints.org, Fedora)可以提供规范控制,而不必自建规范控制模块。使用OCLC研究部的名称规范服务,可以在输入元数据时确保作者名称的一致性。DSpace计划在未来集成交互式的规范检查。

    不过,机构库用LC名称规范?恐怕大部分人在LC规范库中都是找不到的,毕竟出版图书的人与发表文章的人相比,数量要少得多。Lorcan在谈到上述名称规范服务时,提到他早些时候的想法,利用“科学社区”(Community of science, COS) 的50万研究人员信息做实验,看是不是可以用其数据扩充LC规范档。
    看COS的研究人员存档信息示例,内容丰富详尽,包括所属机构、联系信息、学历、专长与研究兴趣、研究项目、产业相关性、关键词、使用语言、学会/协会成员、获奖信息、专利、获得资助项目、发表/出版一览等。像猎头公司的数据库,与LC规范记录以名称的各种变体为主的结构完全不同。COS还是一个Web 2.0的网站,研究者可以自己提供与维护相关信息。
    另外,Scopus宣布5月13日起提供名称规范功能“Scopus Author Identifier”,可惜有关演示仅限其客户。Scopus是最大的研究文献与精选网页的文摘引文数据库,收录2700万文摘、2.3亿引文、2亿网页。不知其中有多少不同的人名。

    看来,名称规范也已不是图书馆界的独家秘技了。Leon问地狱是不是需要元数据(天堂需要元数据吗?),岂止需要,早就有了。阎王的生死薄就是一个古往今来中国人的名称规范档,尽管偶而有点问题,小鬼据此抓错了人(不排除小鬼没有认真查核规范而出的错),但其完整性是不容置疑的。我们现在有质量这么高的规范档吗?国家图书馆?CSSCI?期刊网?

相关链接:
Lorcan Dempsey&aposs weblog:
A note on names (2006-5-16) http://orweblog.oclc.org/archives/001022.html
Research support: COS and CSA (2006-2-13)
http://orweblog.oclc.org/archives/000946.html 

Outgoing: Name searching (2006-5-17)
http://outgoing.typepad.com/outgoing/2006/05/name_searching.html

 

OCLC发布新的数据挖掘项目――读者对象

    图林Library 2.0很热闹,最近刚被选为下届北美专业图书馆协会(SLA)主席的SirsiDynix公司副总裁Stephen Abram对此也一直是谈兴甚浓,但OCLC只谈Web 2.0,绝口不提L2。
    Web 2.0有很多特征,其中之一是“数据是下一个Intel Inside”,不知道是不是确切,我把它译为“数据核心”――对图书馆来说,内容是基础,围绕着自己特有的内容来提供丰富的用户体验,才是Web 2.0时代的生存之道。而OCLC积数十年而成的联合目录数据库WorldCat,5千万书目、10亿馆藏,就是这样一个独特的“数据核心”。OCLC副总裁、首席策略家Lorcan Dempsey一直在呼吁“让数据起作用”,数据挖掘是研究部的重头戏

    3月24日,OCLC正式公布了研究数年的数据挖掘研究成果之Audience Level,通过对WorldCat中馆藏数据的挖掘,结合其FRBR研究的xISBN项目,提供作品(而非某一出版物)的读者对象。
    在书目记录中,虽然为“读者对象”代码预留有位置,但西文编目的传统是除了儿童读物,一般不作标记。为获取读者对象信息,OCLC转而利用其独特而庞大的馆藏数据,通过对不同类型的收藏馆加以不同的权重,以数字方式提示文献可能的读者对象。

    这个项目有什么意义呢?按OCLC的说法,可用于以下三个方面的进一步开发:
1、information relevancefor retrieval(信息检索相关性)
2、reference services (including readers advisory)(参考服务,含读者咨询)
3、collection development(馆藏发展)

    提供三种利用途径:

1、用户界面
输入WorldCat号或ISBN,在页面的最下面,会以图示法显示该作品的读者对象(从中小学级Schooler到学术级Scholar)

2、Web服务
大家可以在自己的网页中加上如下链接,显示作品的读者对象信息(我以《哈利?波特与魔法石》为例,可以用WorldCat号或其它ISBN代替这里的0590353403):
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403

如在后面加参数“&manifest=true”,则显示所有版本的读者对象信息,如:
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403&manifest=true

[update (2006-3-25 17:00)]
以上只是简单的示例。实际上Web服务提供了最广泛的应用可能性,只要有足够的想象力,任何人都可以将这一服务结合进自己的应用。最原始的方法如在自己的OPAC中显示某书的读者对象,高级一点的如评估本馆西文馆藏的学术层次……

3、Greasemonkey用户脚本
在Firefox浏览器中安装Greasemonkey扩展后,再分别增加用于Open WorldCat或者亚马逊的用户脚本,在访问这两个网站时,脚本会自动在它检测到ISBN的网页中插入读者对象评价信息。

    看OCLC研究部主页的那一长排研究项目,就不会奇怪为什么它会成为本行业的龙头老大了。

Audience Level prototype资料
新闻发布:New OCLC Research prototype assesses likely audience for resources in WorldCat, the world&aposs largest catalog of library resources

使用说明:Learn more about the Audience Level prototype

算法介绍:Audience Level project overview

经典回放:
Lynn Silipigni Connaway, Edward T. O&aposNeill and Chandra Prabha. 2004. “Estimating Audience Level of Monographs Using Holding Patterns in WorldCat”. Presentation given at Library Research Seminar III: Learning and Growing; Inquiry into Librarianship, 14?C16 October 2004, Kansas City, Missouri (USA). (PowerPoint : 32MB/29slides)
 

其它相关资料:
Lorcan Dempsey: Making data work harder
Lorcan Dempsey: Making data work – Web 2.0 and catalogs

Greasemonkey中文手册