OCLC的LC名称规范服务及其它

    OCLC研究部在参与eprints UK项目时,开发了“LC名称规范服务”(LC Name Authority Service)。这是一个建机构库中使用LC名称规范档确认名称的Web服务。最近Ralph LeVan改进了名称查找的匹配算法,可以处理拼写错误及名称变异形式,检索结果智能排序基于WorldCat中名称的使用次数,以及规范档中的规范形式而非参照款目。

    试试它的交互检索联机演示:http://alcme.oclc.org/eprintsUK/index.html
    在搜索词框中输入检索词“Mark Twain”(没有按常规则的倒序输入),不管设定最大结果数为多少(如5或10),结果都是把所有相关的二十多条规范记录都列了出来。最相关的列在最前。大名鼎鼎的马克?吐温,竟然也会有二条规范记录?原来一个是真人,一个是某部作品中与作者交谈的马克?吐温的灵魂(Spirit)――应该是名称主题了。
    OCLC给每条规范记录一个固定URL,还有相应的XML记录,形式如:
http://errol.oclc.org/laf/n79-21164.html (MARC规范记录)
http://errol.oclc.org/laf/n79-21164.marcxml (MARCXML规范记录)
(其中n79-21164为LC的规范记录号)

    OCLC开发这个服务的目的,是为了使机构库软件(如DSpace, ePrints UK, CONTENTdm, eprints.org, Fedora)可以提供规范控制,而不必自建规范控制模块。使用OCLC研究部的名称规范服务,可以在输入元数据时确保作者名称的一致性。DSpace计划在未来集成交互式的规范检查。

    不过,机构库用LC名称规范?恐怕大部分人在LC规范库中都是找不到的,毕竟出版图书的人与发表文章的人相比,数量要少得多。Lorcan在谈到上述名称规范服务时,提到他早些时候的想法,利用“科学社区”(Community of science, COS) 的50万研究人员信息做实验,看是不是可以用其数据扩充LC规范档。
    看COS的研究人员存档信息示例,内容丰富详尽,包括所属机构、联系信息、学历、专长与研究兴趣、研究项目、产业相关性、关键词、使用语言、学会/协会成员、获奖信息、专利、获得资助项目、发表/出版一览等。像猎头公司的数据库,与LC规范记录以名称的各种变体为主的结构完全不同。COS还是一个Web 2.0的网站,研究者可以自己提供与维护相关信息。
    另外,Scopus宣布5月13日起提供名称规范功能“Scopus Author Identifier”,可惜有关演示仅限其客户。Scopus是最大的研究文献与精选网页的文摘引文数据库,收录2700万文摘、2.3亿引文、2亿网页。不知其中有多少不同的人名。

    看来,名称规范也已不是图书馆界的独家秘技了。Leon问地狱是不是需要元数据(天堂需要元数据吗?),岂止需要,早就有了。阎王的生死薄就是一个古往今来中国人的名称规范档,尽管偶而有点问题,小鬼据此抓错了人(不排除小鬼没有认真查核规范而出的错),但其完整性是不容置疑的。我们现在有质量这么高的规范档吗?国家图书馆?CSSCI?期刊网?

相关链接:
Lorcan Dempsey&aposs weblog:
A note on names (2006-5-16) http://orweblog.oclc.org/archives/001022.html
Research support: COS and CSA (2006-2-13)
http://orweblog.oclc.org/archives/000946.html 

Outgoing: Name searching (2006-5-17)
http://outgoing.typepad.com/outgoing/2006/05/name_searching.html

 

OCLC发布新的数据挖掘项目――读者对象

    图林Library 2.0很热闹,最近刚被选为下届北美专业图书馆协会(SLA)主席的SirsiDynix公司副总裁Stephen Abram对此也一直是谈兴甚浓,但OCLC只谈Web 2.0,绝口不提L2。
    Web 2.0有很多特征,其中之一是“数据是下一个Intel Inside”,不知道是不是确切,我把它译为“数据核心”――对图书馆来说,内容是基础,围绕着自己特有的内容来提供丰富的用户体验,才是Web 2.0时代的生存之道。而OCLC积数十年而成的联合目录数据库WorldCat,5千万书目、10亿馆藏,就是这样一个独特的“数据核心”。OCLC副总裁、首席策略家Lorcan Dempsey一直在呼吁“让数据起作用”,数据挖掘是研究部的重头戏

    3月24日,OCLC正式公布了研究数年的数据挖掘研究成果之Audience Level,通过对WorldCat中馆藏数据的挖掘,结合其FRBR研究的xISBN项目,提供作品(而非某一出版物)的读者对象。
    在书目记录中,虽然为“读者对象”代码预留有位置,但西文编目的传统是除了儿童读物,一般不作标记。为获取读者对象信息,OCLC转而利用其独特而庞大的馆藏数据,通过对不同类型的收藏馆加以不同的权重,以数字方式提示文献可能的读者对象。

    这个项目有什么意义呢?按OCLC的说法,可用于以下三个方面的进一步开发:
1、information relevancefor retrieval(信息检索相关性)
2、reference services (including readers advisory)(参考服务,含读者咨询)
3、collection development(馆藏发展)

    提供三种利用途径:

1、用户界面
输入WorldCat号或ISBN,在页面的最下面,会以图示法显示该作品的读者对象(从中小学级Schooler到学术级Scholar)

2、Web服务
大家可以在自己的网页中加上如下链接,显示作品的读者对象信息(我以《哈利?波特与魔法石》为例,可以用WorldCat号或其它ISBN代替这里的0590353403):
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403

如在后面加参数“&manifest=true”,则显示所有版本的读者对象信息,如:
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403&manifest=true

[update (2006-3-25 17:00)]
以上只是简单的示例。实际上Web服务提供了最广泛的应用可能性,只要有足够的想象力,任何人都可以将这一服务结合进自己的应用。最原始的方法如在自己的OPAC中显示某书的读者对象,高级一点的如评估本馆西文馆藏的学术层次……

3、Greasemonkey用户脚本
在Firefox浏览器中安装Greasemonkey扩展后,再分别增加用于Open WorldCat或者亚马逊的用户脚本,在访问这两个网站时,脚本会自动在它检测到ISBN的网页中插入读者对象评价信息。

    看OCLC研究部主页的那一长排研究项目,就不会奇怪为什么它会成为本行业的龙头老大了。

Audience Level prototype资料
新闻发布:New OCLC Research prototype assesses likely audience for resources in WorldCat, the world&aposs largest catalog of library resources

使用说明:Learn more about the Audience Level prototype

算法介绍:Audience Level project overview

经典回放:
Lynn Silipigni Connaway, Edward T. O&aposNeill and Chandra Prabha. 2004. “Estimating Audience Level of Monographs Using Holding Patterns in WorldCat”. Presentation given at Library Research Seminar III: Learning and Growing; Inquiry into Librarianship, 14?C16 October 2004, Kansas City, Missouri (USA). (PowerPoint : 32MB/29slides)
 

其它相关资料:
Lorcan Dempsey: Making data work harder
Lorcan Dempsey: Making data work – Web 2.0 and catalogs

Greasemonkey中文手册

 

图书馆供应商谈图书馆

    图书馆界会多。开会的一大好处,就是可以碰到很多以往没机会结识的人――听一些业界大腕作报告或与之聊天,得到许多思想火花。博客们将这些信息公之于众,没机会与会的看客们也因此得到很多信息。(国外与会者还会很潇洒地把大量照片放到图片网站如Flickr上,让大家得到更多感性认识。而国内似乎颇多顾忌,怕涉及肖像权、引起不快?难道国外就没有肖像权麻烦?)
    TTW的Michael Stephens记录了在两次会议上,图书馆集成系统供应商Sirsi公司副总裁Stephen Abram与OCLC副总裁的George M. Needham的谈话。两位不是真正的图书馆人,基本上可说是商人(不要说OCLC是什么非赢利性机构)――但又是十分关注图书馆前途、对图书馆新技术颇多了解的商人。看看他们如何谈图书馆[方括号后为本人感言]:

Abram如是说Abram-isms

“The next step in libraries is what are we going to do to &apostrick&apos our new users to use the library.”

下一步,图书馆要做的是如何“哄骗”新用户去使用图书馆。
[未来一代不会象上代人那样习惯使用图书馆。没人来,只有关门大吉]

“Technology needs to take a step back, like utilities, like heat and light, and let the services and people come forward.”

技术需要退后一步,如同公用事业、如同热与光,让服务与人冲在前面。
[技术应当是看不见的基础设施]

“You must have a vision of the future, or you will always be stuck in the present, over and over again.”

必须具有未来的眼光,否则将永远被钉在现在。
[说起来容易做起来难]

“DVDs and CDs will be extinct by 2012.” (See this article for more)

到2012年,DVD与CD将灭绝。
[国外很多图书馆音像资料的收藏量增长很快,这是一个警示?iPod的流行,从声音向影像发展,确实可能导致实体音像资料的消亡――DVD与CD本身依赖特定的播放器,其灭亡速度比印刷品快也是可以想象的――当年我们在学校学外语时的盘式录音带现在哪里还能见到?]

“Technological Divide: Everyone under 25 has an IM account but most librarians over 30 don&apost. This needs to change.”

技术鸿沟:每个25岁以下的人都有即时通讯帐号,而大部分30岁以上的图书馆员没有。这需要改变。
[IM已经成为很多图书馆参考咨询的有效工具。除此而外,还有什么用?]

“It&aposs more important to create a community portal than a library web site.”

创建一个社区门户比创建一个图书馆网站更重要。
[公共图书馆网站成为社区门户的一部分]

Needham如是说Needham-isms

“We need to stop thinking we are Information Priests and Priestesses…”

我们需要停止认为我们是信息牧师……”
[别老觉得自己很崇高……]

“If you wrap something up in the mantle of training, you&aposre going to turn them off..give them short cuts instead…”

如果把东西用培训包装起来,就是在放弃它们…还是弄得简洁一点吧…
[图书馆最高档的事情就是“培训”,如果因简洁而失业,图书馆利用率会更高]

“Nobody ever died of bad cataloging…”

没人曾死于糟糕的编目……
[编目员是早该下岗了的。只是,缺了谁,地球会停止转动呢?]

“We need to get over the fact that libraries are not the first place people go for information and never have been…we need to be something else.”

我们需要承认这个事实――图书馆并非人们获取信息的首要地,从来不是…我们必须是别的什么。
[“从来不是”,对很多人的打击真是够大的!]

On change in Libraries: “We need to appeal to different learning styles…”

对于改变图书馆:“我们必须吸引不同的学习风格….”
[具体指什么呢?]

“IM is the way people are communicating today..we need to use it.”

即时通讯是当今人们交流的方式…我们需要利用它。
[又是IM,国内有多少图书馆在利用它?]

“Bring Digital Natives into your planning process (even if they don&apost have an MLS)…”

把“数字原住民”列入人事编制(即使他们没有图书馆学硕士学位)…
[一出生就活在随时随地可以上网的宽频互联网环境下的“数字原住民”还没有到找工作的年龄,现在大家都是“数字移民”(Digital Immigrants),不管学什么,都不要把计算机、网络这样基本工具忽略了]

“Let&aposs try things…”

让我们尝试…
[要知道试什么,可不是那么容易的事。既要埋头拉车,也要抬头看路。]