thingISBN――用户视角的FRBR化成果

    LibraryThing是一个个人在线书目网站,除上传书目信息、加封面外,还有很多2.0的功能,如对图书评级、发表评论、加标签(分类)、各类RSS,以及一些社会网络功能。甚至还有各种来源的MARC记录!

    以下是一些统计数据(分别取自2006-7-2 / 2006-6-15,可以看出其近期发展势头):

  • 开张于2005年8月29日,成员51,856 / 45,103 (不多,比较同样提供书目上传的豆瓣,2005年3月开张,现已超过20万成员)
  • 成员共提供图书馆藏3,548,967 / 3,185,318(每天1万余),去重后932,335 / 878,861种(每种书近4个“复本”)
  • 每个成员的馆藏构成自己的图书馆,最多一位拥有9301 / 9162个馆藏
  • 成员对图书发表评论43,571 / 39,889条,最高产的评论家写了960 / 894条评论
  • 成员给图书加标签(分类)5,082,253 / 4,672,586个,最疯狂的某个成员贴了26,447 / 25,984个标签
  • 成员为图书评级514,423 / 442,072次
  • 成员贡献图书封面96,347 / 86,334个(另可直接利用网上书店等处的图书封面)

    2月份的时候,LibraryThing开发者Tim Spalding想按“作品”来集中这些图书。因为书评、评级、标签(大众分类)等等,对同一作品的所有版本差不多都是可以共享的;而基于算法的类似“拥有X书者也拥有Y书”这样的推荐图书方式,按作品集中也可以更好的发挥作用。从社会性方面,按“作品”集中书目的结果是,人们结交与自己拥有同一种书的人的希望可以更好地实现。
    虽然Tim当初并不了解FRBR模型,但他的做法确实与FRBR的“作品――内容表达――载体表现――个别文献”模型很相似。要实现作品集中,Tim曾想过借用OCLC的xISBN,但Tim更想“尝试一些新的”。他想到的是2.0的方式,以LibraryThing热心的成员为基础,靠众人的力量,合并相关书目信息。他的口号是:每个人都是图书馆员,他认为“公共编目是不差的编目”。
    结果合并书目功能推出的头三天,用户就作了1.7万次合并,集中起4.2万部作品。如果哪个用户合并错了,自有其他用户再把它分离,这就是Web 2.0的模式――如Tim说的是“维基百科”。

    在完成对LibraryThing中大量作品的集中工作后,为让大家利用LibraryThing的FRBR化成果,Tim于6月14日推出了其成果thingISBN API――给出一个ISBN,以XML形式返回该作品所有版本的ISBN。为保证数据能够复用,Tim遵循的是OCLC的xISBN的形式,并且它还mash up了xISBN,提供各ISBN在OCLC的WorldCat和LibraryThing中结果的比较(两者共有的、仅xISBN有的、仅thingISBN有的)。ISBN 0441172717的实例:

thingISBN:http://www.librarything.com/api/thingISBN/0441172717
xISBN与thingISBN比较:http://www.librarything.com/api/thingISBN/0441172717&compare=1
OCLC的xISBN:http://labs.oclc.org/xisbn/0441172717

    OCLC有10亿馆藏,而LibraryThing才350万,仅千分之三,本不是一个数量级。但Tim提供的一些对比表明,相对于xISBN,thingISBN并非可以忽略不计,两者可以互补,而平装本与非美国版是thingISBN的特长。

    Tim是TALIS正在主办的全球性图书馆Mashup竞赛“Mashing Up The Library”的评委之一,它把thingISBN当作他提供的mashup原料。

参见:
LibraryThing集中相同作品的说明:
The LibraryThing Blog: LibraryThing leaps forward: Everyone a librarian (2006-2-23)

LibraryThing对于thingISBN的报道:
The LibraryThing Blog: thingISBN, LibraryThing&aposs first API (2006-6-14)
Thing-ology Blog: Introducing thingISBN (2006-6-14)

OCLC首席科学家Thom Hickey对thingISBN的评论:
Outgoing: thingISBN (2006-6-14)

另见:
Tim Spalding谈LibraryThing和图书馆(员)
TALIS与图书馆2.0

 

NGC4Lib:下一代图书馆目录邮件组

    Eric Lease Morgan (Head of the Digital Access and Information Architecture Department at the University Libraries of Notre Dame)在web4lib邮件组提议另外建立一个“下一代OPAC邮件组”(next generation opac mailing list) ,并提出了可以讨论的6项议题,很多人附议支持。最初名称拟为ngo4lib,但因为NGO一般认为是“非政府组织”的缩写,故经讨论后,最终定名为NGC4Lib — Next Generation Catalogs for libraries。第二天(6月6日,不是世界末日),邮件组就建起来了,讨论的议题增加为8项:

  • Who are the primary intended audiences for a library&aposs “card catalog”?
    图书馆“卡片目录”的主要使用对象
  • Considering the changing nature of information access in an Internet environment, how is an electronic “card catalog” of today different from the one designed ten or fifteen years ago?
    互联网环境中信息访问特性的变化,如今的电子“卡片目录”与十或十五年前设计的有何不同
  • What kind of content should these “card catalogs” contain?
    这些“卡片目录”应当包含何种内容
  • To what degree are these things “catalogs” (as in inventory lists), and to what degree are they finding aids?
    这些内容“目录”(作为财产清单)到什么程度,如何有助于寻找
  • To what degree should traditional cataloging practices be used in such a thing, or to what degree should new and upcoming practices such as FRBR be exploited?
    在下一代图书馆目录中,传统编目实践应当用于何种程度,新的未来实践如FRBR应当开发到何种程度
  • How would such a thing get created and by whom?
    下一代图书馆目录如何创建、由谁创建
  • What are some of the functionalities of “next generation” catalog?
    “下一代”目录有些什么功能
  • How many angels can dance on the head of a pin?
    有多少天使可以在针尖上跳舞

    议题有虚有实,似乎共同基础就是认为目前的OPAC不过是卡片目录的电子版。讨论很热烈,如果对新型OPAC研究感兴趣,此邮件组值得关注。

    比如讨论中Bernie Sloan转发了自己在1992年讨论“第三代OPAC”时的论坛贴子“后OPAC时代”(The post-OPAC era)――真是很超前;他还认为,应该多讨论新发展的领域“OPAC前端”(front ends),比如北卡州立大学的Endeca应用,ExLibris新的Primo之类。
    K.G. Schneider(Free Range Librarian)则认为谁是用户并不重要,她感兴趣的是用户做了些什么,她打赌大部分图书馆并不生成检索日志,也不对用户的检索行为进行分析,只是讨论、没有数据。而Google亚马逊之类则对这些信息十分重视。

    在NGC4Lib邮件组建立前的讨论中,有人提出用维基(Wiki),但似乎大家还是倾向于邮件组。
    中国人爱BBS,外国人爱邮件组。与论坛相比,邮件组同样可以就一个问题接续讨论,但内容直接发到订阅邮箱中,省掉很多无谓的访问网站时间――与RSS订阅有异曲同工之妙。

P.S.
这回订阅NGC4Lib,用的是Gmail。再次体会Gmail集中相关邮件的优点――同一论题的所有回复放在一起,看起来特别方便。同时自己还保留了一个完整的存档,日后查找也很方便。

 

OCLC的LC名称规范服务及其它

    OCLC研究部在参与eprints UK项目时,开发了“LC名称规范服务”(LC Name Authority Service)。这是一个建机构库中使用LC名称规范档确认名称的Web服务。最近Ralph LeVan改进了名称查找的匹配算法,可以处理拼写错误及名称变异形式,检索结果智能排序基于WorldCat中名称的使用次数,以及规范档中的规范形式而非参照款目。

    试试它的交互检索联机演示:http://alcme.oclc.org/eprintsUK/index.html
    在搜索词框中输入检索词“Mark Twain”(没有按常规则的倒序输入),不管设定最大结果数为多少(如5或10),结果都是把所有相关的二十多条规范记录都列了出来。最相关的列在最前。大名鼎鼎的马克?吐温,竟然也会有二条规范记录?原来一个是真人,一个是某部作品中与作者交谈的马克?吐温的灵魂(Spirit)――应该是名称主题了。
    OCLC给每条规范记录一个固定URL,还有相应的XML记录,形式如:
http://errol.oclc.org/laf/n79-21164.html (MARC规范记录)
http://errol.oclc.org/laf/n79-21164.marcxml (MARCXML规范记录)
(其中n79-21164为LC的规范记录号)

    OCLC开发这个服务的目的,是为了使机构库软件(如DSpace, ePrints UK, CONTENTdm, eprints.org, Fedora)可以提供规范控制,而不必自建规范控制模块。使用OCLC研究部的名称规范服务,可以在输入元数据时确保作者名称的一致性。DSpace计划在未来集成交互式的规范检查。

    不过,机构库用LC名称规范?恐怕大部分人在LC规范库中都是找不到的,毕竟出版图书的人与发表文章的人相比,数量要少得多。Lorcan在谈到上述名称规范服务时,提到他早些时候的想法,利用“科学社区”(Community of science, COS) 的50万研究人员信息做实验,看是不是可以用其数据扩充LC规范档。
    看COS的研究人员存档信息示例,内容丰富详尽,包括所属机构、联系信息、学历、专长与研究兴趣、研究项目、产业相关性、关键词、使用语言、学会/协会成员、获奖信息、专利、获得资助项目、发表/出版一览等。像猎头公司的数据库,与LC规范记录以名称的各种变体为主的结构完全不同。COS还是一个Web 2.0的网站,研究者可以自己提供与维护相关信息。
    另外,Scopus宣布5月13日起提供名称规范功能“Scopus Author Identifier”,可惜有关演示仅限其客户。Scopus是最大的研究文献与精选网页的文摘引文数据库,收录2700万文摘、2.3亿引文、2亿网页。不知其中有多少不同的人名。

    看来,名称规范也已不是图书馆界的独家秘技了。Leon问地狱是不是需要元数据(天堂需要元数据吗?),岂止需要,早就有了。阎王的生死薄就是一个古往今来中国人的名称规范档,尽管偶而有点问题,小鬼据此抓错了人(不排除小鬼没有认真查核规范而出的错),但其完整性是不容置疑的。我们现在有质量这么高的规范档吗?国家图书馆?CSSCI?期刊网?

相关链接:
Lorcan Dempsey&aposs weblog:
A note on names (2006-5-16) http://orweblog.oclc.org/archives/001022.html
Research support: COS and CSA (2006-2-13)
http://orweblog.oclc.org/archives/000946.html 

Outgoing: Name searching (2006-5-17)
http://outgoing.typepad.com/outgoing/2006/05/name_searching.html