若有所思 – 第 272 页

thingISBN――用户视角的FRBR化成果

LibraryThing是一个个人在线书目网站，除上传书目信息、加封面外，还有很多2.0的功能，如对图书评级、发表评论、加标签（分类）、各类RSS，以及一些社会网络功能。甚至还有各种来源的MARC记录！

以下是一些统计数据（分别取自2006-7-2 / 2006-6-15，可以看出其近期发展势头）：

开张于2005年8月29日，成员51,856 / 45,103 （不多，比较同样提供书目上传的豆瓣，2005年3月开张，现已超过20万成员）
成员共提供图书馆藏3,548,967 / 3,185,318（每天1万余），去重后932,335 / 878,861种（每种书近4个“复本”）
每个成员的馆藏构成自己的图书馆，最多一位拥有9301 / 9162个馆藏
成员对图书发表评论43,571 / 39,889条，最高产的评论家写了960 / 894条评论
成员给图书加标签（分类）5,082,253 / 4,672,586个，最疯狂的某个成员贴了26,447 / 25,984个标签
成员为图书评级514,423 / 442,072次
成员贡献图书封面96,347 / 86,334个（另可直接利用网上书店等处的图书封面）

    2月份的时候，LibraryThing开发者Tim Spalding想按“作品”来集中这些图书。因为书评、评级、标签（大众分类）等等，对同一作品的所有版本差不多都是可以共享的；而基于算法的类似“拥有X书者也拥有Y书”这样的推荐图书方式，按作品集中也可以更好的发挥作用。从社会性方面，按“作品”集中书目的结果是，人们结交与自己拥有同一种书的人的希望可以更好地实现。
    虽然Tim当初并不了解FRBR模型，但他的做法确实与FRBR的“作品――内容表达――载体表现――个别文献”模型很相似。要实现作品集中，Tim曾想过借用OCLC的xISBN，但Tim更想“尝试一些新的”。他想到的是2.0的方式，以LibraryThing热心的成员为基础，靠众人的力量，合并相关书目信息。他的口号是：每个人都是图书馆员，他认为“公共编目是不差的编目”。
    结果合并书目功能推出的头三天，用户就作了1.7万次合并，集中起4.2万部作品。如果哪个用户合并错了，自有其他用户再把它分离，这就是Web 2.0的模式――如Tim说的是“维基百科”。

在完成对LibraryThing中大量作品的集中工作后，为让大家利用LibraryThing的FRBR化成果，Tim于6月14日推出了其成果thingISBN API――给出一个ISBN，以XML形式返回该作品所有版本的ISBN。为保证数据能够复用，Tim遵循的是OCLC的xISBN的形式，并且它还mash up了xISBN，提供各ISBN在OCLC的WorldCat和LibraryThing中结果的比较（两者共有的、仅xISBN有的、仅thingISBN有的）。ISBN 0441172717的实例：

thingISBN：http://www.librarything.com/api/thingISBN/0441172717
xISBN与thingISBN比较：http://www.librarything.com/api/thingISBN/0441172717&compare=1
OCLC的xISBN：http://labs.oclc.org/xisbn/0441172717

OCLC有10亿馆藏，而LibraryThing才350万，仅千分之三，本不是一个数量级。但Tim提供的一些对比表明，相对于xISBN，thingISBN并非可以忽略不计，两者可以互补，而平装本与非美国版是thingISBN的特长。

Tim是TALIS正在主办的全球性图书馆Mashup竞赛“Mashing Up The Library”的评委之一，它把thingISBN当作他提供的mashup原料。

参见：
LibraryThing集中相同作品的说明：
The LibraryThing Blog: LibraryThing leaps forward: Everyone a librarian (2006-2-23)

LibraryThing对于thingISBN的报道：
The LibraryThing Blog: thingISBN, LibraryThing&aposs first API (2006-6-14)
Thing-ology Blog: Introducing thingISBN (2006-6-14)

OCLC首席科学家Thom Hickey对thingISBN的评论：
Outgoing: thingISBN (2006-6-14)

另见：
Tim Spalding谈LibraryThing和图书馆(员)
TALIS与图书馆2.0

NGC4Lib：下一代图书馆目录邮件组

Eric Lease Morgan (Head of the Digital Access and Information Architecture Department at the University Libraries of Notre Dame)在web4lib邮件组提议另外建立一个“下一代OPAC邮件组”(next generation opac mailing list) ，并提出了可以讨论的6项议题，很多人附议支持。最初名称拟为ngo4lib，但因为NGO一般认为是“非政府组织”的缩写，故经讨论后，最终定名为NGC4Lib — Next Generation Catalogs for libraries。第二天（6月6日，不是世界末日），邮件组就建起来了，讨论的议题增加为8项：

Who are the primary intended audiences for a library&aposs “card catalog”?
图书馆“卡片目录”的主要使用对象
Considering the changing nature of information access in an Internet environment, how is an electronic “card catalog” of today different from the one designed ten or fifteen years ago?
互联网环境中信息访问特性的变化，如今的电子“卡片目录”与十或十五年前设计的有何不同
What kind of content should these “card catalogs” contain?
这些“卡片目录”应当包含何种内容
To what degree are these things “catalogs” (as in inventory lists), and to what degree are they finding aids?
这些内容“目录”（作为财产清单）到什么程度，如何有助于寻找
To what degree should traditional cataloging practices be used in such a thing, or to what degree should new and upcoming practices such as FRBR be exploited?
在下一代图书馆目录中，传统编目实践应当用于何种程度，新的未来实践如FRBR应当开发到何种程度
How would such a thing get created and by whom?
下一代图书馆目录如何创建、由谁创建
What are some of the functionalities of “next generation” catalog?
“下一代”目录有些什么功能
How many angels can dance on the head of a pin?
有多少天使可以在针尖上跳舞

议题有虚有实，似乎共同基础就是认为目前的OPAC不过是卡片目录的电子版。讨论很热烈，如果对新型OPAC研究感兴趣，此邮件组值得关注。

比如讨论中Bernie Sloan转发了自己在1992年讨论“第三代OPAC”时的论坛贴子“后OPAC时代”（The post-OPAC era）――真是很超前；他还认为，应该多讨论新发展的领域“OPAC前端”(front ends)，比如北卡州立大学的Endeca应用，ExLibris新的Primo之类。
K.G. Schneider（Free Range Librarian)则认为谁是用户并不重要，她感兴趣的是用户做了些什么，她打赌大部分图书馆并不生成检索日志，也不对用户的检索行为进行分析，只是讨论、没有数据。而Google亚马逊之类则对这些信息十分重视。

在NGC4Lib邮件组建立前的讨论中，有人提出用维基(Wiki)，但似乎大家还是倾向于邮件组。
中国人爱BBS，外国人爱邮件组。与论坛相比，邮件组同样可以就一个问题接续讨论，但内容直接发到订阅邮箱中，省掉很多无谓的访问网站时间――与RSS订阅有异曲同工之妙。

P.S.
这回订阅NGC4Lib，用的是Gmail。再次体会Gmail集中相关邮件的优点――同一论题的所有回复放在一起，看起来特别方便。同时自己还保留了一个完整的存档，日后查找也很方便。

OCLC的LC名称规范服务及其它

OCLC研究部在参与eprints UK 项目时，开发了“LC名称规范服务”(LC Name Authority Service)。这是一个建机构库中使用LC名称规范档确认名称的Web服务。最近Ralph LeVan改进了名称查找的匹配算法，可以处理拼写错误及名称变异形式，检索结果智能排序基于WorldCat中名称的使用次数，以及规范档中的规范形式而非参照款目。

    试试它的交互检索联机演示：http://alcme.oclc.org/eprintsUK/index.html
    在搜索词框中输入检索词“Mark Twain”（没有按常规则的倒序输入），不管设定最大结果数为多少（如5或10），结果都是把所有相关的二十多条规范记录都列了出来。最相关的列在最前。大名鼎鼎的马克?吐温，竟然也会有二条规范记录？原来一个是真人，一个是某部作品中与作者交谈的马克?吐温的灵魂(Spirit)――应该是名称主题了。
    OCLC给每条规范记录一个固定URL，还有相应的XML记录，形式如：
http://errol.oclc.org/laf/n79-21164.html （MARC规范记录）
http://errol.oclc.org/laf/n79-21164.marcxml （MARCXML规范记录）
（其中n79-21164为LC的规范记录号）

OCLC开发这个服务的目的，是为了使机构库软件（如DSpace, ePrints UK, CONTENTdm, eprints.org, Fedora）可以提供规范控制，而不必自建规范控制模块。使用OCLC研究部的名称规范服务，可以在输入元数据时确保作者名称的一致性。DSpace计划在未来集成交互式的规范检查。

    不过，机构库用LC名称规范？恐怕大部分人在LC规范库中都是找不到的，毕竟出版图书的人与发表文章的人相比，数量要少得多。Lorcan在谈到上述名称规范服务时，提到他早些时候的想法，利用“科学社区”(Community of science, COS) 的50万研究人员信息做实验，看是不是可以用其数据扩充LC规范档。
    看COS的研究人员存档信息示例，内容丰富详尽，包括所属机构、联系信息、学历、专长与研究兴趣、研究项目、产业相关性、关键词、使用语言、学会/协会成员、获奖信息、专利、获得资助项目、发表/出版一览等。像猎头公司的数据库，与LC规范记录以名称的各种变体为主的结构完全不同。COS还是一个Web 2.0的网站，研究者可以自己提供与维护相关信息。
    另外，Scopus宣布5月13日起提供名称规范功能“Scopus Author Identifier”，可惜有关演示仅限其客户。Scopus是最大的研究文献与精选网页的文摘引文数据库，收录2700万文摘、2.3亿引文、2亿网页。不知其中有多少不同的人名。

看来，名称规范也已不是图书馆界的独家秘技了。Leon问地狱是不是需要元数据（天堂需要元数据吗？），岂止需要，早就有了。阎王的生死薄就是一个古往今来中国人的名称规范档，尽管偶而有点问题，小鬼据此抓错了人（不排除小鬼没有认真查核规范而出的错），但其完整性是不容置疑的。我们现在有质量这么高的规范档吗？国家图书馆？CSSCI？期刊网？

相关链接：
Lorcan Dempsey&aposs weblog:
A note on names (2006-5-16) http://orweblog.oclc.org/archives/001022.html
Research support: COS and CSA (2006-2-13)
http://orweblog.oclc.org/archives/000946.html

Outgoing: Name searching (2006-5-17)
http://outgoing.typepad.com/outgoing/2006/05/name_searching.html