thingISBN――用户视角的FRBR化成果

    LibraryThing是一个个人在线书目网站,除上传书目信息、加封面外,还有很多2.0的功能,如对图书评级、发表评论、加标签(分类)、各类RSS,以及一些社会网络功能。甚至还有各种来源的MARC记录!

    以下是一些统计数据(分别取自2006-7-2 / 2006-6-15,可以看出其近期发展势头):

  • 开张于2005年8月29日,成员51,856 / 45,103 (不多,比较同样提供书目上传的豆瓣,2005年3月开张,现已超过20万成员)
  • 成员共提供图书馆藏3,548,967 / 3,185,318(每天1万余),去重后932,335 / 878,861种(每种书近4个“复本”)
  • 每个成员的馆藏构成自己的图书馆,最多一位拥有9301 / 9162个馆藏
  • 成员对图书发表评论43,571 / 39,889条,最高产的评论家写了960 / 894条评论
  • 成员给图书加标签(分类)5,082,253 / 4,672,586个,最疯狂的某个成员贴了26,447 / 25,984个标签
  • 成员为图书评级514,423 / 442,072次
  • 成员贡献图书封面96,347 / 86,334个(另可直接利用网上书店等处的图书封面)

    2月份的时候,LibraryThing开发者Tim Spalding想按“作品”来集中这些图书。因为书评、评级、标签(大众分类)等等,对同一作品的所有版本差不多都是可以共享的;而基于算法的类似“拥有X书者也拥有Y书”这样的推荐图书方式,按作品集中也可以更好的发挥作用。从社会性方面,按“作品”集中书目的结果是,人们结交与自己拥有同一种书的人的希望可以更好地实现。
    虽然Tim当初并不了解FRBR模型,但他的做法确实与FRBR的“作品――内容表达――载体表现――个别文献”模型很相似。要实现作品集中,Tim曾想过借用OCLC的xISBN,但Tim更想“尝试一些新的”。他想到的是2.0的方式,以LibraryThing热心的成员为基础,靠众人的力量,合并相关书目信息。他的口号是:每个人都是图书馆员,他认为“公共编目是不差的编目”。
    结果合并书目功能推出的头三天,用户就作了1.7万次合并,集中起4.2万部作品。如果哪个用户合并错了,自有其他用户再把它分离,这就是Web 2.0的模式――如Tim说的是“维基百科”。

    在完成对LibraryThing中大量作品的集中工作后,为让大家利用LibraryThing的FRBR化成果,Tim于6月14日推出了其成果thingISBN API――给出一个ISBN,以XML形式返回该作品所有版本的ISBN。为保证数据能够复用,Tim遵循的是OCLC的xISBN的形式,并且它还mash up了xISBN,提供各ISBN在OCLC的WorldCat和LibraryThing中结果的比较(两者共有的、仅xISBN有的、仅thingISBN有的)。ISBN 0441172717的实例:

thingISBN:http://www.librarything.com/api/thingISBN/0441172717
xISBN与thingISBN比较:http://www.librarything.com/api/thingISBN/0441172717&compare=1
OCLC的xISBN:http://labs.oclc.org/xisbn/0441172717

    OCLC有10亿馆藏,而LibraryThing才350万,仅千分之三,本不是一个数量级。但Tim提供的一些对比表明,相对于xISBN,thingISBN并非可以忽略不计,两者可以互补,而平装本与非美国版是thingISBN的特长。

    Tim是TALIS正在主办的全球性图书馆Mashup竞赛“Mashing Up The Library”的评委之一,它把thingISBN当作他提供的mashup原料。

参见:
LibraryThing集中相同作品的说明:
The LibraryThing Blog: LibraryThing leaps forward: Everyone a librarian (2006-2-23)

LibraryThing对于thingISBN的报道:
The LibraryThing Blog: thingISBN, LibraryThing&aposs first API (2006-6-14)
Thing-ology Blog: Introducing thingISBN (2006-6-14)

OCLC首席科学家Thom Hickey对thingISBN的评论:
Outgoing: thingISBN (2006-6-14)

另见:
Tim Spalding谈LibraryThing和图书馆(员)
TALIS与图书馆2.0

 

ISBN国家地区代码表

    G君来邮问有没有“ISBN号的国家号一览表”,说是做小语种编目时可以帮助判断语种。
    我没有这个表,也没有想过需要这个表,因为在我想来ISBN号的第一段只不过代表出版的国家,不能说明语种。万一人家出版的正是“外语”呢?于是我又向G君推销以前多次推销过的语言猜测家(Language guesser)。

    邮件回复后,我觉得了解一下ISBN号的第一部分还是挺有意思的。于是就上网查。
    首先想到的自然是ISBN国际组织,Google一下ISBN,找到国际ISBN机构(International ISBN Agency)。网站打开挺慢的,因为不知道这“第一部分”用什么术语表示,估计这个表在站内也不太好找。
   在等待过程中,觉得还是应该找更好的途径――维基百科。以前很有点看不起维基百科,觉得它不够权威,但近来有些迷上了,因为包含新名词、新资料,且链接有价值的内容,足以弥补其不足。不过现在上维基百科还得用代理,就想到了一个捷径――也是推荐过几次的Answers,我把它称之为“参考答案引擎”。Answers搜索的结果是实实在在可用的内容,常常包括维基百科。虽然不与维基百科同步,但维基百科的所有链接都全盘保留。
    直接在地址处输入“http://www.answers.com/ISBN”,跳过Answers首页。结果果然有维基百科词条,内容很不错,有关ISBN-13的信息也足够多,体现了网络百科全书随时更新的优势。这一段就是需要的了:

The country field is 0 or 1 for English speaking countries, 2 for French speaking countries, 3 for German speaking countries, etc. (The original SBN lacked the country field, but prefixing 0 to a 9-digit SBN creates a valid ISBN.) The country field can be up to 5 digits long; 99936 for instance is used for Bhutan. See this complete list.

    链接去的是网站正是国际ISBN机构的“Numerical List of Group Identifiers”,原来ISBN第一部分正式名称是“Group Identifiers”,代表不同的国家与地区,或者更确切地,还真与语种有点关系:

0、1 英语区
2    法语区(含加拿大、比利时、瑞士的法语区)
3    德语区(含瑞士德语区)
4    日本
5    部分前苏联国家
(找遍整个表也没找到俄国,是不是缺了的那个6啊?)
7    中华人民共和国
80-93 …(以下略)
950-989 …
9944-9989 …
99901-99953 …

    至此,完成了G君布置的功课。

又:虽然早知道ISBN国家地区代码是1-N位的,但很不明白设置2-5位数字区间的理由,比如为什么是80-93,而不是80-89或者80-98等等。如果有知道的,希望能够赐教。

 

ISBN-13正式登场

    2005年1月1日,谋划已久的13位ISBN的转换进程正式开始。2年后,ISBN-13将完全取代10位的ISBN。其实多年前正式出版的图书上,条码位置已同时印有ISBN和ISBN-13,只是当时以978开头的13位的数字是作为图书的商品编号,而非书号。
    与编目有关的问题是:什么时候开始著录?著录在什么字段?图书馆编目系统的相应升级是否已经完成或至少放到了议事日程?

    美国国会图书馆启动最早,计划2004年10月1日就开始处理ISBN-13。到2007年1月1日前的转换过渡时期,将同时著录出版商提供的同一文献的两个ISBN号(10位和13位)。2007年后将只著录ISBN-13。
    在2004年6月的美国图书馆协会ALA年会上,机读书目信息委员会MARBI曾经讨论过MARC 21著录时是重复020的$a子字段,还是重复020字段。报道没有说明讨论的具体内容,推测重复子字段的理由应当是,因为对应的是同一装祯形式的多个号码;重复字段的理由应当是MARC 21定义中020$a不可重复。考虑到多家图书馆管理系统实现上的问题,LC最终采用重复020字段的方法。著录顺序是13位的在前,10位的在后。OCLC由于系统原因,暂时采用024字段(其它标准号),而未来仍将采用020字段。


    CNMARC方面,国家图书馆编《新版中国机读目录格式使用手册》(北京图书馆出版社,2004年)采用新的073字段(国际论文号)著录ISBN-13(第46页)。这就意味着未来的”国际标准书号”将不著录在国际标准书号(020)字段中,而著录在国际论文号(073)字段中。国家图书馆在编手册时(2003年上半年)就了解到了”ISBN书号谋划升位“之事,仍做出这种规定有点不可思议。

    编目员更关心对自己工作的影响。其实ISBN-13就号码而言,目前与ISBN的差别只是在ISBN前加上978,以及最后1位校验位不同。校验位本来就是由机器自动生成,所以著录时没有理由让编目员输入两次,而应当由软件自动由10位的ISBN转换成ISBN-13,或者反之。OCLC目前在下载记录时,会自动把以978开头的ISBN-13转换为10位数字的ISBN。
    国内CALIS联合目录也在考虑更新相关软件,以能够顺利处理13位的ISBN号。目前各图书馆自动化管理系统的编目模块,编目时会进行ISBN号码自动校验,ISBN-13会被视为错误的ISBN而作出提示或自动改为$z子字段。不知道各图书馆自动化管理系统对此准备得如何?

更新(2005年5月24日):
    不列颠图书馆同样于2004年10月1日起处理ISBN-13。见:The British Library and 13-digit ISBNs