WorldCat身份档网络:WorldCat及其身份档的混搭

OCLC近日推出WorldCat身份档网络:WorldCat Identities Network,由J.D. Shipengrover负责开发。

WorldCat身份档(WorldCat Identities)中包括个人、对象(如泰坦尼克号船)、虚拟人物(如哈利·波特)、机构。身份档网络采用WorldCat身份档API,为被检索的身份提供多至10个相关身份,并以可视网络的方式显示。每个显示的身份都可以点击,再关联与其相关的10个身份。

在身份关联图下部,列有10个关联身份的:

1、身份档网络的页面链接
2、相关作品5部(由WorldCat检索API提供)及更多链接
3、WorldCat身份档的页面链接
4、出现频率(Occurance)

与被检索身份相关的链接在网页最下面,包括:
1、该身份所著作品的WorldCat链接(作者)
2、研究该身份作品的WorldCat链接(主题)
3、该身份WorldCat身份档的页面链接

据Lorcan Dempsey说,最初打算把身份档网络的图形显示放在身份档页面,因未能实现而决定作为一个独立的应用。Dempsey指出结果页完全未经编辑,数据采用API分别从WorldCat身份档和WorldCat中抽出,就是一个混搭(mashup),只是这个词现在不常听到了。
Dempsey指出,如果能显示上述身份间关系的类型[如作者、编者、研究者等]则更佳,只是书目数据不一致且不全。[RDA已经重拾并强化曾被忽略的“关系”]

开发页面给出了一个挑战:发现从Jane Austen到Aldous Huxley的六度分离关系,答案是Jane Austen──George Eliot──Henry James──Joseph Conrad──D.H. Lawrence──Aldous Huxley。依这个路径使用身份档网络发现,一般只同时显示二个身份关联图(即同时显示21个)。除非多个身份间有直接关系,如Austen, Jane与Chapman, R.W.与Southam, B.C.……由于Chapman是一个编辑,与较多作者关联,因而会产生较复杂的关系图。

另外,可视化或分面等数据挖掘后的显示,最容易显露数据中的错误。再以Jane Austen为例,关联的Champman, R.W. 1881-1960与Champman, R.W.显然是同一人。WorldCat身份档是从WorldCat中经程序挖掘而成的,显然规范做得还不到位。(直接查Jane Austen也可以看出这一点)
———-相关链接的分割线———
Lorcan Dempsey’s Weblog: Worldcat Identities Network: a ‘mashup’ (July 30, 2011)

新闻页面:OCLC News: New Prototype: WorldCat Identities Network (28 July 2011)

研究部页面:OCLC Research: WorldCat Identities Network (22 July 2011)

开发页面:OCLC Developer Network: WorldCat Identities Network

相关API
WorldCat Identities API landing page (technical information)

WorldCat Search API landing page (technical information)

圣诞老人的名称规范

八十年代初,洋节还没有在上海流行。到八十年代中风气突变,自己也曾在圣诞夜跟同学去过衡山路的国际礼拜堂,装模做样地做了一次礼拜。还有一个圣诞夜玩过通宵,因为那个不是节假日,本地同学不回家,比元旦更适合迎新年活动。离开学校的同时成了家,不信教,再也不会在圣诞夜外出参加什么活动了。
初写博时曾写“中国人为什么过圣诞?”,那是应景杂文,以后再也不曾涉及。前几天看到WorldCat博客介绍圣诞老人的名称规范Searching for Santa,想着留到圣诞夜应景不错。

如2007年初所说的设想,现在WorldCat Identity已经有了虚拟人物的规范,下面就是圣诞老人的身份档页面:Santa Claus
有35种语言的2,434种作品、4,203个出版物,收藏馆282,961。
页面显示语言为中文的有28,但点击链接到WorldCat,却显示有63个结果,看来数据不同步。

相关人物(Related Identities)应该都是责任者。
相关链接(Useful Links)的LC规范记录,有交替名称Father Christmas,不知为何WorldCat Identity没有如个人名称那样提供交替名称。
相关主题(Associated Subjects)应该直接取自书目记录,电影、诗比较多,故事也不少。读者对象儿童为主不出意外,但听障者用的视频、电影也有不少,是不是弱智了点?
最奇怪的就是地点“纽约”(New York (State)–New
York)出奇地多,又不是圣诞老人的居住地?点击链接到WorldCat再次出错,因为主题检索su:不接受那两个短横。无论如何此处是需要改进的,或许两难,因为同名的缘故,从主题抽取地理位置如果没有前面的限定,就可能是另一个地点,有限定就要有标识──主题词间用破折号分隔是卡片年代的用法,在
MARC中用子字段分隔,在Web时代,要重新考虑。

参见:规范档2.0:WorldCat身份档 (2007-02-14)

另推荐OCLC的Andrew Pace的圣诞歌:Jingle Books

WorldCat书目记录2009统计分析

    OCLC首席科学家Thomas Hickey在博客上发布了2009年10月1日的WorldCat书目记录统计(Bibliographic Statistics 2009,无轻功免点),2007年3月他也做过同样的统计。
    在这二年半中,WorldCat书目记录从0.83亿条飞升到近1.46亿条(不包括worldcat.org所含文摘索引数据库中的记录),增加了80%。如此发展,当然不是靠人一条条做进去的。近年WorldCat批量加入了很多国家图书馆
(包括中国国家图书馆)与大型书目库的记录,今天还看到”Credo Reference is adding MARC records to WorldCat“,一加就是300多万条,当然不全部是新增,其中一些WorldCat中已有的,只是在记录中加一个可检索的来源标记。
    与之相比,馆藏从11.2亿增长至14.7亿,3.5亿也是一个惊人的数字。

    特别有意思的另两组数字:MARC平均记录长度从803字节下降到785字节,每记录字段数从15.4个下降到14.9个。恐怕大多数人看到这两组对比数字,都会想到这体现了书目的简化趋势。或许Hickey当初也是这么想的,但他还提供了另一组数字:不同的MARC子字段数从1670上升为3278,几乎番翻。Hickey认为,虽然增加了6300万条记录,也不至于会有这个结果。想来原因正是很多非美国编目记录的加入,或许原来所用MARC子字段与MARC21不尽相同,或许原来用UNIMARC家族的,转换为MARC21后对应到非常用的MARC21子字段。
    在关于MARC的争论中,曾经有一点是MARC有那么多字段、子字段没什么人用。WorldCat的这个统计或许说明,如果放大到全球,那么使用的子字段或许更多些。放着不用或没有用,总强过要用而无可用──这是编目员在分类或编目时经常头痛的事。

    由于今日失却最后的上网护身符洋葱头(Tor),武功尽失。今做托钵僧,乞轻功高手下载WorldCat2009年统计数据表(Bibstats2009)后赠予本人。阿弥陀佛,善哉善哉!