亚马逊“书内搜索”扩展功能

    平时上亚马逊,只注意到那些在国内购书网站上常见的推荐相关图书的信息。那天看到OCLC首席科学家Lorcan Dempsey绕有兴趣地使用亚马逊的数据挖掘功能(Amazon: making data work),并预言这些数据可作进一步研究。于是再去看亚马逊的特色,前几天已经写了“Google与Amazon书内搜索比较”,今天再看看亚马逊由图书全文扫描所获数据延伸出来的其他功能。
    亚马逊部分图书(标记为Search Inside!)有全文电子版作为数据源,除“书内搜索”(Search Inside This Book)、“浏览样本页”(Browse Sample Pages)外,还提供了一些有趣或者精彩的功能,在Inside This Book栏目下有:

Statistically Improbable Phrases (SIPs)
    特色词组。亚马逊首创术语,由词频统计得出,某词组在该书中出现次数在所有“书内搜索”图书中相对较多。可由这些SIPs了解该书特色,前述Dempsey文章即围绕此一功能。
    如Cataloging and Classification for Library Technicians一书第一个SIP即nonfiling characters,可见该书对MARC格式解读之细致。
    还可点击SIPs了解采用该词的其他图书及在书中出现的频率。

Books on Related Topics
    相关论题图书。这里的“相关”判断利用的是两书相同SIPs的数量。

Concordance
    词频索引。依字顺排列最高频的100个词,由字体大小显示词频高低。比如,在亚马逊的几本编目图书中,以Manheimer&aposs Cataloging and Classification: Revised and Expanded最注重“规则”rule。

Text Stats
    文本统计,包括可读性、复杂性等。
    外国人有很多创新,而很多创新又是在充分利用前人已经完成的研究的基础上的。亚马逊的“可读性”就采用了几种早已有之的指数:

1、Fog Index
    阅读与理解一段文本所需的正规教育年限。
    以高中毕业12年(K-12)计算,一般专业书多在12以上,即要求大学水平。也有16以上的,那是硕士水平了。但是Library Research Models: A Guide to Classification, Cataloging, and Computers一书,题名虽为Guide,分值居然高达21,非博士不能读?
2、Flesch Index
    开发于1940年的一个指数,最高值100,分值越高越易读,0-30适合大学水平。
    想不到1940年就已经有文本分析可读性的量化研究。
3、Flesch-Kincaid Index
    Flesch Index的更改进版,也与教育年限相对应。
    对比了一些书的可读性指数,似乎lesch-Kincaid指数值都比Fox指数值低,如Library Research Models一书为18。

    “复杂性”中有一个指数是每个句子包含的词数,Library Research Models一书的此值为31.1,确实是个十分恐怖的数字。估计可读性计算也与此值有关。
    上面这些内容或许太严肃了些。亚马逊在最后提供了二个娱乐统计数据
每1美元可买多少个词(买家看看值不值)
每1盎司有多少个词(大概因为邮寄按重量计费,所以亚马逊数据库中才会有图书重量数据)

    Dempsey感兴趣的The Rise of the Network Society一书还有引文功能(Citations),包括引用与被引。该书引用了199本书,又被230本书引用。引用来源图书似有重复,且由于数据原因,仅限亚马逊“书内搜索”图书。
    “引文”也是亚马逊书内搜索中值得进一步关注的功能。

另:亚马逊有一些标记为“Look Inside”的图书,如“The Intellectual Foundation of Information Organization”,没有“书内搜索”及扩展功能,只有“浏览样本页”功能:封面、封底、目次、版权页、片断(通常为图书起始部分)、索引等。

 

网上规范资料:规则、机读格式及规范库

《规范记录与参照指南》(2001年第2版)
Guidelines for Authority Records and References (2nd ed., 2001)
http://www.ifla.org/VII/s13/garr/garr.pdf(PDF文件,294K)
IFLA的GARR,是1984年出版的“规范与参照款目指南”Guidelines for Authority and Reference Entries (GARE)的修订版。

《个人名称》(1996)
Names of Persons (1996)
http://www.ifla.org/VII/s13/pubs/NamesOfPersons_1996.pdf (PDF文件,11M)

《团体名称标目结构》(最终报告,2000)
Structures of Corporate Name Headings (Final Report, November 2000)
http://www.ifla.org/VII/s13/scatn/final2000.htm

《UNIMARC规范格式》(1991版)
UNIMARC / Authorities 1991
http://www.ifla.org/VI/3/p1996-1/uniafull.htm

《UNIMARC手册-规范格式》(2001简版)
UNIMARC Manual-Authorities Format 2001 (Concise version)
http://www.ifla.org/VI/3/p2001/guideindex.htm
第2版,修订扩大版

UNIMARC Manual-Authorities Format 2001 (Concise version)
http://web2.kwangju.ac.kr/~jahookim/myhome/UNIMARC-9.htm
开始在IFLA网站上没找到2001版规范格式,倒在这个韩国大学网站上找到了。

中国机读权威记录格式》(台湾,1994年)
http://datas.ncl.edu.tw/catweb/2-1-7.htm
唯一查到的中文规范资料,引用标准中只有GARE和UNIMARC手册(1987版),没有UNIMARC规范。不知道现在有没有根据UNIMARC规范2001版的更新版。

《MARC 21规范数据格式》(简版)
MARC 21 Concise Format for Authority Data (2004 Concise ed, 2000 ed., update no. 5)
http://www.loc.gov/marc/authority/ecadhome.html
美国国会图书馆MARC 21标准网站,目前是2004版(2000版第5次更新本)

美国国会图书馆规范库
Library of Congress Authorities
http://authorities.loc.gov
含主题、名称、题名和名称/题名规范。

    不是我崇洋,实在是查了半天,查到的网上工具性的中文规范资料少得可怜。我也希望网上有国家图书馆的《中国机读规范格式》,却只查到了台湾的《中国机读权威记录格式》。好歹是中文版,都是依据UNIMARC及GARR前身GARE制订的,差别大不到哪里去。
    我更希望国家图书馆的“中国名称规范数据库”、“中国主题规范数据库”能够象LC规范库那样可以在网上自由使用。只是想到连深受西方熏陶的港人,都守着HKCAN不肯开放,便断了此念。

另:还有一个与《书目记录的功能需求》(FRBR)相应的重要规范文件值得注意:
《规范记录的功能需求与编号》
Functional Requirements And Numbering of Authority Records (FRANAR)
    尽管名称如雷灌耳,受到不少关注,这个神秘文件似乎至今仍未完成。其工作小组于1999年成立以来,正式文件只见到一个2000年在曼谷召开会议的备忘录

 

FRBR影响之OPAC应用

    G君问FRBR的影响体现在什么地方,从IFLA一心一意处处推广来看,这问题本身恐怕就是一篇论文很好的题材。

    今天在看一本Max Weber没有原题名的中文书,忽然想试试自己能否根据译名查到原名。韦伯是个高产作者,兼而有名,同一作品不断出版,还有不同译本。如果只有普通OPAC,结果怕有数百条,我是断无用OPAC查之念的。但因为之前用美国研究图书馆集团RLG的开放联合目录RedLightGreen(红绿灯)时,发现它对同一作品只提供一条检索结果,于是就用RedLightGreen试试。
    RedLightGreen检索界面如Google般简洁,输入“Weber, Max”,出现的结果(右栏)当然不是我所要的,应该是有关韦伯研究的作品。选左栏Authores中最前面的“Weber, Max 1864 1920”,得到20部韦伯的作品。如前文所述,由于规范控制不严,另有Weber, Max(19部)和Weber, Max, 1864 1920(6部),但基本包含在前面20部中(没有细作对比)。
    现在这只要在这20部中选择就可以了,问题简单不少。为了比较,后来我用LC与OhioLINK分别查了“Weber, Max”,结果分别是188条和429条记录。真令人望而生畏!
    RedLightGreen就是FRBR模型的一个非常有效的应用实例。想一下如果是读者,想知道韦伯究竟有多少作品,如果查本馆OPAC,或许结果数量不多,但得到的结果并不可靠;而如果查普通的大型联合目录OPAC,他试过第一次后,还会有耐心用第二次吗?

    OCLC研究部也已做了多年的FRBR研究,其首席科学家Thomas B. Hickey在他博客的“FRBR Statistics”中说,最近在OCLC举行的FBRB研讨会上一个最共同的判断是,只有少数书目记录需要FRBR去聚合它们。并提供了最新的统计数据:WorldCat中,88%的作品只有一条书目记录。然而,如Cliff在评论中所说,对于有5900万记录的WorldCat来说,即使是少数比例的书目记录,绝对数也不是个小数字。

参见:(2005/5/14增加部分信息)
FRBR大本营(国际图联)
IFLA. Cataloguing Section. Functional Requirements for Bibliographic Records (FRBR) Review Group
http://www.ifla.org/VII/s13/wgfrbr/wgfrbr.htm

MARC与FRBR(美国国会图书馆)
MARC and FRBR
http://www.loc.gov/marc/marc-functional-analysis/

OCLC的FRBR研究
OCLC Research Activities and IFLA&aposs Functional Requirements for Bibliographic Records
http://www.oclc.org/research/projects/frbr/

最新的FRBR研讨会
FRBR in 21st Century Catalogues: An Invitational Workshop (May 2-4, 2005)
http://www.oclc.org/research/events/frbr-workshop/