FRBR影响之OPAC应用

    G君问FRBR的影响体现在什么地方,从IFLA一心一意处处推广来看,这问题本身恐怕就是一篇论文很好的题材。

    今天在看一本Max Weber没有原题名的中文书,忽然想试试自己能否根据译名查到原名。韦伯是个高产作者,兼而有名,同一作品不断出版,还有不同译本。如果只有普通OPAC,结果怕有数百条,我是断无用OPAC查之念的。但因为之前用美国研究图书馆集团RLG的开放联合目录RedLightGreen(红绿灯)时,发现它对同一作品只提供一条检索结果,于是就用RedLightGreen试试。
    RedLightGreen检索界面如Google般简洁,输入“Weber, Max”,出现的结果(右栏)当然不是我所要的,应该是有关韦伯研究的作品。选左栏Authores中最前面的“Weber, Max 1864 1920”,得到20部韦伯的作品。如前文所述,由于规范控制不严,另有Weber, Max(19部)和Weber, Max, 1864 1920(6部),但基本包含在前面20部中(没有细作对比)。
    现在这只要在这20部中选择就可以了,问题简单不少。为了比较,后来我用LC与OhioLINK分别查了“Weber, Max”,结果分别是188条和429条记录。真令人望而生畏!
    RedLightGreen就是FRBR模型的一个非常有效的应用实例。想一下如果是读者,想知道韦伯究竟有多少作品,如果查本馆OPAC,或许结果数量不多,但得到的结果并不可靠;而如果查普通的大型联合目录OPAC,他试过第一次后,还会有耐心用第二次吗?

    OCLC研究部也已做了多年的FRBR研究,其首席科学家Thomas B. Hickey在他博客的“FRBR Statistics”中说,最近在OCLC举行的FBRB研讨会上一个最共同的判断是,只有少数书目记录需要FRBR去聚合它们。并提供了最新的统计数据:WorldCat中,88%的作品只有一条书目记录。然而,如Cliff在评论中所说,对于有5900万记录的WorldCat来说,即使是少数比例的书目记录,绝对数也不是个小数字。

参见:(2005/5/14增加部分信息)
FRBR大本营(国际图联)
IFLA. Cataloguing Section. Functional Requirements for Bibliographic Records (FRBR) Review Group
http://www.ifla.org/VII/s13/wgfrbr/wgfrbr.htm

MARC与FRBR(美国国会图书馆)
MARC and FRBR
http://www.loc.gov/marc/marc-functional-analysis/

OCLC的FRBR研究
OCLC Research Activities and IFLA&aposs Functional Requirements for Bibliographic Records
http://www.oclc.org/research/projects/frbr/

最新的FRBR研讨会
FRBR in 21st Century Catalogues: An Invitational Workshop (May 2-4, 2005)
http://www.oclc.org/research/events/frbr-workshop/

 

Google与Amazon书内搜索比较

    不知为什么,Google没有象Google Scholar那样,单为Google Print设一个检索页面,弄得大家要检索Google Print收录的图书时,只能在Google网页搜索时,使用“book”一词进行搜索(目前限英文界面)。而且,检索结果还只限3个。

    SearchEngineWatch新闻编辑Gary Price最近写了一篇破解之文“Going Under Cover with Book Search Tools”,传授了二种任意检索Google Print中图书的方法。

    方法一(例子改为我自己的了):
1、在Google搜索框输入检索词(注意“界面语言”选英文),如:book “information retrieval”
2、图书检索结果标记为:Book results for “information retrieval”。任意点击3种图书中的一种,如Visual Information Retrieval
3、在窗体下部有一个搜索框,边上有一个“Search all books”按钮,可以实现在所以Google Print图书中搜索。

    方法二比较简单,只是需要记一下。先在浏览器地址栏输入:
http://print.google.com/print?q=
再在等号后加上检索词,同样如”information retrieval”,检索结果相同。

2005-5-28更新
    Google Print首页已更新,设置了检索页面,所以Gary Price的“方法一”已无用武之地;“方法二”仍然有效,虽然直接使用没有什么意义,但可用于Google的“工具栏搜索”Google Deskbar
    原来Google Print首页内容现在放在About Google Print。

2006-1-23更新
    2005年晚些时候,Google Print已改称Google图书搜索:http://books.google.com/

    编目时偶而也用Google Print看图书的目次。这回花时间用了一下左栏的书内搜索(Search within this book),同亚马逊的书内搜索(Search Inside!)作一对比:

1、图书基本信息:
    亚马逊提供封面、目次、版权页、片段、索引、封底。“片段”是其可公共访问的页面,可前后翻页。
    Google提供封面、版权页、目次、索引。可由原文页前后翻页。
    二者相比差别不大。

2、搜索功能:
    Google可以用引号搜索词组,搜索结果比亚马逊更准确。

3、检索结果:
    亚马逊检索结果一览每项三行左右,有一定的可读性。
    Google检索结果一览每项二行,且行宽小于亚马逊,基本不可读。

4、原文显示:
    对一般检索者,亚马逊只显示可公共访问的“片段”页面。只有注册用户才能由检索结果点击页码看原文,即使该页属于其公开的“片断”。
    Google可直接由检索结果点击相应页码看原文:
1) 不是每页都可看,比如对于Encyclopedia of Library and Information Science,第435页即显示[Sorry, this page&aposs content is restricted.]。
2) 一本书肯定不能从头看到尾,但没有地方显示究竟可以看几页。据Gary Price说,可看页数由出版商决定(Publisher Program)。
3) 那些由Google图书馆计划(Library Project)数字化的图书,如果受版权保护,则只能看书目信息,即Book Info View Only。Gary Price说在美国公共领域是1923年前,如果在美国以外,Google会认定在1900年前!这么古老的内容,如果真有价值,相信谷腾堡计划(Project Gutenberg)中也会有的了,或许“善本”例外(外行话不足为凭)。

5、原文保存与打印:
    亚马逊:不可选择保存原文图像,打印时原文位置留空,但可通过保存网页方式保存原文(独立的jpeg文件;2005/5/14更新:仅限显示的第一页)。
    Google:不可选择保存原文图像,打印时原文位置留空,原文无法保存(保存网页后原文每次均需联网下载),唯一的保存原文方法就是拷屏(PrintScreen)了。

当日更新(21:30):

    刚看了蒙大拿州立大学参考馆员Greg R. Notess在Online (vol.29 no.3 May/June 2005)上发表的专栏文章:Searching Books Between the Covers。该文讨论的也是书内搜索问题。文中有历史描述,有些有趣的Google、Amazon和A9搜索对比,还有书内搜索在参考服务中应用的实例。
    如作者所言,书内搜索仍在不断变化。所以他的文章、Gary Price的文章以及上文,或许很快就过时了。

 

用得最多的39个CNMARC字段

    忙中偷闲,抽取本馆2004年的部分CNMARC数据,作了一个类似的字段使用频率统计。总共18418条记录,除本地使用字段外,共使用了90个字段。其中有11个字段只出现了一次,除非书资料外,相信有几个只出现一次的字段为著录错误所致。
    字段计数总共为355680,平均每条记录使用19.3个字段。平均每记录使用字段比前述USMARC统计的18个字段为多也是理所当然的,因为USMARC一个必备的008字段,在CNMARC就至少要用上必备100、101、102,对于数据量最大的专著,还要加上105、106。如此说来,似乎CNMARC记录的总体信息量要少于USMARC记录?可能相对来说,由于后组的原因,CNMARC主题字段数量略少。
    在本次统计中,出现频率超过百分之一的字段为39个,出现频率超过千分之一的有56个字段,出现频率超过万分之一(1次以上)的有79个字段。由于无法统计每条记录的情况,所以可重复字段的出现次数会超过100%。也就是说,即使是统计值为100%的字段,也不一定出现在每条记录中,因为可能有些记录出现多次该字段。以下是39个字段及其统计数据(某些字段应当为100%,如001、100、101、102、200、215,原记录有错误):

701 121.65%
606 118.82%
801 113.93%
690 113.36%
010 105.77%
001 100.01%
210 100.00%
101  99.99%
200  99.99%
102  99.99%
215  99.99%
100  99.98%
106  99.93%
105  99.02%
005  89.14%
410  59.96%
225  54.59%
320  50.96%
702  30.84%
330  27.49%
517  26.81%
510  25.74%
314  12.33%
300  11.70%
312   8.85%
711   7.76%
600   7.18%
306   7.03%
205   5.79%
333   4.75%
305   3.53%
092   2.28%
304   1.87%
712   1.86%
601   1.84%
327   1.79%
605   1.58%
311   1.48%
607   1.05%

    由于专著记录占了数据的绝大部分,所以对于专著以外文献类型记录所用字段,这个统计数据显然是没有帮助的。如连续出版物的110、207、326、310、011字段均未入围,单独统计时,前三个字段的出现率为100%,后二个字段分别是8%和4%。
    这个统计的样本不够大,与前述USMARC统计的400多万没有可比性。但由于采用的是较新的记录,或许更能反映目前CNMARC的使用情况。不过,CNMARC目前应用上有一些分歧,采用不同标准的图书馆,统计结果也会有一定的影响,比如本馆不采用411、461、462字段之类,导致410字段出现频率较高。