乐此不疲 – 第 47 页 – 编目精灵III

网上图书馆资源门户&编目资源

    图书馆员因特网图书馆
INTERNET LIBRARY FOR LIBRARIANS
http://www.itcompany.com/inforetriever/
    收录内容质量高而全，好似一部图书馆学百科全书，无论入门还是深入，不可不备，我将之视为网上图书馆资源门户。
    内容分为三大类别：

Ready Reference 快速参考（常用各类参考工具）
Librarianship 图书馆学（采访、编目、流通、参考、管理、自动化…）
Accessories 相关信息（图书馆、协会、自动化系统、软件书目共同体、邮件组/新闻组、奖项、工作机会、期刊、教育、供应商…）

一直关注网上的图书馆学资源尤其是编目资源，在写博客前也玩过一点有意思的，比如“编目计算器”The Cataloging Calculator。但毕竟外国人做的，适合西编的多，有时网速还很慢，没有耐心等，所以很少真正去用，时间长了，也就渐渐地淡忘了。前些日子G君向我推荐Cataloguer&aposs Toolbox，我去看了一下，没有印象。后来找出以前保存的资料，发现台湾中央图书馆的“编目相关网页”中，就包括有这个。似乎公网常不能访问，现转贴该页之“图书馆整理之编目资源网页”部分如下，有兴趣者不妨探访一番，如有好的内容，也可公之同好：

◎Cataloging Division Document
URL：http://infoshare1.princeton.edu:/katmandu/catman.html
Princeton大學圖書館編目部門整理之編目相關資源。

◎ Cataloguer&aposs Toolbox
URL：http://staff.library.mun.ca/staff/toolbox/
Memorial University of Newfoundland的Queen Elizabeth II Library 書目控制服務部門整理之編目相關資源。在這網頁上可以查到該圖書館編目政策、作業流程及各項最新統計，同時也能取得網路上各式編目資源，包括美國國會圖書館、加拿大國家圖書館及OCLC所整理或提供的各項編目資源，內容十分豐富。

◎ Cataloging Oasis
URL：http://macfadden.mit.edu:9500/colserv/cat/
MIT Libraries所整理之編目資源。

◎ The Interactive Electronic Serials Cataloging Aid（IESCA）
URL：http://staffweb.library.northwestern.edu/serials/iesca/
Northwestern University Library所整理電子期刊編目資源網頁。

◎ TPOT：Technical Processing Online Tools
URL：http://tpot.ucsd.edu/
University of California, San Diego圖書館所整理之技術服務相關資源。

台湾中央图书馆的这个“編目相關網頁”本身也是个很好的资源链接集合，除“圖書館整理之編目資源網頁”外，还有“編目相關團體”、“編目期刊網頁”等，差不多重要的都收录了。

另外，前述ILL的编目部分(Cataloging)也有挖掘一番的潜力。

　　国家图书馆顾犇博士主页有图书馆员常用资料”，看其中“编目员用参考资料”有“国际编目原则声明（草案）”(Statement of International Cataloguing Principles)，便知是常常更新的了。也是外国人的东西居多，取的是适合国人的那部分，比较实用。

　　这类集成式的编目资源网站或网页，自己大概只有“编目绿洲”和ILL的编目部分认真看过。或许是集成度太高的缘故，看得多了，审美疲劳：资源多是汇集而成，链接为主，原创不多，且互相嵌套，你中有我，我中有你，故而内容大同小异。要一一甄别，找出其中独特而实用的资源，太费时间、精力。
现在我都有点怕看这些网站，更愿意看面较狭的专题，直接可用的资源而不是链接。之前介绍过美国杜兰大学图书馆编目部主页，着意于其与主题标引相关的内容；图书馆公司的“编目员参考架”，可算是编目规范性参考资料大全。
　　当然，集成式的资源门户还是不可少的。至少在没有头绪时，知道从何处进门，看到门后的广阔天地。

亚马逊“书内搜索”扩展功能

平时上亚马逊，只注意到那些在国内购书网站上常见的推荐相关图书的信息。那天看到OCLC首席科学家Lorcan Dempsey绕有兴趣地使用亚马逊的数据挖掘功能(Amazon: making data work)，并预言这些数据可作进一步研究。于是再去看亚马逊的特色，前几天已经写了“Google与Amazon书内搜索比较”，今天再看看亚马逊由图书全文扫描所获数据延伸出来的其他功能。
亚马逊部分图书（标记为Search Inside!）有全文电子版作为数据源，除“书内搜索”(Search Inside This Book)、“浏览样本页”(Browse Sample Pages)外，还提供了一些有趣或者精彩的功能，在Inside This Book栏目下有：

Statistically Improbable Phrases (SIPs)
    特色词组。亚马逊首创术语，由词频统计得出，某词组在该书中出现次数在所有“书内搜索”图书中相对较多。可由这些SIPs了解该书特色，前述Dempsey文章即围绕此一功能。
    如Cataloging and Classification for Library Technicians一书第一个SIP即nonfiling characters，可见该书对MARC格式解读之细致。
    还可点击SIPs了解采用该词的其他图书及在书中出现的频率。

Books on Related Topics
相关论题图书。这里的“相关”判断利用的是两书相同SIPs的数量。

Concordance
词频索引。依字顺排列最高频的100个词，由字体大小显示词频高低。比如，在亚马逊的几本编目图书中，以Manheimer&aposs Cataloging and Classification: Revised and Expanded最注重“规则”rule。

Text Stats
文本统计，包括可读性、复杂性等。
外国人有很多创新，而很多创新又是在充分利用前人已经完成的研究的基础上的。亚马逊的“可读性”就采用了几种早已有之的指数：

1、Fog Index
    阅读与理解一段文本所需的正规教育年限。
    以高中毕业12年(K-12)计算，一般专业书多在12以上，即要求大学水平。也有16以上的，那是硕士水平了。但是Library Research Models: A Guide to Classification, Cataloging, and Computers一书，题名虽为Guide，分值居然高达21，非博士不能读？
2、Flesch Index
    开发于1940年的一个指数，最高值100，分值越高越易读，0-30适合大学水平。
    想不到1940年就已经有文本分析可读性的量化研究。
3、Flesch-Kincaid Index
    Flesch Index的更改进版，也与教育年限相对应。
    对比了一些书的可读性指数，似乎lesch-Kincaid指数值都比Fox指数值低，如Library Research Models一书为18。

    “复杂性”中有一个指数是每个句子包含的词数，Library Research Models一书的此值为31.1，确实是个十分恐怖的数字。估计可读性计算也与此值有关。
    上面这些内容或许太严肃了些。亚马逊在最后提供了二个娱乐统计数据：
每1美元可买多少个词（买家看看值不值）
每1盎司有多少个词（大概因为邮寄按重量计费，所以亚马逊数据库中才会有图书重量数据）

Dempsey感兴趣的The Rise of the Network Society一书还有引文功能(Citations)，包括引用与被引。该书引用了199本书，又被230本书引用。引用来源图书似有重复，且由于数据原因，仅限亚马逊“书内搜索”图书。
“引文”也是亚马逊书内搜索中值得进一步关注的功能。

另：亚马逊有一些标记为“Look Inside”的图书，如“The Intellectual Foundation of Information Organization”，没有“书内搜索”及扩展功能，只有“浏览样本页”功能：封面、封底、目次、版权页、片断（通常为图书起始部分）、索引等。

FRBR影响之OPAC应用

G君问FRBR的影响体现在什么地方，从IFLA一心一意处处推广来看，这问题本身恐怕就是一篇论文很好的题材。

    今天在看一本Max Weber没有原题名的中文书，忽然想试试自己能否根据译名查到原名。韦伯是个高产作者，兼而有名，同一作品不断出版，还有不同译本。如果只有普通OPAC，结果怕有数百条，我是断无用OPAC查之念的。但因为之前用美国研究图书馆集团RLG的开放联合目录RedLightGreen（红绿灯）时，发现它对同一作品只提供一条检索结果，于是就用RedLightGreen试试。
    RedLightGreen检索界面如Google般简洁，输入“Weber, Max”，出现的结果（右栏）当然不是我所要的，应该是有关韦伯研究的作品。选左栏Authores中最前面的“Weber, Max 1864 1920”，得到20部韦伯的作品。如前文所述，由于规范控制不严，另有Weber, Max（19部）和Weber, Max, 1864 1920（6部），但基本包含在前面20部中（没有细作对比）。
    现在这只要在这20部中选择就可以了，问题简单不少。为了比较，后来我用LC与OhioLINK分别查了“Weber, Max”，结果分别是188条和429条记录。真令人望而生畏！
    RedLightGreen就是FRBR模型的一个非常有效的应用实例。想一下如果是读者，想知道韦伯究竟有多少作品，如果查本馆OPAC，或许结果数量不多，但得到的结果并不可靠；而如果查普通的大型联合目录OPAC，他试过第一次后，还会有耐心用第二次吗？

OCLC研究部也已做了多年的FRBR研究，其首席科学家Thomas B. Hickey在他博客的“FRBR Statistics”中说，最近在OCLC举行的FBRB研讨会上一个最共同的判断是，只有少数书目记录需要FRBR去聚合它们。并提供了最新的统计数据：WorldCat中，88%的作品只有一条书目记录。然而，如Cliff在评论中所说，对于有5900万记录的WorldCat来说，即使是少数比例的书目记录，绝对数也不是个小数字。

参见：（2005/5/14增加部分信息）
FRBR大本营（国际图联）
IFLA. Cataloguing Section. Functional Requirements for Bibliographic Records (FRBR) Review Group
http://www.ifla.org/VII/s13/wgfrbr/wgfrbr.htm

MARC与FRBR（美国国会图书馆）
MARC and FRBR
http://www.loc.gov/marc/marc-functional-analysis/

OCLC的FRBR研究
OCLC Research Activities and IFLA&aposs Functional Requirements for Bibliographic Records
http://www.oclc.org/research/projects/frbr/

最新的FRBR研讨会
FRBR in 21st Century Catalogues: An Invitational Workshop (May 2-4, 2005)
http://www.oclc.org/research/events/frbr-workshop/