存档在 2007 年一月

联机图书馆目录:失乐园、复乐园

2007年1月27日

联机图书馆目录:失乐园、复乐园 / Karen Markey

The Online Library Catalog: Paradise Lost and Paradise Regained?
D-Lib Magazine, January/February 2007, Volume 13 Number 1/2 (ISSN 1082-9873)

作者引用的一些资料 (Paradise Lost):
    1980年代早期的一项全美调查显示,80%以上图书馆用户对OPAC持赞成态度。但从一开始,用户就希望OPAC改进主题检索,希望引入目次与期刊论文。到1990年代初期,研究者建议作出的改进有:
1、为使联机目录的主题检索更简单,应采用后布尔概率检索,带自动拼写更正、词加权、智能词干、相关反馈及输出排序
2、为方便用户选定目录中的图书,在编目记录(即元数据)中增加目次、书后索引
3、为减少无结果的主题检索,用全文(报刊文章、百科全书、学位论文、政府文件等)充实联机目录
4、通过图书馆分类,扩展联机目录的寻找策略
    接着作者分析了上述解决方案没有被采用的十个理由。

作者给OPAC开出的药方 (A Second Chance to Redesign the Online Library Catalog)
★ Embrace Post-Boolean Probabilistic Searching  采用(Google和其他搜索引擎所用的)后布尔概率检索,取代过时的布尔式目录 [最具技术难度的部分]
★ Embrace Subject Cataloging 采用主题编目 [描述编目走向没落]
信息存储的30:1法则(题名和主题是目次的1/30,目次是书后索引的1/30,书后索引是全文的1/30)
在后布尔概率检索中注重主题标目、分类号、分类说明、目次、书后索引:
1、排序算法:上述内容权重高于正文
2、简单文本显示:题名、主题、分类说明用于在检索结果列表中快速浏览,确定相关文献
3、相关反馈(“发现更多类似”)机制:题名与主题比正文更高权重。如NCSU的新版Endeca目录的虚拟分类法浏览、LC主题分面。
★ Expand with Qualification Metadata 用限定元数据扩充
可用的文献属性举例:
In a discipline 学科
With knowledge of this subject at a particular academic level 学术层次 [与“读者对象”的关系?]
To what extent the author is an authority on the topic at hand 作者权威性
For a particular class of people 读者对象
Is a particular genre or of a particular literary nature 文献类别
When the particular subject took place 时代
What can be done with the document 用处
How others benefited from using the document 评论、评级
What kind of experience the user gets from the document 用户体验(惊恐故事、悲伤图片、笑话、心碎诗歌等)

作者设想的未来联机目录原型的主题存取功能举例 (Building the Future Online Catalog Now):
★ 排序算法,给元数据记录中的摘要数据如题名、主题、分类号与限定元数据以最高权重,确保排序输出的准确
★ 相关反馈(即“发现更多类似”)机制,给予题名、主题、分类号与限定元数据以比数字化正文中的词与词组更高的权重
★ 用户想在目录检索结果简单显示表中看到的数据元素
★ 用于限定的文献属性,使检索更相关,与用户的智力水平一致
★ 限定属性选择机制,易于检索者理解与使用
★ 用于检索、排序、相关反馈与显示的引用数据的作用
★ 显示与处理全文的能力,如检索、导航、重点显示、加注释、页边加注、与他人共享等
★ 标记元数据(加标签)机制,鼓励用户参与
★ 将联机目录集成到更大的通用信息搜寻场所——Google及互联网,期刊搜索、搜索不可见WEB、机构库搜索等

作者认为OPAC功能的改善也需要2.0
    以前图书馆界的决策由少数关键人物、咨询机构或专业学会作出,现在已不应当再这样了。首先,有这样的技术,能够在决策阶段让更多人有更大参与度(inclusive);其次,我们面对着不确定的未来,需要经历一个转变,从将少数大机构及其馆藏、权威与人员看法放在首位,转向需要所有参与者的联盟。第三,成功实施共享的、基于技术的决策,能够在本领域中树立未来决策的标准,并鼓舞其它领域采用这一方法。

作者的结论
    是否采用她的上述设想并不重要,重要的是重新思考图书馆编目与联机目录,关注联机目录的未来。要抢大规模数字化项目结束前,让所有感兴趣的团体参与严肃的对话、设计原型系统、作出决策,使未来的联机目录有稳固的基础。
    最后一句话:Should we fail to act until all the books are digitized and the copyright problems are solved, the last person to leave to digitization workroom may be turning off the lights on the library.

    文章表达了很多人近年感受到的Google等大规模数字化项目的压力,以及由此对改进OPAC的紧迫感。问题是,OPAC所能揭示的内容,如文中书所述,最大限度也不过文本的1/30——再长就不是OPAC,而是全文检索系统了。即使在大规模数字化结束、版权问题解决之前,将OPAC改造得尽善尽美了,图书馆的灯就能长明吗?基于全文的数据挖掘技术在不断的进展中,未来还需要OPAC吗?
    乐园恐怕难以失而复得,或许对OPAC的所有改进只不过是苟延残喘,站好最后一班岗;再令人兴奋的新功能,也不过是给猪抹口红(
Roy Tennant),一番化妆打扮后,还是要送到屠宰场的。

ALA 2007仲冬会议上的RDA:Barbara的态度

2007年1月24日

    ALA在开2007仲冬会议,参会blogger报道踊跃。也有人不去参加,并质疑ALA自己不做虚拟会议,来点2.0的活干干,尽让博客们免费为之打工(ALA Midwinter Meeting: I’m Not There)。

    LITA(图书馆与信息技术协会)博客上也有不少会议报道。正引起争议的论文“RDA:20世纪的编目规则”的作者Diane Hillmann也客串一回blogger,报道了上周六ALCTS(馆藏与技术服务协会)电子资源兴趣组的会中会。从中我们可以看到有关RDA争议的另一个侧面。

    Diane受邀但原来并没有打算与会,因为她以为时间上与MARBI会议中感兴趣的内容冲突。在获知没有冲突后,她便决定去看看,一大半原因是冲着写得很诱人的会议说明:“如果RDA打算‘面向一切’,它携同DC、LOM及可视资源社区达到其目标了吗?我们已经听到很多来自‘传统编目’界的观点、评论,但不同的元数据社区如何点评?对于这一内容标准是否适用于他们,这些社区是如何考虑的,我们很少有直接的信息。本次的演讲将说明这些问题。”

    第一个演讲人是LC的Barbara Tillett,编制RDA的核心人物。据说Barbara原来并未受邀,但她要求参加。作为编目界权威,自然令人无法拒绝。Diane认为Barbara的演讲冗长且了无新意,不过是又一次“漂亮的标准RDA高水平营销”。最令Diane愤愤不平的是最后那张幻灯片上的文字——Diane认为这完全无视那些改变RDA的重大呼吁,令她十分沮丧:

No significant changes to existing records will be required 对现有记录无需重要改变
Need for retrospective adjustments when integrating RDA and AACR2 records will be minimal 在集成RDA与AACR2记录时,只需最底限度的回溯处理

    接下来有一些来自其他元数据社区的演讲,基本上是各说各话,并没有谈及对RDA的看法。因为演讲安排得太满,到最后只剩下10分钟讨论,还被一个人喋喋不休的抱怨占据了最后几分钟。所以Diane报道的题目是“没有讨论的RDA讨论”(No Discussion Discussion on RDA)。

QOTD(Quote Of The Day) :其中一位演讲者引用一个同事的话:

Standards are like toothbrushes, everyone agrees that they’re a good idea but nobody wants to use anyone else’s.
标准就象牙刷,每个人都认为那是好东西,但没有人想用别人的。

参见:RDA:20世纪的编目规则

RDA:20世纪的编目规则

2007年1月23日

    二十世纪曾经辉煌,但已是明日黄花。D-Lib Magazine今年1/2月刊发表Karen Coyle)和Diane Hillmann的文章“Resource Description and Access (RDA): Cataloging Rules for the 20th Century”,旗帜鲜明地把将于2008年问世的RDA称为“20世纪的编目规则”,理所当然地引来一场论战。在各家编目相关的邮件讨论组上,关于此文的贴子回复多多,作者之一Karen Coyle也参与讨论;还有多个博客介绍此事,Karen也在自己博客上发文简评此文,又引来留言一片。
    两位作者现均从事数图方面的工作,Karen Coyle在博客中常涉及编目相关论题,而Diane Hillmann更是元数据专家,曾为ALA机读书目信息委员会(MARBI)成员,目前则是DCMI使用与咨询部成员。

    作者在文中更多地指出了在当前的环境下图书馆及编目工作所处的危机,提到了去年上半年加州大学图书馆与美国国会图书馆分别提出的二份关于编目工作的研究报告。文章并基于RDA已经发布的部分草案,提出对RDA的批评,尤其不满其篇幅过长、过于复杂,更进一步对RDA编辑机构JSC的能力表示质疑,认为其宣称的与实际达成的状况完全不一致。
    文章特别具有说服力的部分是“Lack of Community Support”,引用多方见解,说明目前状态的RDA不被那些具有权威性的机构或人认可:

√    “对RDA已发布草案的不满已经在ALA编目描述与访问委员会(CC:DA)文件中浮出水面。在对最近章节审议的回应中,CC:DA说明:‘对于RDA开发程序及其产生一个可行标准的能力,在ALA中产生着信任危机。’”CC:DA提出的建议包括:采用自上而下的开发方式;修改开发时间表,有机会从整体上审议RDA;不单用AACR2作为RDA的理论与实践来源。
√    AACR2最初的编者Michael Gorman在1997年就呼吁简化AACR:“首先,我们应当去除所有导入AACR2第二部分的‘特例’规则,……(例如专门宗教资料与法律的许多情况)。其次,我们应当剪除在特定情况下的过于精细的描述性规则——这些对于专业编目员不够,而对于普通编目员太多(如对音乐与地图的规则)。专业编目员与专业馆藏的需求应当由专业手册来满足,手册由相关编目团体创建,由JSC作为真正的例解审查鉴定。”
√    “似乎说明了对JSC缺乏信任,特别有意思的近期发展是2006年12月1日,LC指出了技术改变的压力,宣布组成一个‘书目控制未来工作组,检查21世纪书目描述的未来’。”该工作组的报告将于2007年秋发表。

    结论部分表明了对RDA未来走向的态度:
√    “重新整理编目规则不是图书馆的正确起点。”
√    “在精心制作详细的图书馆编目规则前,我们需要判定,用户是看连接用户与信息资源的通用书目工具,无论其来源,还是继续看图书馆财产清册,需要用户再到其他地方寻找他们可能需要的其他信息”[似乎已经判定了单个图书馆目录的死刑]
√    “更好的不是将RDA‘继续到底’,而是设立一个新的目标,实现顶层的一致:模型、基本原则与一般规则,而将细节留给专业社区。”

关于本次讨论,参见:
NGC4LIB(下一代图书馆目录):coyle/hillman article from dlib
http://comments.gmane.org/gmane.culture.libraries.ngc4lib/1353

RDA-L (http://www.collectionscanada.ca/jsc/rdadiscuss.html):Article critical of RDA
按月归档,看不到当月内容,推算2007年1月网址:http://www.collectionscanada.ca/jsc/docs/rdal0701.txt

MARC Forum (http://www.loc.gov/marc/marcforum.html): Article criticizing RDA
MARC Archives – January 2007, http://listserv.loc.gov/cgi-bin/wa?A1=ind0701&L=marc
   
FRBR Blog: Coyle and Hillmann, RDA: Cataloging Rules for the 20th Century
http://www.frbr.org/2007/01/18/coyle-hillmann

panlibus: Is Marc fit for purpose?  by Richard Wallis
http://blogs.talis.com/panlibus/archives/2007/01/is_marc_fit_for.php

Coyle’s InFormation: Comments on D-Lib Article: “RDA… for the 20th c.”
http://kcoyle.blogspot.com/index.html

LITA Blog: No Discussion Discussion on RDA / by Diane Hillmann
http://litablog.org/2007/01/22/no-discussion-discussion-on-rda/
(此文介绍详见下篇:ALA 2007仲冬会议上的RDA:Barbara的态度

另参见:
“英美编目条例”退出舞台:从AACR到RDA (2005-07-31)
/posts/20050731215049.html

《资源描述与检索》(RDA)一统江湖?(2006-04-16)
/posts/20060416102200.html

OPAC 2.0计划书:《加州大学书目服务再思考》(2006-02-02)
/posts/20060202195927.html

最新研究报告:改变目录性质、与其他发现工具集成(2006-04-11)
/posts/20060411193218.html

书目控制未来工作组:关注2007年11月 (2006-12-12)
/posts/20061212222610.html

NGC4Lib:下一代图书馆目录邮件组 (2006-06-10)
/posts/20060610151628.html

AADL的新版OPAC

2007年1月22日

AADL的OPAC很引人注目,比如任何人可以标注的卡片目录、丰富的内容敏感信息链接、OPAC检索结果RSS订阅等等。2007/1/21,其OPAC再度升级完成,引入了对馆藏进行评级、标签、评论、回复评论等社会性功能。使用这些社会性功能不限于其持证读者,只要经过注册,任何人都可以参与进去。
开发者John Blyberg (http://www.blyberg.net/) 也在其博客中骄傲地宣布,在忙活了一年之后,“ADL.org Goes Social”,他将新版OPAC称为SOPAC,即Social OPAC的简称。他视之为一个里程碑。
在博文中连文字带截图解释了不少新功能,如Top/Last 10 tags、Top/Last 10 Reviews等,John意犹未尽,又做了一个片长达16:14的录屏文件(88.5MB),更全面地解释其功能(示例数据,与实际OPAC检索结果不完全相同)。
从录屏中,可以看到升级前OPAC的功能(John颇为得意的Library Card Image),还可以看到更多的社会性功能,如报告abuse,让群众雪亮的眼睛帮助网管监管不当使用;再如选择评论对自己是否有帮助;还有无处不在的RSS——某本书/所有书/某位评论者的评论等,并且其RSS的URL构成也很明了。另外,My Account 除了借阅等个人帐户信息外,还有管理自己标签、评论等功能。

AADL用的是III的系统,最近III发布了称为“Encore”的软件包,也有SOPAC的一些社会性功能。AADL自然不需要再花钱去购买了。
采用III的图书馆如果也有对写代码感兴趣的,或许也不需要花钱就可以实现相同的功能,因为John把他的源代码打成了包,提供下载。在他的下载目录(http://www.blyberg.net/files/)中,还有更多内容。

参见:
AADL Library News: New Website Enhancemnts
http://www.aadl.org/node/3534

blybert.net: ADL.org Goes Social
http://www.blyberg.net/2007/01/21/aadlorg-goes-social/

Superpatron: Ann Arbor District Library adds patron tagging, rating of items
http://vielmetti.typepad.com/superpatron/2007/01/ann_arbor_distr.html
AADL的超级用户Edward Vielmetti为AADL的SOPAC鼓与呼!

Self-plagiarism is style: Blyberg Rocks!
http://www.daveyp.com/blog/index.php/archives/161/
英国Huddersfield大学的OPAC也同样引人注目,馆藏楼层位置示意图曾令我很是感慨,最近Dave Pattern在设想通过RFID,更精细地把架位标示出来。
Dave极为羡慕John Blyberg的管理层给他时间,可以弄出这么好的OPAC。同时很“惭愧”地宣布本周他们的OPAC也将发布用户评论功能,并且对自己说:“以后什么事都要在John之前宣布,否则别人会认为你是抄袭John的!”。Huddersfield大学的OPAC原就有评级功能,这次增加评论功能,据称原因之一是某些书才上架数小时、还未出借,就被加上了星级。
受John公开源代码的感召,Dave宣布如有人对他的代码感兴趣,他将很乐意与之共享。Huddersfield用的是Horizon,leon感兴趣吗?

Librarians Matter: Grow your own OPAC…but save those kittens.
http://librariansmatter.com/blog/2007/01/22/grow-your-own-opacbut-save-those-kittens/
Dave说自己要“赤手空拳杀死一窝可爱的小猫”(kill a box of cute kittens with my bare hands)才有功夫做成像John那样的项目。来自澳洲的Kathryn Greenhill说她来帮着把小猫养大,直到它们有John和Dave那样的编程技术。表达的是非技术人员对Geek们的支持。我也希望有这样的Geek可以支持。

《中文图书标识数据》(征求意见稿)观感

2007年1月21日

    耄耋少年博客新开,一连发表了“标识性编目”系列博文,使我对此问题有了一定的了解。规范出版行业需要提供的书目信息,不管从哪个方面来说都是很有必要的,即使这样做的目的是让图书馆的大部分编目员失业。

    正好有幸看到了中华人民共和国新闻出版行业标准《中文图书标识数据》(征求意见稿),觉得特别困惑的就是其主体“4  标识数据”采用CNMARC名称(字段、子字段)与DC元数据表达各著录项。该标准长达56页,说其繁复程度不亚于编目手册,或许也算不得夸张。而“附录3.  中文图书标识数据应用实例”,看上去就是一条常见的CNMARC记录,一点未体现出或者说让人感受到耄耋少年在其博文中所说的标识性编目的优点。总体而言,可以说有见到编目手册的“亲切感”。
   
    如果要对这个行业标准提一些观感,那么就是以下四点:

1、国际出版界电子形式产品信息的标准是ONIX,美国国会图书馆在编目中也使用ONIX数据,我国的相应标准是否应当考虑与其兼容?

2、本标准同时采用MARC与DC,不会意味着出版者必须同时提交两种格式的数据吧?应当是只需一种格式,另一种格式经过转换即可。或许可以认为本标准同时提供两种格式转换的标准(附录1和附录2分别为CNMARC到DC和DC到CNMARC的对应表)。

3、元数据之间的转换不可避免。无论是图书馆现在所用MARC还是未来用某种元数据(不排除DC),只要向出版行业或图书馆提供格式转换软件,数据即具有通用性。不必拘泥于某一元数据格式。

4、标准如果要有长期的指导性,更不应将其局限在某一种元数据格式中。标准只要确定需要哪些项目(如同ISBD的八大项若干小项),至于用什么方式表现这些项目,是用2709格式文本、EXCEL表格、XML格式文本或是其他什么形式,肯定会随技术的发展而改变。

参见耄耋少年的相关博文:
出版界书目工作有大的进展(http://blog.sina.com.cn/u/4bd4c87b010006mw)
“2005年发布了《图书流通信息交换规则》 和CIP相比,明确使用CNMARC格式为信息交换格式”
“自动编目软件已开发成功  自动编目是图书馆界做不了的”
“从源头进行书目数据制作可实现更大范围的信息资源共享  真正做到一家编目,大家使用”

中文图书标识数据(征求意见稿)系列(http://blog.sina.com.cn/u/4bd4c87b010006my)
不知道为什么发布的是7-14,内容为“附录1.  中文图书标识数据使用CNMARC字段、子字段一览表”,而不发布正文部分。寻些CNMARC字段、子字段估计把很多人都弄晕了。

关于《中文图书标识数据》标准 2007-01-12(http://blog.sina.com.cn/u/4bd4c87b010006nj)
“这是出版信息化建设的重要举措。主要为实现在图书出版过程中自动编目规定一个数据内容。这样,在图书付印前,就可以产生符合书目记录要求的数据。此事已酝酿好几年,标准推行后,其中基本部分将以二维码形式印在书上,完整内容将在图书付印前在网上发布。以满足出版社、书商、图书馆与读者对书目信息的需求。”“因为是在电子文本上进行标识,而不是另行描述,所以称之为标识性编目。”

关于ECIP与自动编目(http://blog.sina.com.cn/u/4bd4c87b010006p5)
新制定的《图书流通信息交换规则》及正在制定的《中文图书标识数据》等中均采用CNMARC。

标识性编目概念的提出(http://blog.sina.com.cn/u/4bd4c87b010006qh)
“自动编目处理的是图书付印前的电子文本,对其具有的属性数据进行标识。在制定相关标准时,可要求一种新出版的图书必须具有那些属性数据,使图书制作者有所遵循,在属性数据项目的设置上按规范要求处理。”
“标识性编目不可能代替描述性编目,两者将长期共存。一是正式出版的图书方可先行标识,而文献收藏机构总有部分非正式出版的图书。二是对过去出版的图书,还只能进行描述性编目。”

标识性编目的特点(http://blog.sina.com.cn/u/4bd4c87b010006r8)
“4.真正做到一家编目,大家使用。由于出版单位在图书发行前即提供了标准化的书目数据,发行商与图书馆可不用另行编目了。”

努力做好标识性编目的事情(http://blog.sina.com.cn/u/4bd4c87b010006s7)
“文献编目是社会性事业,出版、发行、图书馆、情报所等都是图书目录的编制者,必须改变“图书馆目录”的狭隘观念。”
“数字图书馆需要解决自动编目的问题,但图书馆界做不了。不能因为图书馆界做不了就不加以研究。”
“加强元数据研究,主要是突破繁琐哲学,在新的条件下,探索可满足检索要求的元数据设置。”[理论与实践怕总是有距离的]