2.0时代究竟是让MARC安乐死还是让MARC继续活?

    “2.0时代究竟是让MARC安乐死还是让MARC继续活?”这是刚刚开过的Web2.0/Lib2.0第三次研讨会上,“技术酒徒PK人文烟鬼”的话题之一。其实“MARC安乐死”在第二次会议上就曾列为话题,但最终未加讨论。
    海峡对岸的Debra对此议题颇为关注,在预告此次会议的博文中,专门列出了十来篇前二年讨论此话题的博文。会前看到Debra博文,依链接重温了相关文章,算做会前功课。看完确信PK的二位对手──技术酒徒Keven和人文烟鬼竹帛斋主对此议题根本无须PK,因为事实上他们的观点是完全一致的,都不想让MARC好好活。
    会上的PK规则是先陈述话题的一方为正方,另一方必须是反方。当Keven重申他关于让MARC安乐死的一贯立场后,斋主就迫不及待地表达他想要MARC速死的立场,引得Keven缴械投降──印证我的看法不虚。Keven知道实际上是无法让MARC速死的,才退而求其安乐死──其实医学上的安乐死,虽然名称看着温柔,相对于自然死亡而言正是一种“速死”。
    当明确只能在“安乐死”和“继续活”中择一后,作为反方的斋主观点马上来了个180度大转变,陈述一通必须让MARC继续活的陈芝麻烂谷子的理由。

    《列子·说符》中的故事:“人有亡斧者,意其邻之子。视其行步,窃斧也;颜色,窃斧也;言语,窃斧也;运作态度,无为而不窃斧也。”我就是那个亡斧者,看那些新出现的元数据,怎么看都是偷了元数据的老祖宗──咱家的MARC。最典型的就是DC──Keven称之为MARC的阴魂──元素相当于字段(栏位),限定词相当于子字段,等等。如果MARC死去,有什么元数据可以代替吗?DC语法不断地修修补补,显示其即使对文献描述也不尽适应。ONIX?比MARC更复杂呢。
    其实对于文献描述,需要质疑的不仅仅是MARC。大部分人只看到用MARC做成的书目记录,把MARC当成了文献描述存在问题的症结。雨僧在“图书馆2.0和MARC之安乐死”中提到了问题的两个方面:语法孤立性(2709)和语义模糊性(AACRII),可惜对后者只列了个标题,没有展开。AACRII将发展为RDA,可视为文献编目在互联网时代的一种自救,结局如何尚不可知。
    如果就事论事,只谈MARC的未来,就是我在会上表达的意思,MARC还会继续活下去,但是要变──(内容)简化,(交换格式)XML化。

    很多对MARC不适应网络时代的争议,都集中在其2709格式。但2709格式不过是一种交换格式,XML化正是现阶段适应Web的一种必然趋势。美国国会图书馆(LC)早些年即已建立了基于MARC21格式的XML化交换格式MARCXML,并有了一些相当不错的应用,现在很多新型OPAC也基于此。而适应所有MARC格式的XML交换格式MarcXchange,早在2005年即已走上成为国际标准ISO 25577之路。原来由丹麦图书馆机构承担联系的ISO 25577,自从2007年3月进入成为正式标准的最后阶段(40.99状态),似乎主要由于嵌套字段方面的问题,止步不前。但2007年11月,LC成为该标准的维护机构,让人看到了本标准的良好前景。
    我的观点是:MARC还要继续活。我的结论是:MARC还会活得比较好。
 
参见:
秋声Blog:大陆Web2.0/Lib2.0研讨会及MARC议题
ISO 25577: 2709格式的XML兄弟即将问世 (2005-09-05)
MARC、MARC,为什么不死?(2006-09-09)

关于ISO 25577,参见:
ISO/DIS 25577: Information and documentation — MarcXchange
Status: Under development      Stage: 40.99 (2007-03-30)

The Library of Congress: ISO 25577 Maintenance Agency
http://www.loc.gov/standards/iso25577/

Danish Library Agency: MarcXchange
http://www.bs.dk/marcxchange/

关于Web2.0/Lib2.0第三次研讨会,参见:
“Web/Lib2.0”第三次研讨会参会侧记(上午)
“Web/Lib2.0”第三次研讨会参会侧记(下午)

分面OPAC使用统计及其他

    分面OPAC的哪类分面最受欢迎?这是BiblioCommons的产品经理Steve Toub在NGC4LIB邮件组提出的问题。他提供了看到的两家OPAC数据,还希望得到更多数据。看两个链接,很有收获。

[1] 美国北卡罗莱纳州立大学:A New Kind of Catalog / Charley Pennell(NCSU首席元数据编目员)
(slides 53-55)
    一个关于OPAC的非常好的PPT,综合分析介绍了NCSU新版OPAC出现前后的环境,内容丰富。NCSU新版OPAC在2006年1月发布,曾轰动一时。本PPT还提供了很多NCSU新旧版OPAC的测试对比数据,分析也相当中肯。可用性测试在美国真的很普遍了?
slide 49: 可用性测试-任务困难度对比,四个等级:容易(43->59%),中等(12->12%),困难(22->7%),失败(23->22%)。觉得容易的比例增加、觉得困难的比例减少,应在意料之中,作者指出有意思的是觉得中等和失败的比例几乎未变
slide 50: 可用性测试-任务持续时间,测试10项成功完成的任务,其中仅有1项新版比旧版用时长。平均用时:1:34->1:00,还真节约了不少时间
slide 51: 使用统计-按字段,依次是关键词(缺省)、ISBN、题名、作者、主题、多字段。[缺省的关键词遥遥领先意料之中,ISBN居然多于题名、作者似乎有点不可思议]
slide 52: 新鲜劲儿过了?(Newness wearing off?) 2006/3-5及2006/7-2007/1二个时间段,搜索(51->67%),导航(21->8%),先搜索后导航(29->25%)。搜索比例明显上升[导航应该只是辅助]。
slide 53: 导航方向(2006/7-2007/1):主题-论题(26%),LCC (21%),载体(10%),馆藏地(105),主题-体裁(6%),作者(6%),主题-地域(4%),语种(3%),主题-时代(2%),可得性(2%) [LCC在NCSU新版目录中占据屏幕上部一整块显著位置。据slide 55,在用户界面最前面的是可得性]

[2] 澳大利亚塔斯马尼亚州图书馆(State Library of Tasmania)
All for naught – using existing bibliographic data to deliver modern search tools / Lloyd Sokvitne, Jan Lavelle, Carmel Denholm (图5)
    看上去很悲观的题名:“全部化为乌有:利用现有的书目数据提供现代化的检索工具”。文摘:“2006年,SLT着手开发一个分面目录以取代其传统OPAC。显然,提供哪些分面,与传统书目数据库数据的质量与可获得性密切相关。这些数据反映多年来内外编目政策的变化,SLT发现必须对数据做广泛的更正、修改、操作并创建一系列的数据,以提供所需的分面。本文详述这些过程的细节。”
    这是一篇详述用现有MARC数据制设计新型OPAC过程的会议论文,并有使用数据,附件1是分面与MARC的对照表,附件2是载体表,还有参考文献。本文对有意设计与使用新型OPAC的业界人士会很有参考意义(会议:VALA2008)。
使用统计部分:
p15图5:分面使用统计,依次是:载体(近40%,一枝独秀;以下列出的在10-5%之间)、论题、读者对象、小说/非小说、作者、体裁、馆藏地、丛编、可得性等。
p16图6:检索词类型,依次是作者(<40%)、题名(>35%)、主题(20-25%)、载体(约2%)、体裁(约2%)。
p16图7:反馈:在易用性、功能、设计三方面正面评价均高于负面评价。负面评价最高的是功能(>10%)──相当大的比例是要求提供更多功能

    或许因为二者一个是大学馆,一个是公共馆,读者类型差异,因而统计数据差别相当大。因为是孤例,也不知道是不是典型。或许这也就是Steve Toub想要获取更多数据的原因吧。
    对于新型OPAC设计来说,或许应当将检索途径、分面类型等的用户界面作为可定制的项目,以适应不同类型图书馆的需求。

关于NCSU新版OPAC,参见:OPAC改朝换代由此开始 (2006-01-16)

关于BiblioCommons,一家神秘的加拿大公司。网站只有一页,声称因公司太忙而无暇顾及,对产品也是语焉不详──似乎是在开发一个社会化的OPAC。网页下面是几个名人的评论及链接,Jon Udell (Infoworld, LibraryLookup作者),  Mike Cunningham (Ex Libris),  K.G. Schnieder (Free Range Librarian),对其产品演示评价极高。通过Google查到的,也是一片好评。
K.G. Schnieder的评论:“第一个真正社会化的联机目录。当你看到bibliocommons,你意识到象WorldCat Local和primo本质上是1.0技术,给OPAC加上标签解决不了问题。”

“记录在案”走入歧途──对书目控制未来工作组报告的回应

    美国国会图书馆的参考馆员Thomas Mann,又为LC专业协会(Professional Guild,代表1500名LC雇员)写了38页的长文“记录在案,然而走入歧途”("On the Record" but Off the Track),作为对书目控制未来工作组报告(以下简称WG报告)"On the Record"的回应。以前他也写过回应Calhoun报告的长文。
    起首列主要观点20点,长逾二页。往下满是口水(用了很多次“天真”(naive, naivete)),通篇LCSH,再往后……简直是气急败坏(p.31“臭名昭著的Calhoun报告”;p.36“WG的‘书目控制’视界仅限于远程用户的电脑屏幕”;p.36“想知道WG成员有没有使用研究图书馆的经验”),还好最后他“妥协”了,终于回归理性。如果考虑到事情的背景,关系到劳工利益,也就可以理解了──背景:LC管理层依据WG报告,将实施重组编目工作计划,重写编目岗位职责(Position Descriptions),减少对编目员主题特长的需求,而让编目员承担重未做过的更费时的采访职责(p.4,31,38)。

    几个有点意思的部分[方括号中为随想]:
· 学术需求与快速信息搜寻不同(p.4)
    [OCLC近些年的调查针对的的确只是普通大众]
    这里用了“盲人摸象”的典故[之后还多次出现]。学者需要找到所有相关资料,不仅仅是各重要部分,而且包括这些部分如何组成在一起,以及这些部分相互间如何关联。[说得有理,但如何达到恐怕见仁见智。LCSH固然有优于关键词的地方,但Mann在强调LCSH优点时常常只是雄辨,缺乏调查数据加以证明]

· 无缝访问=非控关键词跨库检索,导致漏检、误检(p.9)
    以“无缝”搜索为目标,因为“用户”说他们“想要”。随后打了一个比方,有人“想要”免费获取没有副作用的神药,而无需去医生处体检,也无需咨询药剂师。然后问:为什么医疗专业不给人们“想要”的?因为无知的人们说“想要”的,可能事实上无助于其最佳利益。[对图书馆专业的启示也就不言而喻了]
    跨库无缝搜索不是我们专业梦寐以求的“圣杯”(Holy Grail),因为能用的只是关键词。不同数据库的受控词汇含义不同。[梦想中的本体、语义网,通过对概念关系完整准确地揭示,应当能使跨库无缝搜索达到更好的检索效果。大概也太“天真”了。]

· Mann最怒不可遏的是要把LCSH分面,于是花整整10页(p.12-21),以“阿富汗”系列标目为例解说[长得没心思一页页往下看]
    [看LCSH列出的子标目,的确有助于研究者从各个侧面把握研究领域,或至少提示其全貌。可是OPAC发展三十余年,没有方便地向用户展示受控主题与分类法的体系,更少向用户显示Mann颇为骄傲的参照、范围说明。于是只有馆员是专家,遇到问题咨询馆员……]
    [Endeca的分面OPAC至少利用了LCSH,甚至可以用到Mann颇为在意的编目代码,却因“分面”受到责难(p.25),实在难以理解]

· LCSH编目结果与Web 2.0标签结果的直接比较(p.24)
    Mann以LibraryThing为例,让大家自己去看查“阿富汗”的结果。
    [这种比较不是很有意义。而用LibraryThing为例不是很厚道,实际上LT是很积极地使用MARC记录中的信息,包括LCSH的。要不然,Tim也不会以“元数据人”当选2008年度人物。Thing-ology不久前举了个例子Chick lit,说明LCSH也开始用原来作tag的词(来源不明的街头元数据),只可惜用得太晚,并预言会有更多的tag会收入LCSH。如果也做比较的话,因为LCSH引入此词晚,如以该标签查LC主题,肯定有不少漏检。]

· 1996、1997年LC馆长James Billington在国会作证,强调集中比去中心化好(p.26)
    [此一时也,彼一时也。现在仍为馆长的James Billington持何观点?副馆长Deanna B. Marcum力主去中心化,而LC也正沿此方向前行!]
    Mann以1997年数据“每年向全国图书馆系统提供编目服务约值2.68亿”,减掉2007年编目费用每年4400万,得出由LC承担主要编目责任,每年可以为全国纳税人减少超过2亿费用。

· 整个图书馆界面临的财政困难要求LC承担更多的责任(p.32)
    LC是唯一受到全国纳税人支持的机构,可免于受市场力量的影响。而市场力量已使其他馆无力承担更大的编目责任。[事实上当初LC停止维护SARS,乃至现在LC放弃做编目界老大,都受到美国图书馆界的广泛质疑,原因正在于对依赖LC记录的广大图书馆打击过大。在讨论WG报告时,对LC不承担原编后,如何分担原编费用,this is a problem]

· 维持LCSH和LCC优先于数字化特藏(p.28)
    特藏关注面过窄,而全世界的所有学术研究者都能从使用LCSH系统中获益。[听上去这么理直气壮的特色资源数字化,竟然给他这么一说显得不在理了。国内不少特色资源数字化也一样,真正需要的人常常只是小众;但在编目过的大量文献中,又有多少是未被使用过的呢?]
    既然有那么多公司热衷于大规模数字化馆藏,为什么纳税人要为数字化项目付钱呢?那些公司可不会为维护LCSH和LCC花钱。

· LC最新的策略规划(Strategic Plan 2008-2013)(PDF, 5.5 MB) 在描述基本业务与职责时,甚至避免提及“编目”一词,好象LC令人骄傲的过去在现在的管理者看来很是难堪(p.31) [update 2008-3-25]
    
[文中cataloging出现二次,确与当前的业务与职责无关。后一次只是提到编目部接受某些出版物,而前一次则正是提及“令人骄傲的过去”──1902年开始以低价向全国图书馆出售编目记录]

· “好”的真正敌人不是完美,而是马虎、不完全、不系统、杂乱、肤浅、以次充好(p.31)
    [某人说,好的真正敌人是完美──实在是让编目员的认真劲儿给弄怕了?]

· 在书目控制系统中需要用户教育(p.34)
    需要二种用户教育,一是班级指导,二是即时(point-of-use)指导。
    不仅需要把人们带到最佳资源,而且要把他们看上去吸引人实则浪费其时间的资源中引开。

· WG忽视的慎重解决方案(p.36)
    举LC前不久的Flickr项目,以及数字目次(D-TOC)即BEAT项目,提出把Web 2.0能力链接到OPAC记录是可以取悦所有人的解决方案。如此则不会“使孩子和洗澡水一起倒掉”,如Mann所担心的书目控制被迫就范于Web环境(on the Procrustean bed of Web environment)。[WebPAC不也是Web环境?]
    这里用了典故"the Procrustean bed":Prpcrustes为希腊神话中的开黑店强盗普罗克拉斯提斯,传说他劫人后使身高者睡短床,斩去身体伸出部分,使身矮者睡长床,强拉其身使与订齐。the Procrustean bed指强求一致的制度或政策等。

    看到最后,忽发奇想:作为参考咨询馆员的Mann或许对编目条例AACR2/RDA之类很不以为然呢。通篇都是主题标引,没有提一句著录,而WG报告中不少应该是涉及著录的。Mann在第8页引用了WG报告第10页的那段,正是我在“《书目控制未来报告》(草案)解读”中部分引用过的:“单一环境如图书馆目录中描述(著录)的一致性,与各种环境间进行连接的能力相比,正变得不那么重要:Amazon到WorldCat到Google到PubMed到Wikipedia,图书馆馆藏只是其中的一个节点。在今天的环境下,书目控制不能再被看作局限于图书馆目录。”(草案第7页)Mann引用后却避而不提著录,只是质疑其中跨环境无缝访问的观点,很可玩味。

 

via: Marcia Zeng

参见:
正方:Working Group on the Future of Bibliographic Control
On the Record: Report of The Library of Congress Working Group on the Future of Bibliographic Control (January 9, 2008) [PDF, 442 KB]

反方:Library of Congress Professional Guild: The Future of Cataloging
收集了相关文献,开篇就是2004年1月LC副馆长Deanna B. Marcum引发本次风潮的"The Future of Cataloging",以及Mann的若干文章。二例:
批判Calhoun报告的:"The Changing Nature of the Catalog and Its Integration with Other Discovery Tools. Final Report." March 17, 2006. Prepared for the Library of Congress by Karen Calhoun. A Critical Review / Thomas Mann (April 4, 2006) (25p)
上文:"On the Record" but Off the Track, A Review of the Report of The Library of Congress Working Group on The Future of Bibliographic Control, With a Further Examination of Library of Congress Cataloging Tendencies / by Thomas Mann (March 14, 2008)

《书目控制未来报告》(草案)解读 (2007-12-05)
书目控制未来工作组报告草案网络直播 (2007-11-18)
美国国会图书馆正在发生什么――要数字资源还是实体资源?(2006-07-24)
(介绍Thomas Mann的"What is Going on at the Library of Congress?" (June 19, 2006))

Thing-ology (LibraryThing’s ideas blog): Street-grade metadata of unknown origin and quality / Casey Durfee (March 12, 2008)
北美图书馆界2008年度人物(Movers & Shakers) (2008-03-17)

上文作为妥协方案举出的LC改进例子:
Bibiographic Enrichment Advisory Team (BEAT):dTOC
Flickr上的美国国会图书馆珍藏集 (2008-01-18)