MARC之母亨丽埃特·艾弗拉姆

    当机读目录(MARC)被介绍进来的时候,我们还处于集体主义时代。于是我知道MARC是由美国国会图书馆(LC)开发的,却不知道、也没有想过了解它的开发者是谁。直到今天,才后知后觉,原来是一位女士──亨丽埃特·艾弗拉姆(Henriette Avram, 1919.10.7-2006.4.22)。
(本图来自《纽约时报》)
    艾弗拉姆1950年代在美国国家安全局(NSA)工作,成为第一代编程员。后来在私企做系统分析与编程时,经由一个设计计算机科学图书馆的项目而了解图书馆,并被引介至LC卡片部(Card Division Service)。她还为OCLC之父Frederick Kilgour做过咨询,当时OCLC开始尝试计算机化书目信息。
    1965年艾弗拉姆得知LC有一个空缺,最终得以受雇为信息系统专家办公室的系统分析员。她的第一个任务是分析如何用计算机处理编目数据。凭借在国安局的训练,“在提出计算机解决方案前,彻底理解主题是首要条件”,她和二个图书馆员一起,仔细检查卡片记录中包含的信息,过目数百种不同语言的百万级条目;她也研究ALA规则(当时还没有AACR2)及LC排片规则,尽可能了解书目控制的方方面面。在彻底检查了书目记录的每个部分后,她将之翻译为一套字段,具有名称(标签,也就是3位数字)、处理方式(指示符)及部分(子字段)──MARC由此诞生

    有了MARC,得以把卡片目录转换为计算机目录,使千里之外联网查询目录成为可能。艾弗拉姆也因此成为图书馆界迈向信息科学的关键人物
    为使MARC得到广泛采用,艾弗拉姆致力于使之成为标准。先是与美国图书馆协会(ALA)和美国国家标准协会(ANSI)一起,使MARC在1971年成为国家标准;继之继续游说,在1973年MARC成为国际标准(ISO2709)。由于她的努力,“MARC现在成为全球图书馆自动化与书目交流的基础”。尽管她从未打算做一名图书馆员,却成了“图书馆自动化和书目控制方面的杰出人物”。
    艾弗拉姆还是关联系统项目(Linked Systems Project)的最初规划者之一,孜孜不倦地推行以国际标准,连接存储于离散计算机系统的数据库的理念──不知道这种概念现在叫什么,是否还存活?

    艾弗拉姆在1967年成为LC的信息系统副协调员,继续领导MARC试验项目(MARC Pilot Project)直至1968年6月结束。1969年3月起领导MARC发行部,并开始回溯转换试验项目(RECON Pilot Project)──MARC的回溯转换工作至今仍未完成,是她职业生涯中“唯一失望的经验”。尽管如此,凭借其工作热情、外交手腕及领导能力,她在LC逐渐高升,至1983年成为副馆长,直到1992年退休。
   
    艾弗拉姆也是国际图联(IFLA)的积极参与者。她参加了大名鼎鼎的1969年国际编目专家会议,成为开发专著国际标准书目著录ISBD(M)的一员。1970年代,她还是ILFA内容标识符工作组(IFLA Working Group on Content Designators)主席,采用ISBD开发MARC格式的国际版UNIMARC──是她的外交手腕让她兼容并包,没有主张用统一的MARC格式,还是她觉得随着计算机技术的发展,LC的MARC有点落伍了?

    自1971年到退休次年(1993年),她获得了众多奖项和荣誉,1986年台湾还给她授了奖(Appreciation Award from the National Central Library of Taipei, Taiwan)。除了图书馆界的奖项,她还是1974年联邦妇女奖获得者(Federal Women’s Award)。
    按照美国图书馆界惯例,只有拥有图书馆学位的人才是librarian,其他专业人员只能是准图书馆员。作为一名计算机编程专家,当1971年ALA授予她第一个奖项“玛格利特·曼分类编目奖”时,她的获奖感言是:“从一开始……你们就欢迎并支持我。今天你们进了一步──你们接纳了我。”她后来对此的解释是,“在那一刻及其后,我视自己为图书馆员”。很自豪的口吻。
    她的语录:“我相信互联网是伟大的技术成就。但是,在组织信息,使我们能够定位、选择并区分严肃研究的书目项方面,互联网还有很长的路要走。”是的,但互联网走得比图书馆快。
    她的另一条语录:“在我看来,现在比以往更需要图书馆和图书馆员……在开发MARC过程中,我们需要二个天才,即计算机专家和图书馆专家,没有一个天才可以独自成功……图书馆员必须成为计算机学者,这样才能理解应用的技术及其与专业的关系。”可以视为一位计算机专家对图书馆员的期望吧。

    艾弗拉姆2006年4月22日逝世,《华盛顿邮报》纪念文章的标题是“改革图书馆”(Henriette D. Avram; Transformed Libraries, April 28, 2006),《纽约时报》纪念文章的题目是“现代化图书馆者”(Henriette D. Avram, Modernizer of Libraries, Dies at 86, May 3, 2006)。早在四十多年前,图书馆就是由计算机专家来改革,并使之现代化的。不知道当年想到要雇佣计算机专家的,是什么样的Librarian?
   
    一直说自己是个没有历史感的人,此事又是一个例证。那年自己已经写博一年加半载,竟然不知道这位MARC之母辞世的消息,真有点不可思议。
   
PS:基本信息编译自维基百科:Henriette Avram(文中含本人观点,请看官自行辨别)

从Google图书搜索元数据错误说到数字化中元数据创建问题

    Nalsi本月开始把译文发到译言上,甚至没有同时发在自己博客Islander的西文编目笔记。译文大多是图书馆界的热点,“Google能使用OCLC的数据么?能,但是……”就是其中之一。原文”So, Can Google Use OCLC Records? Yes, But: Questions remain about the impact of WorldCat on Google’s metadata”发表在Library Journal (9/10/2009, 仅网站?)。
   
对GBS元数据的质疑始于加州大学伯克利分校信息学院的Geoffrey Nunberg,他在8月28日举行的Google Book
Settlement Conference上,列举了GBS中的元数据问题(Google Books: The Metadata Mess,PDF),诸如年份混乱、分类错误,而Google方面还不急于改进。他更指出GBS用只有3千主题的BISAC主题取代有20万主题的LCSH,数据并非来自图书馆,只适合书店、不适合学术使用。
作者另外发表了博文“Google Books: A Metadata Train Wreck” (August 29, 2009),其后又在The Chronicle Review上发表”Google’s Book Search: A Disaster for Scholars” (August 31, 2009),进一步阐述其观点。
    GBS的Jon Orwant在上述博文下长篇留言,指出元数据并非OCR而来。如前述译文,GBS的元数据来自不同机构,包括WorldCat及参与GBS的图书馆,Google员工所做的基本上只是在不同来源的元数据间做取舍。
    其实大家都知道,图书馆的元数据本身存在错误。分面OPAC出现后已将这些错误显性化,拥有大量图书的GBS或许更放大了这些错误,Thomas Claburn在Information Week上很夸张地说”Google Books Metadata Includes Millions Of Errors“(Sep 3, 2009)。
    Stephen’s Lighthouse在博文”The Google Books Metadata Debate” (September 8, 2009)中提供了很多讨论链接。最后举了Typo of the day for librarians这个专门讨论书目记录中各种拼写错误的博客为例,说明:Nobody’s perfect。

    Cataloging Futures的博主Christine Schwartz一直关注这场论讨,她则从中看到了图书馆面临的相同问题(Google’s metadata questions – they’re our questions also):

 · 元数据取自哪里?
 · 在数据化流程的哪个点抓取/创建元数据?

 · 如果外包元数据创建,是否自己做、如何做质量控制,或者由外包公司决定?

 · 元数据抓取/创建是一次性的过程,还是反复的过程?

 · 谁(或在自动抽取时,什么)创建元数据?

 · 在自动抽取过程后,是否做人工审核?

 · 在元数据创建中用户的职责是什么?

 · 如果有多个来源可选,什么是最佳来源?

 · 如果有多个记录可选,什么是最佳记录?能否自动选择?


另参见:
Coyle’s InFormation
GBS and Bad Metadata (September 07, 2009)
Google Books Metadata and Library Functions (September 15, 2009)

Cataloging Futures
Metadata problems at Google Books (September 03, 2009)
Google responses to metadata “mess” (September 08, 2009)
Google’s metadata questions – they’re our questions also (September 09, 2009)

社科院联合目录全MARC数据免费下载及dp2catalog查询软件

    《数字图书馆论坛》2009年第7期末整版广告:全国社会科学院联合编目中心(http://ssucs.org)提供MARC数据免费下载。试了一下,是全MARC数据的Z39.50下载。记得以前社科院西文也用的CNMARC,这次试查结果看,目前也用MARC21。
    在国内,提供Z39.50匿名访问的书目数据库已属罕见,带分类主题的全MARC数据更是凤毛麟角,还要在杂志上做广告?显然是系统开发者数字平台(北京)软件公司(http://www.dp2003.com)的广告了,二位开发者是江汇泉和谢涛。该公司还提供免费的Z39.50前端软件,对此等好事,很乐意在此推广。
[update 2010-06-02: linquanzhi提示,可能由于软件更换,此服务器已停止。]
下载方式:
通过Z39.50协议,提供100多万种MARC数据下载

Z39.50服务器特征:
支持Unicode字符集
支持UNIMARC/USMARC/DC元数据等多种数据格式
支持Z39.50、Web Service等多种协议

Z39.50服务器参数:
服务器地址: ssucs.org
端口号:210
字符集:UTF-8
数据库:all, cnmarc_books, cnmarc_series, usmarc_books

免费的Z39.50前端:数字平台公司出品的dp2catalog
下载地址:http://www.dp2003.com/dp2catalog/publish.htm

   
很多年前在网上找到还是丹诚公司的免费Z39.50前端软件Ztrans,一直用到现在,很顺手不想换。一开始不会用,还发电邮向谢涛先生请教过。三年前,江汇泉先生曾向我推荐dp2catalog,仍然是免费的,当时家中电脑还是Win98的,安装不了,
正好又换了工作方向,就搁下了。去年江先生曾发给我dp2catalog使用手册,说明支持MODS、MARCXML等XML格式的元数据,说可以用美国
国会图书馆目录检索试验,只是自己近年离编目越来越远,没有花时间钻研。
    今天安装了dp2catalog,在线安装速度还是很快的(安装网页说明文字竟然E文)。因为用惯Ztrans,所以很适应dp2catalog,不过仍没有试验XML格式的。
    存在的问题是,社科院服务器的地址竟然错误,用的是旧IP吧,需要根据上述参数更改。另外缺省配置了很多Z39.50服务器,遗憾的是由于前述国内现状,检索有结果的很少。
    由于支持几十种不同的字符集,新增服务器信息时,一定要提供字符集──很多时候使用者是不知道的,设置时就很困惑了,不像Ztrans那么傻瓜。最好提供一个最常见的字符集为缺省设置,如果没有检索结果或检索结果为乱码,自然会想到是字符集问题,此时再更改不迟。