WorldCat书目记录2009统计分析

    OCLC首席科学家Thomas Hickey在博客上发布了2009年10月1日的WorldCat书目记录统计(Bibliographic Statistics 2009,无轻功免点),2007年3月他也做过同样的统计。
    在这二年半中,WorldCat书目记录从0.83亿条飞升到近1.46亿条(不包括worldcat.org所含文摘索引数据库中的记录),增加了80%。如此发展,当然不是靠人一条条做进去的。近年WorldCat批量加入了很多国家图书馆
(包括中国国家图书馆)与大型书目库的记录,今天还看到”Credo Reference is adding MARC records to WorldCat“,一加就是300多万条,当然不全部是新增,其中一些WorldCat中已有的,只是在记录中加一个可检索的来源标记。
    与之相比,馆藏从11.2亿增长至14.7亿,3.5亿也是一个惊人的数字。

    特别有意思的另两组数字:MARC平均记录长度从803字节下降到785字节,每记录字段数从15.4个下降到14.9个。恐怕大多数人看到这两组对比数字,都会想到这体现了书目的简化趋势。或许Hickey当初也是这么想的,但他还提供了另一组数字:不同的MARC子字段数从1670上升为3278,几乎番翻。Hickey认为,虽然增加了6300万条记录,也不至于会有这个结果。想来原因正是很多非美国编目记录的加入,或许原来所用MARC子字段与MARC21不尽相同,或许原来用UNIMARC家族的,转换为MARC21后对应到非常用的MARC21子字段。
    在关于MARC的争论中,曾经有一点是MARC有那么多字段、子字段没什么人用。WorldCat的这个统计或许说明,如果放大到全球,那么使用的子字段或许更多些。放着不用或没有用,总强过要用而无可用──这是编目员在分类或编目时经常头痛的事。

    由于今日失却最后的上网护身符洋葱头(Tor),武功尽失。今做托钵僧,乞轻功高手下载WorldCat2009年统计数据表(Bibstats2009)后赠予本人。阿弥陀佛,善哉善哉!

MARC之母亨丽埃特·艾弗拉姆

    当机读目录(MARC)被介绍进来的时候,我们还处于集体主义时代。于是我知道MARC是由美国国会图书馆(LC)开发的,却不知道、也没有想过了解它的开发者是谁。直到今天,才后知后觉,原来是一位女士──亨丽埃特·艾弗拉姆(Henriette Avram, 1919.10.7-2006.4.22)。
(本图来自《纽约时报》)
    艾弗拉姆1950年代在美国国家安全局(NSA)工作,成为第一代编程员。后来在私企做系统分析与编程时,经由一个设计计算机科学图书馆的项目而了解图书馆,并被引介至LC卡片部(Card Division Service)。她还为OCLC之父Frederick Kilgour做过咨询,当时OCLC开始尝试计算机化书目信息。
    1965年艾弗拉姆得知LC有一个空缺,最终得以受雇为信息系统专家办公室的系统分析员。她的第一个任务是分析如何用计算机处理编目数据。凭借在国安局的训练,“在提出计算机解决方案前,彻底理解主题是首要条件”,她和二个图书馆员一起,仔细检查卡片记录中包含的信息,过目数百种不同语言的百万级条目;她也研究ALA规则(当时还没有AACR2)及LC排片规则,尽可能了解书目控制的方方面面。在彻底检查了书目记录的每个部分后,她将之翻译为一套字段,具有名称(标签,也就是3位数字)、处理方式(指示符)及部分(子字段)──MARC由此诞生

    有了MARC,得以把卡片目录转换为计算机目录,使千里之外联网查询目录成为可能。艾弗拉姆也因此成为图书馆界迈向信息科学的关键人物
    为使MARC得到广泛采用,艾弗拉姆致力于使之成为标准。先是与美国图书馆协会(ALA)和美国国家标准协会(ANSI)一起,使MARC在1971年成为国家标准;继之继续游说,在1973年MARC成为国际标准(ISO2709)。由于她的努力,“MARC现在成为全球图书馆自动化与书目交流的基础”。尽管她从未打算做一名图书馆员,却成了“图书馆自动化和书目控制方面的杰出人物”。
    艾弗拉姆还是关联系统项目(Linked Systems Project)的最初规划者之一,孜孜不倦地推行以国际标准,连接存储于离散计算机系统的数据库的理念──不知道这种概念现在叫什么,是否还存活?

    艾弗拉姆在1967年成为LC的信息系统副协调员,继续领导MARC试验项目(MARC Pilot Project)直至1968年6月结束。1969年3月起领导MARC发行部,并开始回溯转换试验项目(RECON Pilot Project)──MARC的回溯转换工作至今仍未完成,是她职业生涯中“唯一失望的经验”。尽管如此,凭借其工作热情、外交手腕及领导能力,她在LC逐渐高升,至1983年成为副馆长,直到1992年退休。
   
    艾弗拉姆也是国际图联(IFLA)的积极参与者。她参加了大名鼎鼎的1969年国际编目专家会议,成为开发专著国际标准书目著录ISBD(M)的一员。1970年代,她还是ILFA内容标识符工作组(IFLA Working Group on Content Designators)主席,采用ISBD开发MARC格式的国际版UNIMARC──是她的外交手腕让她兼容并包,没有主张用统一的MARC格式,还是她觉得随着计算机技术的发展,LC的MARC有点落伍了?

    自1971年到退休次年(1993年),她获得了众多奖项和荣誉,1986年台湾还给她授了奖(Appreciation Award from the National Central Library of Taipei, Taiwan)。除了图书馆界的奖项,她还是1974年联邦妇女奖获得者(Federal Women’s Award)。
    按照美国图书馆界惯例,只有拥有图书馆学位的人才是librarian,其他专业人员只能是准图书馆员。作为一名计算机编程专家,当1971年ALA授予她第一个奖项“玛格利特·曼分类编目奖”时,她的获奖感言是:“从一开始……你们就欢迎并支持我。今天你们进了一步──你们接纳了我。”她后来对此的解释是,“在那一刻及其后,我视自己为图书馆员”。很自豪的口吻。
    她的语录:“我相信互联网是伟大的技术成就。但是,在组织信息,使我们能够定位、选择并区分严肃研究的书目项方面,互联网还有很长的路要走。”是的,但互联网走得比图书馆快。
    她的另一条语录:“在我看来,现在比以往更需要图书馆和图书馆员……在开发MARC过程中,我们需要二个天才,即计算机专家和图书馆专家,没有一个天才可以独自成功……图书馆员必须成为计算机学者,这样才能理解应用的技术及其与专业的关系。”可以视为一位计算机专家对图书馆员的期望吧。

    艾弗拉姆2006年4月22日逝世,《华盛顿邮报》纪念文章的标题是“改革图书馆”(Henriette D. Avram; Transformed Libraries, April 28, 2006),《纽约时报》纪念文章的题目是“现代化图书馆者”(Henriette D. Avram, Modernizer of Libraries, Dies at 86, May 3, 2006)。早在四十多年前,图书馆就是由计算机专家来改革,并使之现代化的。不知道当年想到要雇佣计算机专家的,是什么样的Librarian?
   
    一直说自己是个没有历史感的人,此事又是一个例证。那年自己已经写博一年加半载,竟然不知道这位MARC之母辞世的消息,真有点不可思议。
   
PS:基本信息编译自维基百科:Henriette Avram(文中含本人观点,请看官自行辨别)

虚拟国际规范档XML格式

    虚拟国际规范档(VIAF)已由美国国会图书馆、法国国家图书馆、德国国家图书馆和OCLC共同建设多年,网站近日更新,才发现参加国多了瑞典,据称还有多个国家要参与。目前有780万条记录,合并自920万记录,这些合并处理,主要由OCLC承担。
    目前页面有作品封面显示,看上去比较有亲和力。据OCLC首席科学家Thomas Hickey介绍,此次更新,是对SRU查询返回的XML数据,以XLS转换,可以显示为MARC 21格式和UNIMARC格式。据称在不久的将来,还会有linked data显示。

参见:
Outgoing:Changes to VIAF (April 03, 2009)
Lorcan Dempsey’s weblog:Virtual International Authority File (April 3, 2009)

附:虚拟国际规范档XML格式(以http://viaf.org/viaf/22146540为例)

<?xml version=”1.0″ ?>
<?xml-stylesheet type=”text/xsl” href=”/viaf/xsl/searchRetrieveResponse.xsl”?>
<ns2:VIAFCluster xmlns=”http://viaf.org/Domain/Cluster/terms#” xmlns:owl=”http://www.w3.org/2002/07/owl#” 
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:ns2=”http://viaf.org/Domain/Cluster/terms#”>

<! 规范数据来源,格式:来源馆代码|规范记录号 >
<ns2:sources>
  <ns2:source>DNB|119012871</ns2:source>
  <ns2:source>SELIBR|196381</ns2:source>
  <ns2:source>LC|n  50001905</ns2:source>
  <ns2:source>BNF|11917976</ns2:source>
</ns2:sources>

<! 记录长度,行数?>
<ns2:length>894</ns2:length>

<! 主标目,由各来源馆确定的共同主标目。此条正巧一致,否则如何确定?>
<ns2:mainHeadings>
  <ns2:data>
    <ns2:text>O’Brien, Flann, 1911-1966</ns2:text>
    <ns2:sources>
      <ns2:s>SELIBR</ns2:s>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

<! 来源馆的主标目,采用MARCXML格式;有到其他来源馆记录的链接>
  <ns2:mainHeadingEl>
    <ns2:datafield ind1=”1″ ind2=” ” tag=”100″>
      <ns2:subfield code=”a”>O’Brien, Flann</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
    <ns2:id>http://orlabs.oclc.org/viaf/DNB|119012871</ns2:id>
    <ns2:links>
      <ns2:link>
        <ns2:match type=”date”>
          <ns2:birth>1911</ns2:birth>
          <ns2:death>1966</ns2:death>
        </ns2:match>http://orlabs.oclc.org/viaf/BNF|11917976
      </ns2:link>

    <ns2:links>
  </ns2:mainHeadingEl>

<! 来源馆主标目:UMIMARC格式,只有法国国家图书馆采用,数据字段部分不同>
  <ns2:mainHeadingEl>
    <ns2:datafield ind1=” ” ind2=”|” tag=”200″>
      <ns2:subfield code=”7″>ba0yba0y</ns2:subfield>
      <ns2:subfield code=”8″>fre</ns2:subfield>
      <ns2:subfield code=”9″>0</ns2:subfield>
      <ns2:subfield code=”a”>O’Brien</ns2:subfield>
      <ns2:subfield code=”b”>Flann</ns2:subfield>
      <ns2:subfield code=”f”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
       <ns2:s>BNF</ns2:s>
    </ns2:sources>
    <ns2:id>http://orlabs.oclc.org/viaf/BNF|11917976</ns2:id>
    <ns2:links>

    </ns2:links>
  </ns2:mainHeadingEl>

</ns2:mainHeadings>

<! 固定长字段,二种MARC格式应该是不同的吧,如何体现?>
<ns2:fixed>
  <ns2:govtAgn>|</ns2:govtAgn>
  <ns2:authRef>a</ns2:authRef>
  <ns2:serUse>|</ns2:serUse>
  <ns2:rules>|</ns2:rules>
  <ns2:gender>u</ns2:gender>
  <ns2:encLevel>n</ns2:encLevel>
  <ns2:subjUse>a</ns2:subjUse>
  <ns2:catLang>|</ns2:catLang>
  <ns2:nameUse>a</ns2:nameUse>
  <ns2:roman>|</ns2:roman>
  <ns2:subType>|</ns2:subType>
  <ns2:source>|</ns2:source>
  <ns2:recStatus>n</ns2:recStatus>
  <ns2:nameDiff>a</ns2:nameDiff>
  <ns2:refStatus>|</ns2:refStatus>
  <ns2:dateEntered>19920923</ns2:dateEntered>
  <ns2:type>z</ns2:type>
  <ns2:authStatus>a</ns2:authStatus>
  <ns2:geoSubd>n</ns2:geoSubd>
</ns2:fixed>

<! 见参照,前一条是法国UNIMARC的,后一条是MARC21的,其实只有字段指示符不同>
<! 来源不同,即使同为MARC21,也做二条,即不重复sources>
<ns2:x400s>
  <ns2:x400>
    <ns2:datafield ind1=” ” ind2=”|” tag=”400″>
      <ns2:subfield code=”a”>Copaleen, Myles</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>BNF</ns2:s>
    </ns2:sources>
  </ns2:x400>

  <ns2:x400>
    <ns2:datafield ind1=”1″ ind2=” ” tag=”400″>
      <ns2:subfield code=”a”>Copaleen, Myles,</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
    </ns2:sources>
  </ns2:x400>

</ns2:x400s>

<! 参见参照>
<ns2:x500s>
  <ns2:x500>
    <ns2:datafield ind1=”0″ ind2=” ” tag=”500″>
      <ns2:subfield code=”a”>Myles na Gopaleen,</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>SELIBR</ns2:s>
    </ns2:sources>
  </ns2:x500>

</ns2:x500s>

<! 作者的作品一览及收藏馆,count指版本数?>
<ns2:titles>
  <ns2:data count=”25″>
    <ns2:text>at swim two birds</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:titles>

<! 作者作品出版社一览及收藏馆,count指版本数?>
<ns2:publishers>
  <ns2:data count=”35″>
    <ns2:text>suhrkamp</ns2:text>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  &

lt;/ns2:data>

</ns2:publishers>

<! 作者生卒年>
<ns2:birthDate>1911</ns2:birthDate>
<ns2:deathDate>1966</ns2:deathDate>

<! 以下不明>
<ns2:dates max=”200″ min=”193″>
  <ns2:date count=”3″ scaled=”1.58496250072″>193</ns2:date>
  <ns2:date count=”0″ scaled=”0.0″>194</ns2:date>
  <ns2:date count=”3″ scaled=”1.58496250072″>195</ns2:date>
  <ns2:date count=”21″ scaled=”4.39231742278″>196</ns2:date>
  <ns2:date count=”45″ scaled=”5.49185309633″>197</ns2:date>
  <ns2:date count=”44″ scaled=”5.45943161864″>198</ns2:date>
  <ns2:date count=”54″ scaled=”5.75488750216″>199</ns2:date>
  <ns2:date count=”35″ scaled=”5.12928301694″>200</ns2:date>
</ns2:dates>

<! 作品ISBN一览及条数,count指版本数?德国不同版本ISBN重复较常见>
<ns2:ISBNs unique=”118″>
  <ns2:data count=”9″>
    <ns2:text>3518374869</ns2:text>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:ISBNs>

<! 作品封面吧>
<ns2:covers>
  <ns2:data count=”1″>
    <ns2:text>1564783286</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
    </ns2:sources>
  </ns2:data>
</ns2:covers>

<! 应该是作品出版地,scaled不明>
<ns2:countries>
  <ns2:data count=”25″ scaled=”5″>
    <ns2:text>GB</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:countries>

<! 作者所用语言及国籍>
<ns2:languageOfEntity>eng</ns2:languageOfEntity>
<ns2:nationalityOfEntity>IE</ns2:nationalityOfEntity>

<! VIAF处理情况及时间>
<ns2:history>
  <ns2:ht recid=”BNF|11917976″ time=”2009-03-03 17:03:22″ type=”add”/>
  <ns2:ht recid=”DNB|119012871″ time=”2009-03-03 17:03:29″ type=”add”/>
  <ns2:ht recid=”LC|n  50001905″ time=”2009-03-03 17:03:29″ type=”add”/>
  <ns2:ht recid=”SELIBR|196381″ time=”2009-03-03 17:03:42″ type=”add”/>
</ns2:history>

<! VIAF号>
<ns2:viafID>22146540</ns2:viafID>
</ns2:VIAFCluster>