虚拟国际规范档XML格式

    虚拟国际规范档(VIAF)已由美国国会图书馆、法国国家图书馆、德国国家图书馆和OCLC共同建设多年,网站近日更新,才发现参加国多了瑞典,据称还有多个国家要参与。目前有780万条记录,合并自920万记录,这些合并处理,主要由OCLC承担。
    目前页面有作品封面显示,看上去比较有亲和力。据OCLC首席科学家Thomas Hickey介绍,此次更新,是对SRU查询返回的XML数据,以XLS转换,可以显示为MARC 21格式和UNIMARC格式。据称在不久的将来,还会有linked data显示。

参见:
Outgoing:Changes to VIAF (April 03, 2009)
Lorcan Dempsey’s weblog:Virtual International Authority File (April 3, 2009)

附:虚拟国际规范档XML格式(以http://viaf.org/viaf/22146540为例)

<?xml version=”1.0″ ?>
<?xml-stylesheet type=”text/xsl” href=”/viaf/xsl/searchRetrieveResponse.xsl”?>
<ns2:VIAFCluster xmlns=”http://viaf.org/Domain/Cluster/terms#” xmlns:owl=”http://www.w3.org/2002/07/owl#” 
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:ns2=”http://viaf.org/Domain/Cluster/terms#”>

<! 规范数据来源,格式:来源馆代码|规范记录号 >
<ns2:sources>
  <ns2:source>DNB|119012871</ns2:source>
  <ns2:source>SELIBR|196381</ns2:source>
  <ns2:source>LC|n  50001905</ns2:source>
  <ns2:source>BNF|11917976</ns2:source>
</ns2:sources>

<! 记录长度,行数?>
<ns2:length>894</ns2:length>

<! 主标目,由各来源馆确定的共同主标目。此条正巧一致,否则如何确定?>
<ns2:mainHeadings>
  <ns2:data>
    <ns2:text>O’Brien, Flann, 1911-1966</ns2:text>
    <ns2:sources>
      <ns2:s>SELIBR</ns2:s>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

<! 来源馆的主标目,采用MARCXML格式;有到其他来源馆记录的链接>
  <ns2:mainHeadingEl>
    <ns2:datafield ind1=”1″ ind2=” ” tag=”100″>
      <ns2:subfield code=”a”>O’Brien, Flann</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
    <ns2:id>http://orlabs.oclc.org/viaf/DNB|119012871</ns2:id>
    <ns2:links>
      <ns2:link>
        <ns2:match type=”date”>
          <ns2:birth>1911</ns2:birth>
          <ns2:death>1966</ns2:death>
        </ns2:match>http://orlabs.oclc.org/viaf/BNF|11917976
      </ns2:link>

    <ns2:links>
  </ns2:mainHeadingEl>

<! 来源馆主标目:UMIMARC格式,只有法国国家图书馆采用,数据字段部分不同>
  <ns2:mainHeadingEl>
    <ns2:datafield ind1=” ” ind2=”|” tag=”200″>
      <ns2:subfield code=”7″>ba0yba0y</ns2:subfield>
      <ns2:subfield code=”8″>fre</ns2:subfield>
      <ns2:subfield code=”9″>0</ns2:subfield>
      <ns2:subfield code=”a”>O’Brien</ns2:subfield>
      <ns2:subfield code=”b”>Flann</ns2:subfield>
      <ns2:subfield code=”f”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
       <ns2:s>BNF</ns2:s>
    </ns2:sources>
    <ns2:id>http://orlabs.oclc.org/viaf/BNF|11917976</ns2:id>
    <ns2:links>

    </ns2:links>
  </ns2:mainHeadingEl>

</ns2:mainHeadings>

<! 固定长字段,二种MARC格式应该是不同的吧,如何体现?>
<ns2:fixed>
  <ns2:govtAgn>|</ns2:govtAgn>
  <ns2:authRef>a</ns2:authRef>
  <ns2:serUse>|</ns2:serUse>
  <ns2:rules>|</ns2:rules>
  <ns2:gender>u</ns2:gender>
  <ns2:encLevel>n</ns2:encLevel>
  <ns2:subjUse>a</ns2:subjUse>
  <ns2:catLang>|</ns2:catLang>
  <ns2:nameUse>a</ns2:nameUse>
  <ns2:roman>|</ns2:roman>
  <ns2:subType>|</ns2:subType>
  <ns2:source>|</ns2:source>
  <ns2:recStatus>n</ns2:recStatus>
  <ns2:nameDiff>a</ns2:nameDiff>
  <ns2:refStatus>|</ns2:refStatus>
  <ns2:dateEntered>19920923</ns2:dateEntered>
  <ns2:type>z</ns2:type>
  <ns2:authStatus>a</ns2:authStatus>
  <ns2:geoSubd>n</ns2:geoSubd>
</ns2:fixed>

<! 见参照,前一条是法国UNIMARC的,后一条是MARC21的,其实只有字段指示符不同>
<! 来源不同,即使同为MARC21,也做二条,即不重复sources>
<ns2:x400s>
  <ns2:x400>
    <ns2:datafield ind1=” ” ind2=”|” tag=”400″>
      <ns2:subfield code=”a”>Copaleen, Myles</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>BNF</ns2:s>
    </ns2:sources>
  </ns2:x400>

  <ns2:x400>
    <ns2:datafield ind1=”1″ ind2=” ” tag=”400″>
      <ns2:subfield code=”a”>Copaleen, Myles,</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
    </ns2:sources>
  </ns2:x400>

</ns2:x400s>

<! 参见参照>
<ns2:x500s>
  <ns2:x500>
    <ns2:datafield ind1=”0″ ind2=” ” tag=”500″>
      <ns2:subfield code=”a”>Myles na Gopaleen,</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>SELIBR</ns2:s>
    </ns2:sources>
  </ns2:x500>

</ns2:x500s>

<! 作者的作品一览及收藏馆,count指版本数?>
<ns2:titles>
  <ns2:data count=”25″>
    <ns2:text>at swim two birds</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:titles>

<! 作者作品出版社一览及收藏馆,count指版本数?>
<ns2:publishers>
  <ns2:data count=”35″>
    <ns2:text>suhrkamp</ns2:text>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  &

lt;/ns2:data>

</ns2:publishers>

<! 作者生卒年>
<ns2:birthDate>1911</ns2:birthDate>
<ns2:deathDate>1966</ns2:deathDate>

<! 以下不明>
<ns2:dates max=”200″ min=”193″>
  <ns2:date count=”3″ scaled=”1.58496250072″>193</ns2:date>
  <ns2:date count=”0″ scaled=”0.0″>194</ns2:date>
  <ns2:date count=”3″ scaled=”1.58496250072″>195</ns2:date>
  <ns2:date count=”21″ scaled=”4.39231742278″>196</ns2:date>
  <ns2:date count=”45″ scaled=”5.49185309633″>197</ns2:date>
  <ns2:date count=”44″ scaled=”5.45943161864″>198</ns2:date>
  <ns2:date count=”54″ scaled=”5.75488750216″>199</ns2:date>
  <ns2:date count=”35″ scaled=”5.12928301694″>200</ns2:date>
</ns2:dates>

<! 作品ISBN一览及条数,count指版本数?德国不同版本ISBN重复较常见>
<ns2:ISBNs unique=”118″>
  <ns2:data count=”9″>
    <ns2:text>3518374869</ns2:text>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:ISBNs>

<! 作品封面吧>
<ns2:covers>
  <ns2:data count=”1″>
    <ns2:text>1564783286</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
    </ns2:sources>
  </ns2:data>
</ns2:covers>

<! 应该是作品出版地,scaled不明>
<ns2:countries>
  <ns2:data count=”25″ scaled=”5″>
    <ns2:text>GB</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:countries>

<! 作者所用语言及国籍>
<ns2:languageOfEntity>eng</ns2:languageOfEntity>
<ns2:nationalityOfEntity>IE</ns2:nationalityOfEntity>

<! VIAF处理情况及时间>
<ns2:history>
  <ns2:ht recid=”BNF|11917976″ time=”2009-03-03 17:03:22″ type=”add”/>
  <ns2:ht recid=”DNB|119012871″ time=”2009-03-03 17:03:29″ type=”add”/>
  <ns2:ht recid=”LC|n  50001905″ time=”2009-03-03 17:03:29″ type=”add”/>
  <ns2:ht recid=”SELIBR|196381″ time=”2009-03-03 17:03:42″ type=”add”/>
</ns2:history>

<! VIAF号>
<ns2:viafID>22146540</ns2:viafID>
</ns2:VIAFCluster>

读秀──MARC免费收集系统

    一个月前,OCLC公布了新的WorldCat记录的利用政策(Policy for Use and Transfer of WorldCat® Records),引起国外博客圈热烈讨论(OCLC Policy Change),反对声音激烈,认为OCLC赋予自己的权利过大。有意思的是,国内却完全是另一番风光,联合编目中心似乎并不在意保护自己的利益,面对厂商大规模收集MARC记录的明显意图,还没有向图书馆提出相关建议。

   
最近几个月,经常听到图书馆说买读秀,也已经有不少大馆购买了,还有整个省团购的。读秀是什么?我至今也不是很明白,因为没花时间去了解。但我知道,它有
一个重要功能:籍此免费获取图书馆的MARC记录──图书馆在每年付以十万为单位的银子订购读秀的同时,还要向读秀免费奉送自己所有馆藏的MARC数据。
花不菲代价买东西,不是商家附送什么优惠,反而要把自己那么多数据拱手相送,听上去匪夷所思,却不幸是事实。
   
当我第一次听说时,当然要问“为什么”?丫枝给我的答案是“要在读秀的网站加本馆的链接,直接链在OPAC中显示本馆是否有此书的纸本、电子“。后来知道,只是在读秀网站加本馆链接,读秀并不提供在本馆OPAC上显示读秀链接的方便。而要达到在读秀网站加本馆链接的结果,图书馆本来只需要提供极简单的几个信息就可以实现,即题名、作者、出版社、出版年(如果有ISBN当然更方便)。
   
这里不想推测读秀要图书馆提供MARC记录的真实意图。现在有不少图书馆人觉得编目是浪费时间,因为那些书目信息出版的时候已经全有了。其实编目员很多时间花在给分类号、主题词这些主题标引,以及做作者、团体的名称规范。虽然分类法、主题词表乃至规范库很不令人满意,但这些信息是对出版物不可或缺的内容揭示。新一代OPAC要实现分面展示,让读者在输入最初的检索词后,只需简单点击展示的链接,就可以完成随后的检索并得到需要的文献,这在很大程度上依赖于由编目员增加的信息,因为这些信息是进行书目数据挖掘的基础。真正有眼光的人是不会小视编目员增值的数据的。
   
除了信息价值,图书馆的MARC数据也是有经济价值的,它们是图书馆积累一二十年的数字化资产,怎能轻易送人?每家图书馆的MARC记录,小馆也会有数万
条,大馆甚至可达百万数量级。或许某些MARC数据来自书商的“免费”提供,但那是图书折扣的一部分;或许某些MARC数据来自联合目录,下载每条只需
0.10元,但即使只有10万条,也值一万元呢,更何况,那是联合目录对成员的优惠,事实远不只这个价。

   
据说读秀的书目已经不少于160万了,随着越来越多的图书馆购买读秀,这个数量还会增长,因为它在销售的同时,也在一举两得地收敛书目数据。在这一过程中,损失最大的无疑是那些联合编目中心。说到了影响他们生死存亡的阶段,或许有些言过其实,但形势确实很严峻。如CALIS联合编目中心,对详编记录支付每条2元的费用,这些年来,也该支付了数百万元;同时还制定了严格的质量标准并多方进行质量控制。现在,这些高质量的数据,不需分文,几乎转眼间大多已经或即将成为读秀的囊中之物,令人感觉不可思议。
    或许图书馆觉得自己没什么损失,那些MARC记录,放着也是放着,又不能卖钱。但是,数据是Web2.0时代最重要的财富。当读秀得到了所有的MARC数据,图书馆在与读秀的下一轮谈判中,将会处于什么样的地位?
    据说读秀现在还只要中文的,未来还会要外文的。读秀得到这些数据,可以做什么?至少现在,图书馆提供的MARC数据使读秀在极短时间内成了一个巨大的联合目录。接下来还能做什么,可以展开一下想象力……

   
应该说,图书馆从联合目录合法下载的MARC记录有使用权,但未必有所有权,可以随便送给厂商。国内知识产权不完善,现有的联合编目中心对图书馆没有那么大的约束力,但至少那些中心可以知会图书馆,请馆长注意保护MARC数据──如前所说,要达到在读秀网站加本馆链接的结果,只需要提供极简单的几个信息就可以实现,不需要提供完整的MARC记录。众所周知,2709格式的MARC记录是不可直接使用的,从使用角度,或许EXCEL表格的书目信息更方便处理。如果读秀一定要求MARC数据,而有的图书馆系统无法导出简编记录,或者不知道如何将导出的完整MARC记录转成简编记录,联合编目中心完全可以提供一个小软件,快速实现这样的转换。

Our Space:元数据的新世界

    OCLC总裁们近来喜欢用Our Space命名自己的PPT。上回总裁Jay Jordan在上图的报告用此名,后来得知还有其他同名版本。这回WorldCat和元数据服务副总裁Karen Calhoun在IFLA年会上的报告也用此名:OUR Space: the new world of metadata。这个our很暧昧,OCLC抑或图书馆界?

    当年还在康奈尔大学的Karen曾受LC委托,于2006年发布研究报告“改变目录性质并与其他发现工具集成”,引起轩然大波。在本PPT中,Karen举出LC在馆庆二百年之际召开的新千年书目控制会议后的行动计划LC Action Item 6.4:“支持改变目录性质的研究与开发,考虑与其他发现工具集成的框架”(p.3),可见当初也是师出有名的。
    图书馆目录被视为第一个自助服务的信息工具(p.2)。按“地心说”,图书馆界以为本地目录是太阳;而据“日心说”,本地目录不过是颗行星(p.5)[此图已在OCLC的PPT中出现过多次,托勒密的地心说不知为何成了亚里斯多德的]。联机目录只是最终用户信息环境中的一个节点(p.4)。
    引用两部名著,说明信息业对元数据的认识:Tim O’Reilly在“什么是Web2.0”中认为,“数据是下一个Intel Inside”;David Weinberger在《Everything Is Miscellaneous》中说,“数字世界……从不会遇到丁点它不喜欢的信息”(p.7)。
    三个实例:
· ebay用复杂的Web模板与索引支持用户提供的元数据(p.8);
· HousingMaps利用Google地图与craigslist做房屋租售,采用复混、重用、混搭的Web2.0元数据管理(p.9);
· 亚马逊联机阅读使用元数据+全文检索(p.10)。

    对于什么是“完整”记录,编目员与亚马逊显然有不同理解(p.11)。
    元数据的基本模式已经改变,除了图书馆元数据实践中的题名等等,还有其他属性:如何获取、版权、销量、流通量、禁书、获奖、引用、评论(出版者、读者)、作者信息、其他版本、技术元数据、标识号、相关作品、博客谈论、用户标签、衍生作品等等(p.12)[不就是亚马逊的元数据么]。
    要改变图书馆元数据的内容。模仿公元前后,分为Web前后(B.W.和A.W.),Web后,要松散耦合的元数据管理,在多个存储间重用及交换服务混合手工和自动创建、元数据抽取、转换、映射、摄入与传递服务(p.13)。

    馆藏已然改变(p.14-15),研究图书馆协会成员馆2004-2006在电子期刊上的支出逐年超过印刷专著,2006年电子期刊占资料费36.6%,专著占21.6% (p.16)。几个其他类型的实例:
· 机构库,如魁北克大学蒙特利尔校区的archipel (p.17);
· 学术门户,如开放存取的arXiv.org (p.18);
· 开放的科学研究,如巴西科技部的IBICT电子学位论文,也收录于WorldCat(p.19);
· 新数字馆藏,如欧洲数字图书馆、博物馆、档案馆Europeana(p.20);
· 图书馆特藏开始见天日(p.21-22),LC书目控制未来工作组报告On the Record提出“强化对珍稀及其他不可见特藏的访问”(p.23-24)。

    信息搜索已然改变(p.25),大学的研究、教学内容正在改变(p.26),学术交流形式改变(p.27),而今后的学生……(p.28)

    瑞典Lund大学调查,新学术图书馆用户的五大期望,总结下来就是远程、独立使用(p.29)。

    由此得出结论:元数据、馆藏、信息搜寻者均已改变。这对图书馆的元数据传统与实践意味着什么(p.30)?图书馆元数据面临的挑战:搜索引擎篡夺图书馆目录?Google图书篡夺图书馆目录?如果图书馆不改变,如何支持其馆藏的发现与传递?(p.31)

    共64页PPT,接下来基本上是OCLC广告时间。
    本博曾为OCLC做过不少广告,可参见,不再重复。

Via Metalogue: OUR Space: The New World of Metadata
PPT浏览/下载:OUR Space: the new world of metadata / Karen Calhoun. IFLA, 13 August 2008     

关于OCLC产品参见:
Our Space──OCLC总裁在上海图书馆的报告 (2008-6-16)
OCLC的新一代编目产品 (2008-06-23)
网络级编目/Web范围编目(Network Level/Web-Scale Cataloging) (2008-01-31)

关于Karen Calhoun参见:
最新研究报告:改变目录性质、与其他发现工具集成 (2006-4-11)
美国国会图书馆正在发生什么――要数字资源还是实体资源?(2006-07-24)
OCLC的新副总裁:Karen Calhoun (2007-03-27)