虚拟国际规范档XML格式

    虚拟国际规范档(VIAF)已由美国国会图书馆、法国国家图书馆、德国国家图书馆和OCLC共同建设多年,网站近日更新,才发现参加国多了瑞典,据称还有多个国家要参与。目前有780万条记录,合并自920万记录,这些合并处理,主要由OCLC承担。
    目前页面有作品封面显示,看上去比较有亲和力。据OCLC首席科学家Thomas Hickey介绍,此次更新,是对SRU查询返回的XML数据,以XLS转换,可以显示为MARC 21格式和UNIMARC格式。据称在不久的将来,还会有linked data显示。

参见:
Outgoing:Changes to VIAF (April 03, 2009)
Lorcan Dempsey’s weblog:Virtual International Authority File (April 3, 2009)

附:虚拟国际规范档XML格式(以http://viaf.org/viaf/22146540为例)

<?xml version=”1.0″ ?>
<?xml-stylesheet type=”text/xsl” href=”/viaf/xsl/searchRetrieveResponse.xsl”?>
<ns2:VIAFCluster xmlns=”http://viaf.org/Domain/Cluster/terms#” xmlns:owl=”http://www.w3.org/2002/07/owl#” 
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:ns2=”http://viaf.org/Domain/Cluster/terms#”>

<! 规范数据来源,格式:来源馆代码|规范记录号 >
<ns2:sources>
  <ns2:source>DNB|119012871</ns2:source>
  <ns2:source>SELIBR|196381</ns2:source>
  <ns2:source>LC|n  50001905</ns2:source>
  <ns2:source>BNF|11917976</ns2:source>
</ns2:sources>

<! 记录长度,行数?>
<ns2:length>894</ns2:length>

<! 主标目,由各来源馆确定的共同主标目。此条正巧一致,否则如何确定?>
<ns2:mainHeadings>
  <ns2:data>
    <ns2:text>O’Brien, Flann, 1911-1966</ns2:text>
    <ns2:sources>
      <ns2:s>SELIBR</ns2:s>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

<! 来源馆的主标目,采用MARCXML格式;有到其他来源馆记录的链接>
  <ns2:mainHeadingEl>
    <ns2:datafield ind1=”1″ ind2=” ” tag=”100″>
      <ns2:subfield code=”a”>O’Brien, Flann</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
    <ns2:id>http://orlabs.oclc.org/viaf/DNB|119012871</ns2:id>
    <ns2:links>
      <ns2:link>
        <ns2:match type=”date”>
          <ns2:birth>1911</ns2:birth>
          <ns2:death>1966</ns2:death>
        </ns2:match>http://orlabs.oclc.org/viaf/BNF|11917976
      </ns2:link>

    <ns2:links>
  </ns2:mainHeadingEl>

<! 来源馆主标目:UMIMARC格式,只有法国国家图书馆采用,数据字段部分不同>
  <ns2:mainHeadingEl>
    <ns2:datafield ind1=” ” ind2=”|” tag=”200″>
      <ns2:subfield code=”7″>ba0yba0y</ns2:subfield>
      <ns2:subfield code=”8″>fre</ns2:subfield>
      <ns2:subfield code=”9″>0</ns2:subfield>
      <ns2:subfield code=”a”>O’Brien</ns2:subfield>
      <ns2:subfield code=”b”>Flann</ns2:subfield>
      <ns2:subfield code=”f”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
       <ns2:s>BNF</ns2:s>
    </ns2:sources>
    <ns2:id>http://orlabs.oclc.org/viaf/BNF|11917976</ns2:id>
    <ns2:links>

    </ns2:links>
  </ns2:mainHeadingEl>

</ns2:mainHeadings>

<! 固定长字段,二种MARC格式应该是不同的吧,如何体现?>
<ns2:fixed>
  <ns2:govtAgn>|</ns2:govtAgn>
  <ns2:authRef>a</ns2:authRef>
  <ns2:serUse>|</ns2:serUse>
  <ns2:rules>|</ns2:rules>
  <ns2:gender>u</ns2:gender>
  <ns2:encLevel>n</ns2:encLevel>
  <ns2:subjUse>a</ns2:subjUse>
  <ns2:catLang>|</ns2:catLang>
  <ns2:nameUse>a</ns2:nameUse>
  <ns2:roman>|</ns2:roman>
  <ns2:subType>|</ns2:subType>
  <ns2:source>|</ns2:source>
  <ns2:recStatus>n</ns2:recStatus>
  <ns2:nameDiff>a</ns2:nameDiff>
  <ns2:refStatus>|</ns2:refStatus>
  <ns2:dateEntered>19920923</ns2:dateEntered>
  <ns2:type>z</ns2:type>
  <ns2:authStatus>a</ns2:authStatus>
  <ns2:geoSubd>n</ns2:geoSubd>
</ns2:fixed>

<! 见参照,前一条是法国UNIMARC的,后一条是MARC21的,其实只有字段指示符不同>
<! 来源不同,即使同为MARC21,也做二条,即不重复sources>
<ns2:x400s>
  <ns2:x400>
    <ns2:datafield ind1=” ” ind2=”|” tag=”400″>
      <ns2:subfield code=”a”>Copaleen, Myles</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>BNF</ns2:s>
    </ns2:sources>
  </ns2:x400>

  <ns2:x400>
    <ns2:datafield ind1=”1″ ind2=” ” tag=”400″>
      <ns2:subfield code=”a”>Copaleen, Myles,</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
    </ns2:sources>
  </ns2:x400>

</ns2:x400s>

<! 参见参照>
<ns2:x500s>
  <ns2:x500>
    <ns2:datafield ind1=”0″ ind2=” ” tag=”500″>
      <ns2:subfield code=”a”>Myles na Gopaleen,</ns2:subfield>
      <ns2:subfield code=”d”>1911-1966</ns2:subfield>
    </ns2:datafield>
    <ns2:sources>
      <ns2:s>SELIBR</ns2:s>
    </ns2:sources>
  </ns2:x500>

</ns2:x500s>

<! 作者的作品一览及收藏馆,count指版本数?>
<ns2:titles>
  <ns2:data count=”25″>
    <ns2:text>at swim two birds</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:titles>

<! 作者作品出版社一览及收藏馆,count指版本数?>
<ns2:publishers>
  <ns2:data count=”35″>
    <ns2:text>suhrkamp</ns2:text>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  &

lt;/ns2:data>

</ns2:publishers>

<! 作者生卒年>
<ns2:birthDate>1911</ns2:birthDate>
<ns2:deathDate>1966</ns2:deathDate>

<! 以下不明>
<ns2:dates max=”200″ min=”193″>
  <ns2:date count=”3″ scaled=”1.58496250072″>193</ns2:date>
  <ns2:date count=”0″ scaled=”0.0″>194</ns2:date>
  <ns2:date count=”3″ scaled=”1.58496250072″>195</ns2:date>
  <ns2:date count=”21″ scaled=”4.39231742278″>196</ns2:date>
  <ns2:date count=”45″ scaled=”5.49185309633″>197</ns2:date>
  <ns2:date count=”44″ scaled=”5.45943161864″>198</ns2:date>
  <ns2:date count=”54″ scaled=”5.75488750216″>199</ns2:date>
  <ns2:date count=”35″ scaled=”5.12928301694″>200</ns2:date>
</ns2:dates>

<! 作品ISBN一览及条数,count指版本数?德国不同版本ISBN重复较常见>
<ns2:ISBNs unique=”118″>
  <ns2:data count=”9″>
    <ns2:text>3518374869</ns2:text>
    <ns2:sources>
      <ns2:s>DNB</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:ISBNs>

<! 作品封面吧>
<ns2:covers>
  <ns2:data count=”1″>
    <ns2:text>1564783286</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
    </ns2:sources>
  </ns2:data>
</ns2:covers>

<! 应该是作品出版地,scaled不明>
<ns2:countries>
  <ns2:data count=”25″ scaled=”5″>
    <ns2:text>GB</ns2:text>
    <ns2:sources>
      <ns2:s>LC</ns2:s>
      <ns2:s>BNF</ns2:s>
    </ns2:sources>
  </ns2:data>

</ns2:countries>

<! 作者所用语言及国籍>
<ns2:languageOfEntity>eng</ns2:languageOfEntity>
<ns2:nationalityOfEntity>IE</ns2:nationalityOfEntity>

<! VIAF处理情况及时间>
<ns2:history>
  <ns2:ht recid=”BNF|11917976″ time=”2009-03-03 17:03:22″ type=”add”/>
  <ns2:ht recid=”DNB|119012871″ time=”2009-03-03 17:03:29″ type=”add”/>
  <ns2:ht recid=”LC|n  50001905″ time=”2009-03-03 17:03:29″ type=”add”/>
  <ns2:ht recid=”SELIBR|196381″ time=”2009-03-03 17:03:42″ type=”add”/>
</ns2:history>

<! VIAF号>
<ns2:viafID>22146540</ns2:viafID>
</ns2:VIAFCluster>

杜威分类号中的斜线“/”

    杜威十进分类法(DDC)中是没有斜线“/”的,但书目记录中的DDC类号有不少带斜线的。前一阵有位网友曾在本博留言,问“/”的含意;这几天CALIS联合目录咨询中,又有同仁问同样的问题。可见对此迷惑的不在少数。

    以前我也同样迷惑不解。2005年3月,不知为何下了决心,要弄明白此问题。在美国国会图书馆网站上找到了十进分类法部主管Dennis McGovern的邮箱,举338.6/42/091724为例发邮件询问。不久收到回复,称“/”(正式名称segmentation marks),有两种含意:
    一表示简版号的结束(Abridged ed.)
    一表示标准复分号的开始
我的例子中的两个/正好分别是这两个意思。

    今天王绍平老师介绍了OCLC网站上的“Segmentation Marks in Dewey Numbers”(DDC现归OCLC旗下),表明LC已经不再用“/”(也称prime marks或slash marks)表示标准复分号的开始了。
    经由网站链接的博客025.431: The Dewey blog的博文Sweet segment solution (August 04, 2005),得知此决定由2005年9月1日起实施。

    换言之,目前的杜威分类号中的斜线“/”只有一个含意:
    分隔简版号码与完整版号码
如338.6/42/091724,按现在的规则,就是338.6/42091724。

张甲讲座:未来图书馆和图书馆系统

    下午到上图听张甲老师(中文介绍)讲座“未来图书馆和图书馆系统”。[update 2009-3-23: PPT]
    到上图后发现会场不大,大概因为消息发得太迟,估计到会人不会太多──可惜了Keven令人眼花缭乱的广告。好在最终会场差不多满座,当然其中上图馆员不少,坐我边上的PLMM想来就是草长莺飞童鞋了(我很自闭,不敢跟她打招呼)。

    先讲未来的图书馆系统,介绍开放图书馆环境项目(OLE),项目致力于设计一个以服务为主的下一代图书馆系统,形成一个有兴趣帮助建立开源图书馆系统的社区。对于未来图书馆系统的组成部分,总结为以下9点:
1、统一资源的管理:不以馆藏为中心的资源管理,包括印刷品,订购的电子期刊、电子图书,以及未订购的外部资源。
2、以服务为主的图书馆系统设计:不以馆员工作流程为中心的系统设计。在别人的平台上、用别人的软件、使用外部的资源、提供图书馆读者的服务(云计算)。
3、利用学校资金管理系统来实现图书馆采购功能。
4、多元化的元数据控制:非MARC为中心的。根据不同类型内容,采用不同的元数据标准。
5、全球性的书目数据制作共享:一书只需制作一次记录。广泛使用标示符号(ISBN、ISSN、OCLC控制号、DOI等),链接馆藏信息。
6、物业性的流通管理:实时流通状态及可选择的馆藏显示、图书快递系统。
7、地区性的藏书仓储建设:印刷型图书的仓储。
8、可分散独立使用的系统功能:在读者需要的时间和场所提供图书馆服务。可分别嵌入用户应用系统(API),与教学软件(courseware)、科研软件(e-scholarship)、读者的社会网络集成。
9、身份认证管理:本地或到访单位的使用控制。

   
接下来讲未来的图书馆。互联网发展对图书馆前景的影响──从互联网的演变(目前为第三阶段Phase
three),讲到多元化的数据资源与利用(80%以上服务于读者的资源来自网络),再讲到社会网络和互联网新生代。后面是有关图书馆的预测、对图书馆员的挑战、可能的解决方案,在前面部分多少已经涉及。
    自己对实例尤其感兴趣。其间的一个实例,介绍安娜堡地区图书馆(AADL)开发的GoldDiggr,一个帮助用户买收藏品的网络服务,先利用博物馆数据源(hoard.it
XML Feed)找到博物馆图片,通过Yahoo抽词API提供相关检索词由用户选择,再以此通过eBay
API到eBay上搜索相应物品及卖家。组装这样一个平台,使用的是免费的工具,开发成本就是2个IT人员、3次30分钟的会议、3个月中共计2天时间。不过,这与图书馆有什么关系吗?答案是:有用户需求。──或许以后图书馆就不再是图书馆了?
    关于纽约大都会博物馆Flickr的故事也是第一次听到:该馆照片上网后若干网友对某些图片的评论,显示其专业程度远超馆内专家。(在Flickr的The Commons上没有找到该馆)

     相信报告中很多观点是共同认可的,但也有一些国内的想法截然不同。有些是由于张甲老师对国内现状了解不足,如国内的SNS、如GFW相关,而更多的则是由于国内外的认知差距。
    如张甲老师谈到才开过的第二届数字图书馆与开放源码软件学术研讨会,一谈到DSpace开发就兴奋,还有很多谈论如何把网上资源下载到自己的服务器上,而本报告中则多次提到用别人的平台、别人的软件、使用外部的资源、提供专业的服务(介绍了一个代码网站:www.hotscripts.com)。
   
特别值得回味的是“一个图书馆贡献的越多,得到的也越多”──此点在国内断难得到认同。张甲提到北大拓片的例子,就极有代表性:如果把我们的特藏共享了,
那我们不就没有了(大意)。要知道这是中国最前端的大学图书馆!所以我们可以在网上看到很多国外图书馆的特藏,却很难看到国内的。
    其实上面两点有时是统一的。闭门二次开发DSpace这样的开源软件就不提了,单就想着把网上资源弄到自己的服务器上,就足以让大家害怕开放自己的资源了。

   
另外,张甲老师也是唱衰MARC的,并且之前讲到一事,可做例证:经济不景气,美国著名的私立学校布朗大学图书馆裁员7名──四位IT、三位编目员。前一
阵曾听说上海某跨国公司的IT部门裁员20%,现在图书馆的IT也被裁?后来回答提问时的解释:被裁的是服务器管理方面的,因为IT可以外包之故。那么编目员呢?没人提相关问题,或许是不言自明?

    报告总结的两个两句话值得回味:
网络即计算机 Network is a computer.
互联网变成了场地 Internet is a place

有远见无行动=白日做梦 Vision without action is day dream.
有行动无远见=如同噩梦 Action without vision is nightmare.

    白日梦总比噩梦好。那么,我们还是再看看,别急着行动? 😀

关于OLE (Open Library Environment) Project
开放图书馆环境致力于替代目前图书馆集成系统(ILS)的模式,目标是向开源图书馆系统的开发提供设计文件,指导未来图书馆系统的实施,影响目前ILS厂商的产品。

关于网络发展的三个阶段,PPT中引用Michael Nelson的图──灯泡、狗儿也上网,可见报道其在AAAS 2009
session的报告“The Grid, the Cloud, Sensor Nets, and the Future of
Computing”:
Opinion – Will there be a cloud of clouds?
那儿很正式地说图片引用征得Michael Nelson的允许,就不好意思贴在此了[update:还是做一个链接吧]

[update 2009-3-17] 张甲老师提供的关于视频数量剧增的视频:What is the Exaflood?

淘金(GoldDiggr相关:
博物馆数据源:hoard.it Prototype: Museum Data Feed
雅虎抽词API:Yahoo Term Extraction API
eBay API

[update 2009-3-23] 相关博文:
图情一线天:future library 学术讲座 (2009-03-16)
雨禅:
未来还有图书馆系统吗? (2009-03-17)
那是一件多么波澜壮阔的事情(2009-03-19)
读张甲博士的皮皮提有感(2009-03-20)
云海之上II:思考着的图书馆站在希望的田野上—未来图书馆和图书馆系统(2009-03-20)