乱花迷眼 – 第 65 页 – 编目精灵III

“澳大利亚国家图书馆2.0”之Picture Australia

澳大利亚国家图书馆(NLA)的Judith Pearce在前不久举行的一次会议上发表了题为“网站的用户协作”(User collaboration in websites)的文章，介绍NLA在Web 2.0方面的努力。Lorcan Dempsey经同事介绍看了此文，写博文称之为“澳大利亚国家图书馆2.0”(National Library of Australia 2.0)。
年初看到NLA用Flickr做“Picture Australia”时，一则遗憾没能赶上作为那篇图书馆2.0文章的强有力实例，二则特别佩服NLA的举措。堂堂国家图书馆，像个小公共图书馆那样，让网友帮着自己建数字图书馆，怎么着也觉得有点儿屈尊。

从Judith此文可以看到，除了“Picture Australia”，NLA还有“Australia Dancing”，也是一个用户协作的项目。目前NLA正计划第三个这样的项目——“People Australia”。

Picture Australia始于1998，原名ImageSearch，是一个联邦图片搜索服务，目前有44个参与单位提供的百万以上图片。数据库中以历史资料为主，但2004年的一项调查却发现，43%用户来此寻找当代图像。为增加当代图像的数量，并吸引新的用户，NLA开始了与Flickr合作的试验项目(The flickr Pilot Project)。正式发布日期被刻意安排到1月26日“澳大利亚日”(Australia Day) [在Flickr上该组建立日期更早些，最早的评论日期是1月4日]

选择Flickr的理由是：
有大批澳大利亚追随者 [用户]
鼓励使用元数据帮助发现 [内容]
有编程界面，便于映射到都柏林核心，向Picture Australia贡献记录 [元数据]

实现方法：用户上载自己的图像到Flickr，将其加入任何一个Picture Australia组中。图书馆每周收割一次元数据与小图标(thumbnail)，加入Picture Australia数据库。看大图像一般链接到Flickr，NLA也选择一些有意义的图片，联系创作者获取高精度图像加入数字档案。
共有两个组 [括号中是2006/10/10的相关数据]，分别是：
PictureAustralia: People, places and events [成员451人，图像10111张]
PictureAustralia: Australia Day [成员113人，图像213张]

原本Flickr项目是为了当代图像，却意外也带来了值得进一步挖掘的丰富的传统图像领域。由于受费用限制，以往Picture Australia 的政策是限制收录家族史资料，现在有Flickr作跳板，NLA就可以广邀大家上载这类作品。

同样由于Flickr，Picture Australia 也为更多人所知。近期对贡献者调查数据：39%以前未听说过Picture Australia，64%经由Flickr其及成员听说，69%前去看自己的图像。
另一项针对非贡献者的调查，看他们是否在Picture Australia中查到了更多当代图像。元数据质量是个大问题，因为贡献者自然不会用标准叙词表，而且常常没有为图像提供有充分描述性的题名，或者提供足够多的标签。管理员会监测图像，与贡献者e-mail联系建议适当的标签，以改善元数据质量。由此还形成了贡献者的社区，在讨论组中自我教育与管理。NLA将引导这些社区的发展，对提供内容、标签给予指导。[Web2.0的味道越来越浓了！]

    随着 Picture Australia 越来越庞大，找到需要的图像也越来越困难。它正寻找Web2.0的服务模式以简化访问，答案是所谓的“killer data”[独特的数据，杀手锏?]——它的传统图像，将传统图像与当代资料并置，坚持由成员单位出于保存目的选择图像，对永久保存部分由编目员继续做某种程度的加标签、加地理代码的方法。[编目员在Web2.0时代饭碗还是有啊！]
    NLA已在寻找通过评级(ranking)、聚类(cluster)、地理编码(geocoding)强化访问的途径。在图像服务中，要达到这一目的，依赖于元数据的质量与一致性。NLA开始考虑叙词表映射改善查全，并支持结果集的聚类，只是在图像没有充分、适当描述的情况下还是无法找到。这时用户增加的标签与评论或许就能揭示出先前未知的信息，比如位置、主题。[互补?]
    Picture Australia 的部分参与单位也在自己网站上提供自己的图像服务。如发电站博物馆(Powerhouse Museum)近来开始实验标签，而NLA则建立了工作组考虑加标注(annotation)的需求，包括标签tags、评论comments、附注notes、评级ratings与评论reviews，以支持评级ranking与聚类clustering，或者有趣、相关图像游览。

[原只想摘译，到后面差不多全译了。关于 Australia Dancing 与 People Australia 部分，看兴趣再写吧]

参见：
User collaboration in websites / Paper presented by Judith Pearce at Framing the Future, ARLIS/ANZ Conference, 21-23 September 2006.
http://www.nla.gov.au/nla/staffpaper/2006/jpearce1.html

Lorcan Dempsey’s weblog: National Library of Australia 2.0 （October 08, 2006）
http://orweblog.oclc.org/archives/001169.html

第二届OCLC软件竞赛结果

9月28日，OCLC宣布第二届软件竞赛结果，来自佐治亚州理工学院的Ross Singer获奖，他的项目是一个名为Umlaut的OpenURL链接解析器。竞赛结果公告称，Umlaut将读者引向全文的能力令评委印象深刻，并且比赛所要求的使用OCLC服务也做得相当好。

Umlaut的工作方式是：

当用户开始一个查询，Umlaut取其IP地址，查询OCLC解析器登录处(OCLC Resolver Registry)。如果该IP还有其它链接解析器，就把那些服务一并加入用户collection。
然后基于文档集中该用户的collection，包括增加相关的图书馆目录与链接解析器，目标是使所有可获取的信息能让用户触手可及，包括可访问的的公共图书馆、其它学校或其他图书馆。

分析书目信息(citation)
    如果查找项有标准的标识符(identifier)（目前基于用户群的需求用dois和pmids，但也偶用OCLC号、bibcodes和handles），就从来源中查找该标识(id authority)（crossref, pubmed等），并抓取书目中所有元数据。
    然后把元数据递交请求给SFX（也支持其它链接解析器）、本馆目录（输出至Zebra数据库）及本州联合目录（均由SRU检索）。
    如果有ISBN，使用xISBN获取所有版本并检索。
    在会议录的场合，Umlaut会做一系列的检索（因为取得的书目元数据常常质量不一，不总是明确表示是会议录，因此用一个关键词表[papers, transactions, spie, ieee 等]以确定是否会议录），然后用大致的书目OpenURL上下文集，在本馆OPAC中查找会议及卷册。

检索相关数据库
    如果查找项有ISSN或ISBN，会检索WorldCat.org，如果命中，会显示一个查看链接。
    然后检索亚马逊（如果有ISBN）、Google和雅虎（使用其API）。
    从亚马逊获取所有元数据（介绍、类似图书等）。
    对Google和雅虎，它会在结果中检查“相关网站”白名单（ROAR, arXiv, Citeseer等）或者黑名单（Amazon.*及其它联机书商），然后检查每个链接，看是否出现在我们的代理服务器（EZProxy）。
    一些URL有特别的handlers (arXiv, Citeseer, Citebase, CiteUlike等)，Umlaut作不同处理。arXiv, Citeseer和Citebase进入“全文库”(Fulltext holdings bin)，CiteUlike作为介绍、标签与目次。其它入“最接近的Web结果”(Closest Web Results)。

显示
    呈现页面时，一个AJAX call返回服务器，服务器处理一系列背后需求。
    如果在Google/雅虎结果中识别出OAI provider，Umlaut会让记录的OAI需求可见（当前仅对Citebase和Citeseer起作用，并根据元数据的质量合并结果）。
    它也获取全文链接（如果有的话），查询Connotea、雅虎的MyWeb及Unalog，看是否有人收藏这些链接。如果有链接，获取标签及共享这些标签的所有记录。它也对CiteULike作同样处理，但把它当作OAI提供者。
    它存储从各处收集来的主题（来自Pubmed的MeSH、SFX主题、来自OPAC的LCSH、标签、亚马逊），作为指示物帮助告知即将开通的推荐服务（当在今秋）。
    Umlaut也能用COinS，有unAPI界面（给出ContextObject及它在JSON或XML中发现的任何数据）。

看演示：
文章：http://umlaut.library.gatech.edu/go/523
图书：http://umlaut.library.gatech.edu/go/522
会议录：http://umlaut.library.gatech.edu/go/524
使用搜索引擎寻找预印本：http://umlaut.library.gatech.edu/go/521
http://umlaut.library.gatech.edu/go/525

结果显示页面多数情况有四部分，左上部是书目信息，左中部是全文链接（含电子版、印刷版）、左下部是“最接近的Web结果”，一般也是全文；右栏则是介绍、Web检索结果等相关结果。

看完获奖作品介绍，感觉Umlaut用了太多的新潮技术与Web服务。很多都是只知其名，不知其义的，居然都集成在一个项目中了！（还有一些术语不知如何翻译）

从介绍看，佐治亚州理工学院应该购买了SFX，但Ross还是做了大量的工作。这也说明现在买来链接解析器后，确实还要做很多后期开发。要不然，不管有没有合适的检索结果，一骨脑的列出链接。如果链接点击后没有合意的结果，几次一用，用户就没了兴趣，最终链接解析器就只能是摆设了。

相关链接：
第二届OCLC软件竞赛 /posts/2006/0707/855

竞赛结果公告：Ross Singer of Georgia Tech wins Second OCLC Research Software Contest
http://www.oclc.org/research/announcements/2006-09-28.htm

获奖作品介绍：About Ross Singer’s Umlaut
http://www.oclc.org/research/announcements/features/umlaut-about.htm

佐治亚州理工学院图书馆网站的Umlaut主页：
http://umlaut.library.gatech.edu/umlaut/

Umlaut的博客，追踪其进展：
http://umlaut.library.gatech.edu/blog/

同期举行的Talis软件竞赛：TALIS软件竞赛结果 & 竞赛在继续
/posts/2006/0913/860

电子版民国图书和期刊

馆里有一些民国书刊，想选择有特色的部分做数字化。因为目的是保护兼使用，以我朴素的想法，尽可能不要与其他图书馆的数字化民国书刊重复。当然如果像Google一样有钱有技术，那就不用考虑，全部数字化了。
于是到网上去查查有没有公开、半公开的电子版民国书刊，找到了CADAL和国家图书馆两个大户。（update: CADAL信息来自8月参加的CALIS联机编目中心会议和数图研讨班）

    CADAL全称“China-American Digital Academic Library”，中文名称“高等学校中英文图书数字化国际合作计划”，从项目网站看，还有俗称“China-US Million Book Digital Library Project”（百万册书数字图书馆项目）。
    首页有输入框可以直接检索，似乎是所有元数据（作者、题名等）的全文检索。进入后可以看到有古籍、民国图书、民国期刊、现代图书、学位论文、绘画、视频和英文几大部分。可以多选，分栏看各部分检索结果。
    前些天的检索结果，有民国图书181,977册，民国期刊3802种。民国期刊部分CADAL似乎是着眼于完成品种、搭个架子，卷期还缺不少。
    但民国图书部分确实数量很庞大，而且可以全文浏览、逐页保存与打印。相当不错，值得推荐！
    不过它的“详细信息”（书目信息）中没有出版年，是个不足。想来不会是我这个编目员挑剔，读者恐怕对此更挑剔。应该是选择Web显示项目的疏忽，元数据中一般是不会缺出版年这个重要信息的。
    要看正文，需要下载DjVu浏览器插件（DjVuWebBrowserPlugin.exe，15046KB）。

要看民国期刊，就要到国家图书馆了。从国家图书馆首页“馆藏珍品”，可以进入“民国期刊”：

“民国中文期刊是国家图书馆保存的民国时期文献之一。为了有效的保护文献、利用文献，国家图书馆早已完成馆藏民国期刊的缩微胶片制作，近年来又开展缩微胶片的数字扫描工作，预计将在三年内完成近600万拍缩微胶片的数字转换。

    民国中文期刊资源库以书目数据、篇名数据、数字对象为内容，提供简单检索、高级检索、二次检索、关联检索和条件限定检索。现提供2000余种期刊电子影像，每期全文前24页的展示浏览。资源库遵循边建设边服务的原则，将不断追加更新资源库内容。”

    不知道这“三年”从哪年算起，现在进展程度如何。从检索结果看，那真是个丰富的宝藏，而且我所看到的每期都可以看全部，而不是“全文前24页”。
    虽然上文说国图“早已完成馆藏民国期刊的缩微胶片制作”，但从其馆藏目录检索看，并非全部都做了缩微胶片。如《图书季刊》有印刷版，做了缩微，而《中华图书馆协会会报》并未做缩微。不知未缩微部分民国期刊的数字化计划安排到何时？
    要看正文，需要下载专用阅读器（NLC图书浏览器，NLCReader.exe，8790KB）。

昨天咨询值班，遇到一位读者想知道哪里有1901年的《教育世界》（期刊）。查国图只有1905-1907年，未缩微，也未数字化。查CADAL的古籍与民国期刊，也都没有。后来查到北师大有1901-1903, no.1-68。介绍云：“我国创办最早，发行量较大，出版时间较长，影响较大的教育专业杂志。”
想到这些1911年前的非线装图书与期刊，很有价值，但既不属民国、也非一般意义上的古籍，在数字化时，是否会成为被遗忘的角落？