存档在 2006 年九月

第二届OCLC软件竞赛结果

2006年9月30日

    9月28日,OCLC宣布第二届软件竞赛结果,来自佐治亚州理工学院的Ross Singer获奖,他的项目是一个名为Umlaut的OpenURL链接解析器。竞赛结果公告称,Umlaut将读者引向全文的能力令评委印象深刻,并且比赛所要求的使用OCLC服务也做得相当好。

    Umlaut的工作方式是:

    当用户开始一个查询,Umlaut取其IP地址,查询OCLC解析器登录处(OCLC Resolver Registry)。如果该IP还有其它链接解析器,就把那些服务一并加入用户collection。
    然后基于文档集中该用户的collection,包括增加相关的图书馆目录与链接解析器,目标是使所有可获取的信息能让用户触手可及,包括可访问的的公共图书馆、其它学校或其他图书馆。

分析书目信息(citation)
    如果查找项有标准的标识符(identifier)(目前基于用户群的需求用dois和pmids,但也偶用OCLC号、bibcodes和handles),就从来源中查找该标识(id authority)(crossref, pubmed等),并抓取书目中所有元数据。
    然后把元数据递交请求给SFX(也支持其它链接解析器)、本馆目录(输出至Zebra数据库)及本州联合目录(均由SRU检索)。
    如果有ISBN,使用xISBN获取所有版本并检索。
    在会议录的场合,Umlaut会做一系列的检索(因为取得的书目元数据常常质量不一,不总是明确表示是会议录,因此用一个关键词表[papers, transactions, spie, ieee 等]以确定是否会议录),然后用大致的书目OpenURL上下文集,在本馆OPAC中查找会议及卷册。

检索相关数据库
    如果查找项有ISSN或ISBN,会检索WorldCat.org,如果命中,会显示一个查看链接。
    然后检索亚马逊(如果有ISBN)、Google和雅虎(使用其API)。
    从亚马逊获取所有元数据(介绍、类似图书等)。
    对Google和雅虎,它会在结果中检查“相关网站”白名单(ROAR, arXiv, Citeseer等)或者黑名单(Amazon.*及其它联机书商),然后检查每个链接,看是否出现在我们的代理服务器(EZProxy)。
    一些URL有特别的handlers (arXiv, Citeseer, Citebase, CiteUlike等),Umlaut作不同处理。arXiv, Citeseer和Citebase进入“全文库”(Fulltext holdings bin),CiteUlike作为介绍、标签与目次。其它入“最接近的Web结果”(Closest Web Results)。

显示
    呈现页面时,一个AJAX call返回服务器,服务器处理一系列背后需求。
    如果在Google/雅虎结果中识别出OAI provider,Umlaut会让记录的OAI需求可见(当前仅对Citebase和Citeseer起作用,并根据元数据的质量合并结果)。
    它也获取全文链接(如果有的话),查询Connotea、雅虎的MyWeb及Unalog,看是否有人收藏这些链接。如果有链接,获取标签及共享这些标签的所有记录。它也对CiteULike作同样处理,但把它当作OAI提供者。
    它存储从各处收集来的主题(来自Pubmed的MeSH、SFX主题、来自OPAC的LCSH、标签、亚马逊),作为指示物帮助告知即将开通的推荐服务(当在今秋)。
    Umlaut也能用COinS,有unAPI界面(给出ContextObject及它在JSON或XML中发现的任何数据)。

看演示:
文章:http://umlaut.library.gatech.edu/go/523
图书:http://umlaut.library.gatech.edu/go/522
会议录:http://umlaut.library.gatech.edu/go/524
使用搜索引擎寻找预印本:http://umlaut.library.gatech.edu/go/521
   http://umlaut.library.gatech.edu/go/525

    结果显示页面多数情况有四部分,左上部是书目信息,左中部是全文链接(含电子版、印刷版)、左下部是“最接近的Web结果”,一般也是全文;右栏则是介绍、Web检索结果等相关结果。

    看完获奖作品介绍,感觉Umlaut用了太多的新潮技术与Web服务。很多都是只知其名,不知其义的,居然都集成在一个项目中了!(还有一些术语不知如何翻译)

    从介绍看,佐治亚州理工学院应该购买了SFX,但Ross还是做了大量的工作。这也说明现在买来链接解析器后,确实还要做很多后期开发。要不然,不管有没有合适的检索结果,一骨脑的列出链接。如果链接点击后没有合意的结果,几次一用,用户就没了兴趣,最终链接解析器就只能是摆设了。

相关链接:
第二届OCLC软件竞赛 /posts/20060707210241.html

竞赛结果公告:Ross Singer of Georgia Tech wins Second OCLC Research Software Contest
http://www.oclc.org/research/announcements/2006-09-28.htm

获奖作品介绍:About Ross Singer’s Umlaut
http://www.oclc.org/research/announcements/features/umlaut-about.htm

佐治亚州理工学院图书馆网站的Umlaut主页:
http://umlaut.library.gatech.edu/umlaut/

Umlaut的博客,追踪其进展:
http://umlaut.library.gatech.edu/blog/

同期举行的Talis软件竞赛:TALIS软件竞赛结果 & 竞赛在继续
/posts/20060913201756.html

转录:ALA的“图书馆工作核心价值”

2006年9月29日

    看到一叶舟的“图书馆工作的核心价值”(),介绍ALA前一任主席戈曼(Michael Gorman)的“数位时代的图书馆价值”(Library Values in a Digital Age),并摘译了美国图书馆协会(ALA)的“图书馆工作的核心价值”(Core Values of Librarianship / Adopted June 29, 2004, by the ALA Council)。文后还附有丰富的相关链接。

    ALA的这个核心价值声明是2004年出现的,应当也为着应对网络(数位)时代图书馆工作所面临的挑战。以下转录一叶舟的译文(用Word繁简转换,两岸不同用语一并转换,如引用请见原译):

    ACCESS (读者可公平取用信息) 所有的信息/资源,不论其传输的形式、不论是直接或间接由图书馆提供,所有读者都可公平的取用。

    CONFIDENTIALITY/PRIVACY (保障读者之隐私) 保护读者的隐私不仅是知识自由所必需,也是图书馆工作的伦理与实做的基础要素 。

    DEMOCRACY (民主) 民主机制是以公民们能充分获知信息为前题。美国宪法第一修正案明定所有人皆有自由表达的权利,及保障他人表达的权利。图书馆提供其所服务的社区民众,能自由及平等地取用信息。

    DIVERSITY (多元性) 我们珍惜我们国家的多元性,并以提供社区充分的资源及服务来反映这种多元性。

    EDUCATION AND LIFELONG LEARNING (教育及终身学习) ALA维持及推展学习型社会,鼓励会员与教育者、政府官员及机构组织共同努力,以确保学校、公共、学术、专门等图书馆共同提供全民终身学习的服务。

    INTELLECTUAL FREEDOM (维护知识自由) 我们坚持知识自由的原则,且尽全力拒绝图书检查之行为。

    THE PUBLIC GOOD (公共资产) 在讨论图书馆服务 (厂商) 外包及私人化中,ALA重申图书馆的基本价值包括:图书馆是不可或缺的公共资产及是民主社会的基础机构。

    PRESERVATION (保存资源) 保存各种类型的信息/资源。信息/资源的保存为图书馆及图书馆员的中心任务。

    PROFESSIONALISM (馆员的专业性) ALA支持图书馆的服务由经过研究所教育的合格之专业人员提供。非常重要的是必须有专业的教育,以切合社会的需求及图书馆服务的目标。

    SERVICE (服务民众) 我们提供最高层次的服务…以扩展自身的知识及技能、鼓励同侪专业上的进步…等方式,努力达到专业上的优秀表现。

    SOCIAL RESPONSIBILITY (负有社会责任) ALA负有很大的社会责任,可说图书馆在解决重要社会问题上能有所贡献;图书馆协助教育民众,并鼓励民众检视关于问题的各方观点及事实……

电子版民国图书和期刊

2006年9月27日

    馆里有一些民国书刊,想选择有特色的部分做数字化。因为目的是保护兼使用,以我朴素的想法,尽可能不要与其他图书馆的数字化民国书刊重复。当然如果像Google一样有钱有技术,那就不用考虑,全部数字化了。
    于是到网上去查查有没有公开、半公开的电子版民国书刊,找到了CADAL和国家图书馆两个大户。(update: CADAL信息来自8月参加的CALIS联机编目中心会议和数图研讨班

    CADAL全称“China-American Digital Academic Library”,中文名称“高等学校中英文图书数字化国际合作计划”,从项目网站看,还有俗称“China-US Million Book Digital Library Project”(百万册书数字图书馆项目)。
    首页有输入框可以直接检索,似乎是所有元数据(作者、题名等)的全文检索。进入后可以看到有古籍、民国图书、民国期刊、现代图书、学位论文、绘画、视频和英文几大部分。 可以多选,分栏看各部分检索结果。
    前些天的检索结果,有民国图书181,977册,民国期刊3802种。民国期刊部分CADAL似乎是着眼于完成品种、搭个架子,卷期还缺不少。
    但民国图书部分确实数量很庞大,而且可以全文浏览、逐页保存与打印。相当不错,值得推荐!
    不过它的“详细信息”(书目信息)中没有出版年,是个不足。想来不会是我这个编目员挑剔,读者恐怕对此更挑剔。应该是选择Web显示项目的疏忽,元数据中一般是不会缺出版年这个重要信息的。
    要看正文,需要下载DjVu浏览器插件(DjVuWebBrowserPlugin.exe,15046KB)。

    要看民国期刊,就要到国家图书馆了。从国家图书馆首页“馆藏珍品”,可以进入“民国期刊”:

    “民国中文期刊是国家图书馆保存的民国时期文献之一。为了有效的保护文献、利用文献,国家图书馆早已完成馆藏民国期刊的缩微胶片制作,近年来又开展缩微胶片的数字扫描工作,预计将在三年内完成近600万拍缩微胶片的数字转换。

    民国中文期刊资源库以书目数据、篇名数据、数字对象为内容,提供简单检索、高级检索、二次检索、关联检索和条件限定检索。现提供2000余种期刊电子影像,每期全文前24页的展示浏览。资源库遵循边建设边服务的原则,将不断追加更新资源库内容。”
 
    不知道这“三年”从哪年算起,现在进展程度如何。从检索结果看,那真是个丰富的宝藏,而且我所看到的每期都可以看全部,而不是“全文前24页”。
    虽然上文说国图“早已完成馆藏民国期刊的缩微胶片制作”,但从其馆藏目录检索看,并非全部都做了缩微胶片。如《图书季刊》有印刷版,做了缩微,而《中华图书馆协会会报》并未做缩微。不知未缩微部分民国期刊的数字化计划安排到何时?
    要看正文,需要下载专用阅读器(NLC图书浏览器,NLCReader.exe,8790KB)。

    昨天咨询值班,遇到一位读者想知道哪里有1901年的《教育世界》(期刊)。查国图只有1905-1907年,未缩微,也未数字化。查CADAL的古籍与民国期刊,也都没有。后来查到北师大有1901-1903, no.1-68。介绍云:“我国创办最早,发行量较大,出版时间较长,影响较大的教育专业杂志。”
    想到这些1911年前的非线装图书与期刊,很有价值,但既不属民国、也非一般意义上的古籍,在数字化时,是否会成为被遗忘的角落?

OCLC与图书馆酒店的故事:版权与商标

2006年9月25日

    Tim打算给其蒸蒸日上的个人在线书目网站LibraryThing增加分类功能。在美国通用的有杜威十进分类法(DDC)和国会图书馆分类法(LCC),两者的电子版都要不菲的订购年费,并且如果要用在LibraryThing上的话,还有版权问题。
    美国版权法规定1923年前出版的属于公共域,Tim在谷腾堡计划(Project Gutenberg)中找到了1876年版的DDC(原来当时的题名那么长:A Classification and Subject Index for Cataloguing and Arranging the Books and Pamphlets of a Library)。尽管早年的DDC类别陈旧,类目不要说计算机,连留声机也没有,不过,如果粗分类,凑合一用似乎也不是不可以?
    且慢!要使用DDC,除了版权,还有另一个障碍——商标。因为DDC的版权所有者OCLC,已经将杜威的姓Dewey、缩写DDC及全称都注册了商标,Tim戏称如要用1876年版DDC,就只好改用杜威的名Melvils(当为Melvil)了。

    从Tim的上述介绍,知道了DDC商标案。于是由维基百科的Library Hotel词条开始,试图在网上复原OCLC与图书馆酒店的故事。

    纽约的图书馆酒店(Library Hotle)是个仅有60套房间的小旅馆,毗邻纽约公共图书馆。其特色是以DDC给每个楼层、每个房间命名,并在各楼层与每个房间中配备相应类目的图书。楼层对应大类:3-9层对应300-900,10-12层对应000-200;各房间则对应小类,如色情文学800.001,音乐700.005,计算机600.004。旅客可以根据各自喜好选择房间。
    图书馆酒店2000年8月开张,由于创意绝妙而生意火爆,被美国权威旅游杂志康德纳斯(Conde Nast)评为纽约十佳饭店之一。2003年9月,OCLC将酒店告上了俄亥俄州首府哥伦布的联邦法庭——声称酒店侵害了OCLC的商标权,要求对方支付每年500美金的使用费。引起问题的,正是DDC。因为杜威(Dewey)、DDC和杜威十进分类法(Dewey Decimal Classification)都是OCLC注册的商标。
    两个月后,双方达成和解,图书馆酒店得到OCLC许可,可在酒店及营销资料中使用DDC商标并向OCLC致谢,同时,图书馆酒店须向促进儿童阅读的非营利性组织提供一定的捐赠。大家都很满意,酒店老板说,“我们不认为在我们靠近纽约公共图书馆的美丽小酒店中使用杜威商标侵犯了OCLC的商标,但向OCLC的杜威商标致谢,并且做一些慈善捐赠以促进儿童阅读,而不是花钱诉讼,应当是解决问题的合理之道。”
    现在,图书馆酒店主页下方清晰地标明:Dewey、DDC和Dewey Decimal Classification是OCLC拥有并许可使用的商标。

参考:
Thing-ology Blog: Angry about classification
http://www.librarything.com/thingology/2006/08/angry-about-classification.php
Wikipedia:Library Hotel
http://en.wikipedia.org/wiki/Library_Hotel
纽约 – 图书馆酒店 Library Hotel
http://www.12386.com/theme_hotel/Library.htm
郑迪蔚:旅馆就是图书馆. 出版广角, 2004年第2期
http://www.gxppa.com/Article/gj/hwlf/200604/20060411102250.html
easy librarian: 分类法趣闻
http://www.csdl.ac.cn/ezlibrarian/archives/000707.html
OCLC: OCLC and The Library Hotel settle trademark complaint
http://www.oclc.org/news/releases/20031124.htm

关于LibraryThing请参见:thingISBN——用户视角的FRBR化成果

附言:
有位署名001919的网友在“也谈我们的分类主题词表”下留言,想要电子版的分类词表二次加工。如果是认真地当件事做,最简单的办法自然是花钱买一套,否则可以试试几个版本的网上《中国图书馆分类法》。虽然网上的这些《中图法》看来不像经过什么授权,也一直没什么麻烦,但那是非赢利性的。如果该网友对《中图法》加工后将成果商品化,或者成为某产品的一个部分,那么如果不解决版权问题,怕是会有麻烦的。

BlogBus搬家文件问题

2006年9月23日

    这次不得已离开博客中国。按BlogBus搬家指导自己导出搬家文件,但出现问题,只得求助于搬家客服。一周后收到客服发来的完整搬家文件共七个,逐个导入本地。
    导入及这次给博文加标签的过程中,发现搬家文件共有三个问题:

一、标题中短横后面的内容消失。有如下三篇博文出现问题:
编目精灵 On-the-fly
2006-3-17:开始过不太一样的日子
ISBN-13正式登场
    似乎是XML转码的问题,但正文中出现短横似乎没事。标题与正文中共同的问题是“’”都成了代码。

二、过长文章被腰斩。以下代发的文章全文字符计数达7000,结果后半部分就没有了:
[代发] 西文编目网络在线资源 / 新陆

三、繁体字(以及如“·”这样的标点)变成乱码。由于时常引用来自对岸的资料,不少博文中都有繁体字。
    看博客网的字符集是GB2312的,而BlogBus是utf-8的,或许这是问题所在?