澳大利亚国家图书馆的一站式发现服务

    去年更新《新一代OPAC案例分析》(OPAC 2.0案例分析(2008版))时,澳大利亚国家图书馆(NLA)实验室(LibraryLabs)的四个与OPAC相关的原型只有“集成图书馆发现服务”(Single Business Protoype)仍在建设中。前些天,被称为SBDS原型0.1已经发布(Single Business Discovery Service)。由于是原型系统,所以有些数据可能是过时的,并没有及时更新,也就有可能碰到链接出错的情况。Beta版最早将于2009年10月发布。

    略做试用,感觉除了OPAC 2.0的效果外,一站式集成的内容相当丰富,今后可以作为一个重要的参考数据源。看介绍(About),包括:

 元数据:

    * 澳大利亚国家书目数据库 1900万条
    * 澳大利亚图片 160万张
    * 澳大利亚研究在线 30万件
    * OAIster 2000万资源
    * Open Library 30万联机公共域图书
    * Hathi Trust 20万联机公共域图书
    * 维基百科 30万与图书相关的关键词(标签)

 文本:

    * 澳大利亚报纸:1803-1954年报纸文章全文
    * Pandora 澳大利亚重要网站存档复制品
    * NLA手稿检索工具
    * 美国国会图书馆 40万图书目次、出版说明及部分章节
    * Internet Archive 10万全文公共域图书

    另外技术方面:

检索相关排序规则:
    * 题名、主题或作者字段匹配优先
    * 完全一致优先词干一致
    * 检索词相邻优先分离
    * 题名类似时,以附注及全文中出现检索词优先
    * 密度优先(即检索词占全部查询文本的比例越高排序越先)

技术细节:
    * Java编程语言
    * Solr/Lucene索引
    * MySQL记录聚类
    * Jetty及Restlets为HTTP容器,FreeMarker为模板语言

    本想照例做一些截屏,但发现在LibraryLabs的Wiki的项目介绍中,有据称为2008年十月澳大利亚图书馆咨询委员会会议准备的说明文件SINGLE BUSINESS DISCOVERY PROJECT(文件标明日期为2008/2/7),其附件中有六个屏幕设计样例,说明得很细致,基本上与现在情况吻合,自己也就省掉此步骤了。

    还看到在2008年12月,项目组找了少量最终用户做了一个“卡片分类练习”(card sorting exercise),以确定最终的类别,及各类用语。大致浏览了一下长达31页的分析报告(Single Business Card Sort Report),很值得学习。
    从概念上讲,这种方法属于“以用户为中心的设计”。网上查到一个中文说明“利用卡片分类进行信息架构”,有具体实施方法。所下的定义是:
卡片分类法(Card Sorting)是一种以用户为中心的方法,可以观察出用户如何理解和组织信息。顾名思义,就是将信息(概念、条目、内容、小分类等)分别写在一张张的卡片上,然后归类。既可以事先提供固定的分类,也可以由志愿者自己创建分类。通过卡片分类,可以了解用户所想,然后更好的完成页面、导航、内容组织等网站的信息架构。

对SBDS的介绍,参见(怎么都是OCLC的?):
Roy Tennant: One-Stop Searching With a Can-Do Attitude (May 26, 2009)
Lorcan Dempsey: A single business system environment redux (May 30, 2009)

网络词典──中国地名的西文旧译

终于在年前把手头干了很久的活基本了结。
在这过程中遇到不少旧西文名称,不知对应的中文名称,于是频繁使用谷歌金山词霸,发现很多都是在“Google网络词典”部分得到答案的。其实它根本不是什么词典,只是把在不同网页中相邻出现的西文-汉语视为同义语呈现出来(尤其当一方在括号中出现时),可以说是一部虚拟词典。以它为参考,我得到了很多旧西文人名、地名、机构名的中文名称。比如Eroshenko中文名“爱罗先珂”,来自小说搜索网站的书目记录;比如Astor House Hotel为“浦江饭店”,来自该饭店自己的网站;比如Woosung即“吴淞”,其出处是某博客。
因为不是真正的词典,所以它远非完备,有些名称找不到。其中有的地名凭自己的知识还能猜出来,有的就一筹莫展了。幸好在寻找过程中在网上发现一位同行高人,蒙她热情相助,解了我不少疑问。

在此把自己得到的旧西文拼音地名部分列出来,或许哪天在Google网络词典上查到也未可知呢。由于这些地名通常按当地发音拼写,与现在通用的汉语拼音并不一致。

一、上海地名旧译

Shanghai, Shang-hai(英语)
Schanghai(德语)
Changhai, Chang-hai(法语)

Pootung 浦东
Tsang-Ka-Leu 张家楼(浦东)
Ngan-Hoei 南汇 [2010-9-10 网友好南儿留言指正实为安徽]
Tarzang 大场
Chenju 真如
Kiangwan 江湾
Yangtszepoo, Yangtszepoo Creek 杨树浦
Chapei 闸北
Hongkew, Hong Kew, Kong Que 虹口
Zi-ka-wei, Siccawei, Si-ka-wei  徐家汇
Tung-Ka-Doo 董家渡
Kiaochow Park 胶州公园
Honan Road 河南路
Shantung Road 山东路
To Malloo 大马路(南京路)
Whangpoo, Huang Pu River, Hwang Pu River 黄浦江
Woosung 吴淞
Woosung Bar吴淞口
Wusung River 吴淞江
Soochow Creek 苏州河
Lunghwa Temple 龙华寺
Tsungming 崇明
Tsungming Island 崇明岛

二、全国地名旧译

Tche-Li 直隶
Pékin 北京
Tientsin 天津
Honan 河南
Shantung 山东
Tringtau, Tsingtao 青岛
Kanton 广州

Yangtse, Yangtsze, Yangtsekiang, Yangtze-Kiang 长江
Chungking, Tchoung-King 重庆
Ichang, I-chang 宜昌
Hankow, Hankéou 汉口
An-whui / Ngan-Hoei安徽 [2010-9-10 据网友好南儿留言指正增加Ngan-Hoei]
Kiukiang 九江
Anking 安庆
Wuhu 芜湖
Panpu 蚌埠
Nanking 南京
Chinkiang 镇江
Soochow 苏州
Shihpu 许浦(苏州)
Haimen 海门
Kiangyin 江阴
Hai Chow 海州(连云港)
Kiangnan, Kiang-Nan 江南
Chekiang 浙江
Hangchow 杭州
Ningpo 宁波
Yin-hsien 鄞县(宁波)
Hoo-chow-foo 湖州府
Wenchow 温州

另:涉及上海的旧名还可以在上海市地方志办公室网站的“专业志”部分找到。最集中的如《上海租界志》附录,有“新旧路名对照”、“人名译名对照”及“机构、职衔等译名对照”。

Google结束目录搜索等服务

    当年刚迷上Google时,把它的每一个产品都玩了一遍,其中包括Google Catalog Search。此后Google实验室不断推出新产品,追着后面看都来不及。如果不是看到Google在1月15日结束始于2001年的目录搜索的消息,根本不会想起自己以前曾经见过Google的这个产品。
    职业关系,当初以为这个Catalog是图书馆目录,一番搜索,看到结果是一些彩色的产品目录。只觉得那些目录自己用不上,就没再关注了。
   昨天看到Google图书搜索(GBS)博客报道,才知道目录搜索与图书馆还真有点关系──目录搜索采用的“扫描+字符识别”的方式,在当年还属于新技术。从在小房间中自己扫描成千上万件目录开始,Google积累了经验,在2004年开始了大规模扫描图书馆藏书的Google Print项目,也即现在已达数百万册的Google图书搜索。
    据GBS博客报道,除了扫描与字符识别两方面,Google还由目录搜索学到了用户如何联机阅读扫描文献,以及如果更好地向用户展示这类信息。
    虽然产品本身不成功,但由此孕育出一个成功的产品,入黄泉也可瞑目了。所以GBS称目录搜索为“伟大的实验”。

Via Google Book Search Blog: Farewell, Google Catalog Search

    又:大概也是受金融风暴影响吧,Google停止多项服务。除了目录搜索,还有:
Google Video 视频(早入Google麾下的YouTube可取而代之)
Google Notebook 笔记本
Jaiku 微博客(Twitter更红火)
Mashup编辑器

    其中自己最觉得可惜的是Google笔记本,早半年刚开始习惯用它来记下一些临时的想法,很方便。好在只是停止开发,服务仍继续开放。

Via 译言:无可奈何花落去:Google 即将关闭Google 视频、记事本、目录搜索等服务