One World, One Dream

    记得N年前有个世界群星大合唱,名为We are the world,中文译为《天下一家》。不管是不是这个意思,“天下一家”之说无论从哪个角度都是无可挑剔的,除了字面上的温馨,兄弟阋墙、夫妻反目,那也都是一家子里的事。但本届奥运会的口号One World, One Dream就完全不同了,让人完全无法作它想,因而也无法让人认同──同床异梦的事儿太多,何况让世界做同一个梦?
    开幕式前,喀什袭击死了16名武警,据说是DT所为,联系之前的ZD,外媒评论说,One China也没有One dream──不得不承认,他们的政策水平还是很高的,想必外交部也会为他们坚持“一个中国”而击节叫好。

    2008-08-08 20:08已经过去,看了开幕式。但一直以来并不特别关心本届奥运,因为自己不是体育迷,更因为那是“北京”奥运会,2700亿绝大部分是砸在北京市,幸福与痛苦,主要事关北京市民及“外来务工人员”,与远离京城的其他老百姓没啥关系。
    最具全民参与的或许是火炬传递,到后来也变成小众娱乐了。当初在广州时万人空巷;传递到到沪时,偶正巧坐车路过体育馆,还看到满街举着小旗的人。后来到南宁,弄得跟旧金山似的,路线保密、禁止学生上街看了;再后来到长春,据说沿街居民都不让开窗了──可见ZF也没想真让大家跟奥运亲密接触。这就让“同一个世界、同一个梦想”之说颇为可疑,也很奇怪怎么会让它成为本届奥运会的口号。

    在中国各地旅行时,基本上只要看看沿路的标语,就知道当地官员最头痛的事情、最希望解决的问题是什么了。比如:“光缆无铜、偷也无用”、“少生孩子多养猪”、“严禁飞车抢夺”。对奥运口号,亦只能做如是观。

全球数字图书馆(百万册图书项目)中国站点

    外出一周,今天回家。看博文留言,重又看到了去年12月19日ZZ在“百万图书”项目(CADAL)相关信息下的留言:“整个UDL项目现在是又153万册左右数字图书,其中中国100多万,印度33万,还有埃及的几万。大部分英文图书还没有解决版权问题。中国古籍已经解决。CADAL, ULIB.cn等的关系是, CADAL位于浙大,主要负责中文图书数字化,是ULIB中国南方技术中心,www.cadal.edu.cn也是一个提供比较完整的检索和发布平台,是真的可以实用化的,从这一点讲,CMU的主站都做不到;但CADAL站点主要只有中文图书。而www.ulib.org.cn经过多次改版,已经提供了所有153册图书的镜像检索,涵盖了所有数据,并拥有北方中心15万册英文图书的全文检索系统、插图检索系统和知识网络系统,ulib.org.cn现在可提供所有版权允许的图书的访问。”
    去年11月本馆网站改版后向所有读者介绍CADAL的民国电子书,偶有访问不了的情况发生时,读者比较着急,并且在教育网外,CADAL访问速度极慢,所以想看看介绍中的百万册图书的UDL中国网站,或可与CADAL交替使用。[update: 来自CADAL的消息:因民国文献还有部分处于版权保护期,应作者或权利继承人要求,自2008.7.16起,民国文献全文不对公共网开放服务]

    全球数字图书馆中国站点(http://www.ulib.org.cn/zh-CN/)由中国科学院研究生院主办,看来知者不多。版权日期2003-2008,但至今日的网站访问统计数仅为:
首页访问: 1531
浏览次数: 5850
网站访问: 1101

    首页下有“百万册图书搜索:实验系统”,包括三种检索方式:
· IQuery 2.0 BETA:一种新颖的电子图书检索系统,支持多粒度电子图书检索与多侧面导航。
搜索范围可选择全文、章节、主题、题名或多粒度(all的专业术语?)。
搜索中栏为带图书封面的书目信息摘要;
左栏显示多层主题分面(含命中数):
  Composite subject 主题
  General subfield 一般子类
  People 人物
  Time 时代
  Place 地点
  Form of reservation 体裁
  Source of topic words 主题词来源
  Other subject 其他主题
右栏显示可扩展检索词(按相关度?),且可按可视化方式显示(更改浏览器安全设置后仍没有安装成功)。
· Illustrator:拥有870万张插图超大数据集的语义插图检索系统。
查询速度很快,可惜访问结果都是HTTP Status 404,图像说明都是not available。
· Knowmap:一个基于主题词网络的电子图书可视化导航与检索系统。需要Java插件。

    以上都是研究成果展示(网页下有研发者姓名)。不过因为自己太菜,需要的插件都没有安装成功,所以可视化的部分看不到。不过这没关系,现阶段我只需要最基本的检索功能(ULIB检索),因为我最关心的是能不能看全文,可否以此作为CADAL网站的备用──可惜,好象也不行。
    在帮助页,提示要显示DjVu图像,需从lizardtech下载免费插件 exview_setup.exe(7.9MB);在下载页给出的是其本地提供的DJVU浏览器(DjVuWebBrowserPlugin.exe)。后者与CADAL网站上的一样,本机原已安装,但看不到内容显示;安装前者后,仍看不到页面内容。我使用IE 7.0和Firefox 2.0。
    FAQ中说,如果需要整本下载,可以把书名告知help@ulib.org,然后会得到一个带下载说明的图书链接。这对很多读者来说是个不错的解决方案──不知道是不是真管用?现在假期中,开学后记得一试。

又一个新搜索引擎cuil

    7月28日,又出了一个新搜索引擎cuil,谐音Cool。网上照例一阵热闹,又是一个挑战Google的。
    据称开发者血统正宗,共同创办人Anna Patterson“之前建立的網頁資料庫「Recall」2004年被Google買下,因此進入Google服務。她在Google工作的兩年中繼續建立搜尋網頁的索引,是這方面的專家。”她“于2006年离开Google并创建Cuil。新的公司还有一些别的曾经在Google工作过的牛人,包括Russell Power,他曾和Patterson女士一起在Google庞大的索引系统工作,还有Louis Monier,AltaVista(搜索领域的开拓者)的前任首席技术员。
    cuil在首页显示索引了121兆多页面。不知道是不是巧合,Google在2005年9月拿掉首页的索引页面数后,数天前(7月25日)在其官方博客中提到它们索引的独立网址数超过了1兆,然后说“我们可以很自豪地说我们在所有的搜索引擎中拥有最完整的检索”。当然“网络的大小其实看你怎么定义一个页面是否有用,而这个问题没有一个固定的答案”。换言之,搜索网页数量不能说明什么,搜索有用网页的数量才有意义。
    2004年新搜索引擎Accoona发布时请来克林顿,也曾引人注目于一时,过后accoona由综合性搜索引擎改为面向商务的了,自己也就不再关心。其实凡新搜索引擎问世,口气基本上都很大,但绝大多数之后就悄无声息了。不知道cuil的未来如何?

    试用了一下,查Library,结果还真与众不同。

    如上图,首先是检索结果图文并茂,比较吸引眼球。
    其次,检索结果上方有多个标签,用于提示相关的搜索词。
    再次,检索结果右上角有分类提示(Explore by Category),类似于通常所见的分面限定,但其类(面)并非固定(如OPAC中固定为作者、主题、题名、年代等等),而是因检索结果而异(如本例有图书馆类型、学术图书馆、图书馆与情报学等)。可见cuil不仅仅是关键词检索,其对网页内容有较多的挖掘。

    检索结果每页11个,与分类提示合计共12个位置。有二栏、三栏显示切换。
以上图为例,二栏显示:
1A-Internet Public Library            1B-Explore by Category
2A-Library of Congress                2B-Libraryspot.com
3A-Boston Public Library Home Page    3B-New York Public Library
4A-UCLA Library                       4B-Lyndon Baines Johnson Library and Museum
5A-British Library                    5B-Canadian Library Association
6A-Online Computer Library Center     6B-Ontario Library Service
相对应的三栏显示:
11-1A   21-2A   31-Explore by Category
12-2B   22-3A   32-3B
13-4A   23-4B   33-5A
14-5B   24-6A   34-6B
    也就是说其结果排序先从左到右、再从上到下。由于每个结果显示较多摘要及Logo,占用页面较多,看各页后面的结果通常需要翻屏,如此显示保证相关内容被首先看到。
    目前选项(preferences)有两个开关:安全搜索(过滤色情或有问题网站)、输入提示

    另外查了图书馆远程存储。由于library与remote storage碰巧在图书馆与计算机领域都有而具有歧义,因而查询结果与Google相比完全不能令人满意,同样的检索式,cuil首页基本上都是计算机方面的,侧栏的分类提示也是如此,基本没有适用的结果。
    如果说由于cuil注重保护用户隐私而无法探知查询者关注的领域,至少它的分类提示可以作出改进。     我想我会把它当作Google的补充,而非替代。在漫无目的的搜索时,或许用cuil会得到些有益的提示。

参见:
New York Times: Former Employees of Google Prepare Rival Search Engine / By MIGUEL HELFT (July 28, 2008)
(译言:前Google员工推出竞争搜索引擎 / by sandow (2008-7-29))
Lib News 圖書館資訊網誌:Cuil搜尋引擎 挑戰Google (2008-7-29)

Offical Google Blog: We knew the web was big… (7/25/2008)
Searching Land: Google "Knows" About 1 Trillion Web Items (Jul. 25, 2008)
(译言:Google检索了1个兆的网页 / by sandow)