又一个新搜索引擎cuil

    7月28日,又出了一个新搜索引擎cuil,谐音Cool。网上照例一阵热闹,又是一个挑战Google的。
    据称开发者血统正宗,共同创办人Anna Patterson“之前建立的網頁資料庫「Recall」2004年被Google買下,因此進入Google服務。她在Google工作的兩年中繼續建立搜尋網頁的索引,是這方面的專家。”她“于2006年离开Google并创建Cuil。新的公司还有一些别的曾经在Google工作过的牛人,包括Russell Power,他曾和Patterson女士一起在Google庞大的索引系统工作,还有Louis Monier,AltaVista(搜索领域的开拓者)的前任首席技术员。
    cuil在首页显示索引了121兆多页面。不知道是不是巧合,Google在2005年9月拿掉首页的索引页面数后,数天前(7月25日)在其官方博客中提到它们索引的独立网址数超过了1兆,然后说“我们可以很自豪地说我们在所有的搜索引擎中拥有最完整的检索”。当然“网络的大小其实看你怎么定义一个页面是否有用,而这个问题没有一个固定的答案”。换言之,搜索网页数量不能说明什么,搜索有用网页的数量才有意义。
    2004年新搜索引擎Accoona发布时请来克林顿,也曾引人注目于一时,过后accoona由综合性搜索引擎改为面向商务的了,自己也就不再关心。其实凡新搜索引擎问世,口气基本上都很大,但绝大多数之后就悄无声息了。不知道cuil的未来如何?

    试用了一下,查Library,结果还真与众不同。

    如上图,首先是检索结果图文并茂,比较吸引眼球。
    其次,检索结果上方有多个标签,用于提示相关的搜索词。
    再次,检索结果右上角有分类提示(Explore by Category),类似于通常所见的分面限定,但其类(面)并非固定(如OPAC中固定为作者、主题、题名、年代等等),而是因检索结果而异(如本例有图书馆类型、学术图书馆、图书馆与情报学等)。可见cuil不仅仅是关键词检索,其对网页内容有较多的挖掘。

    检索结果每页11个,与分类提示合计共12个位置。有二栏、三栏显示切换。
以上图为例,二栏显示:
1A-Internet Public Library            1B-Explore by Category
2A-Library of Congress                2B-Libraryspot.com
3A-Boston Public Library Home Page    3B-New York Public Library
4A-UCLA Library                       4B-Lyndon Baines Johnson Library and Museum
5A-British Library                    5B-Canadian Library Association
6A-Online Computer Library Center     6B-Ontario Library Service
相对应的三栏显示:
11-1A   21-2A   31-Explore by Category
12-2B   22-3A   32-3B
13-4A   23-4B   33-5A
14-5B   24-6A   34-6B
    也就是说其结果排序先从左到右、再从上到下。由于每个结果显示较多摘要及Logo,占用页面较多,看各页后面的结果通常需要翻屏,如此显示保证相关内容被首先看到。
    目前选项(preferences)有两个开关:安全搜索(过滤色情或有问题网站)、输入提示

    另外查了图书馆远程存储。由于library与remote storage碰巧在图书馆与计算机领域都有而具有歧义,因而查询结果与Google相比完全不能令人满意,同样的检索式,cuil首页基本上都是计算机方面的,侧栏的分类提示也是如此,基本没有适用的结果。
    如果说由于cuil注重保护用户隐私而无法探知查询者关注的领域,至少它的分类提示可以作出改进。     我想我会把它当作Google的补充,而非替代。在漫无目的的搜索时,或许用cuil会得到些有益的提示。

参见:
New York Times: Former Employees of Google Prepare Rival Search Engine / By MIGUEL HELFT (July 28, 2008)
(译言:前Google员工推出竞争搜索引擎 / by sandow (2008-7-29))
Lib News 圖書館資訊網誌:Cuil搜尋引擎 挑戰Google (2008-7-29)

Offical Google Blog: We knew the web was big… (7/25/2008)
Searching Land: Google "Knows" About 1 Trillion Web Items (Jul. 25, 2008)
(译言:Google检索了1个兆的网页 / by sandow)

台湾机构典藏(TAIR)

    台湾机构典藏(TAIR),采用DSpace建设,由各大学分散建立、并有统一检索平台。

发展
· 2004年起,世界各国大学已开始陆续建置机构典藏
· 2005年5月[台湾]教育部委托台湾大学图书馆进行“建置《台湾学术研究资源中心》运作架构、机制与执行策略计划”,该计划经教育部评估后,认为建置台湾机构典藏,为政府当局刻不容缓之重要工作。
· 2006年6月开始,[台湾]教育部继续委托台大图书馆执行“建置机构学术成果典藏计划”,以台湾大学为机构典藏的营运范例,开发机构典藏软体与完备相关行政作业流程文件与标准规范,作为全台湾各大学院校建置机构典藏的参考。
· “分散建置、集中呈现”的发展模式:截至2008/7/14,有64家高校采用台大研发的系统建立本校机构典藏,其中30家“种子学校”已经上线(被称为IR30)。除各校自已的系统外,以台湾机构典藏(TAIR)入口网站作为整体学术研究成果的累积、展示与利用窗口。
    目前台湾机构典藏显示总记录数为30566,其中全文13759,少于台大机构典藏的数量(见后)。因此“在台湾机构典藏(TAIR)系统中,将可以同步检索到存放在台大机构典藏系统(NTUR)之所有学术资源”之设想,看来尚未实现。

系统架构:采用DSpace 1.4 Beta1作基础,配合台湾之学术环境,依据中文语言特性及使用需求,客制化系统介面与系统功能。

作为模板的台大机构典藏·文件提交方式
    上传文件前,需同意“台湾大学著作典藏同意书”。授权用户(同时也是著作人)本人上传,上传前在线点击“我同意条款”即可;如委托学科馆员或助教上传,需先下载委托书,打印签名交被委托人存档。
    台大机构典藏目前已有记录54814条记录,其中全文27920条。从数量上看,用户参与度还是很高的。只不清楚这么多记录中,多少比例是由作者本人或助教提交、多少比例是由图书馆学科馆员代为提交的?

资料来源:
台湾机构典藏(TAIR) http://tair.lib.ntu.edu.tw/
台大机构典藏(NTUR) http://ntur.lib.ntu.edu.tw/
机构典藏计划网站(NTUR Wiki) http://ir.org.tw/
  其中“参与机构清单”有各机构库链接

相关会议:
台湾机构典藏学术研讨会 (2007/8/31)
台湾机构典藏实务研讨会 (2008/6/13)
机构典藏系统操作与管理教育训练 (2008/7/9)

via EVAN: 西文电子资源的视界
2008臺灣機構典藏實務研討會 (七月 23, 2008)
2008「機構典藏系統操作與管理教育訓練」(七月 23, 2008) 

翻墙──道高一尺 & 盗链──盗亦有道

    喜欢用Firefox,不是因为时髦。
    首先是因为基本上每日必上的Google阅读器在Firefox下装载速度快。
    其次是Firefox的很多插件(add-ons),具有IE所没有的功能,Keven就介绍过十个“常用的火狐狸插件”。作为一名看客,我只对改善阅读体验的插件感兴趣,加起来还没装十个,但估计菜鸟们也会感兴趣:

Gladder,翻墙梯子,太重要了。要不然,维基百科、Blogspot之类,今天可以访问、明天访问不了,得跟着网警叔叔的心情生活。
不过,架上梯子以后,Google阅读器的Share with note无法使用。幸亏用不用梯子只需一个点击,切换很方便。
还有,3.0中梯子不能用,因此我只能选择不升级Firefox。期待梯子早日升级![本文发出后再去确认,发现3.0已经可用梯子了]

Access Flickr!,上面的梯子不是万能的,对Flickr这种网站可以访问,但无法看图的情况无效。安上这个插件就可以正常显示图片了。

RefControl,在任何网站上都可以看到正常显示的图片,而不会出现“此图片来自QQ空间”或者“此图片仅限于新浪博客用户交流与沟通”之类的狗皮膏。出现这种狗皮膏一般被称为网站防“盗链”,可RSS阅读竟然也成了“盗”,很让人愤愤不平。
自从去年新浪封杀博客图片链接,越来越多的博客网站效仿,以至于近来已基本上戒了看美食博客的瘾──在RSS阅读器中看不到那些诱人的图片,还有什么可看的。今天由朋友处得知此插件,装上后问题全解决了──马上放假,又可以认真看美食了。

RefControl安装后还需对“选项”做设置。最简单的设置方法是,“将未列出站点默认设置为”由<默认>“编辑”为<伪装>。
[update:或者]如果是新浪博客或其他什么网站的用户,要上传图片,就需要特别“添加站点”,“动作”选择<屏蔽>或<伪装>均可[update:注意把自己的网站排除在外],几个著名站点:
    新浪:photo.sina.com.cn
    搜狐:img.pp.sohu.com.cn
    百度:hiphotos.baidu.com
    QQ:photo.store.qq.com
    163:photo.163.com
[update:据称也可“将未列出站点默认设置为”“伪装”,然后设置自己要上传图片的“添加站点”为<正常>,如新浪博客是:blog.sina.com.cn;其他可类推类。]

[update:图有其表留言推荐安装 PicLens 看组图,可以方便迅速地查找浏览Flickr, Youtube, Photobucket, Google等八个站点的图片,不妨一试]

关于RefControl,以下几篇有说明、有图示,可参见:
新浪的防盗链图片和火狐 RefControl (2008-03-05)
三招两式 解决图片盗链无法看问题 (2007-08-09)
用Firefox扩展解决图片盗链问题 (2008-07-17)