又一个新搜索引擎cuil

    7月28日,又出了一个新搜索引擎cuil,谐音Cool。网上照例一阵热闹,又是一个挑战Google的。
    据称开发者血统正宗,共同创办人Anna Patterson“之前建立的網頁資料庫「Recall」2004年被Google買下,因此進入Google服務。她在Google工作的兩年中繼續建立搜尋網頁的索引,是這方面的專家。”她“于2006年离开Google并创建Cuil。新的公司还有一些别的曾经在Google工作过的牛人,包括Russell Power,他曾和Patterson女士一起在Google庞大的索引系统工作,还有Louis Monier,AltaVista(搜索领域的开拓者)的前任首席技术员。
    cuil在首页显示索引了121兆多页面。不知道是不是巧合,Google在2005年9月拿掉首页的索引页面数后,数天前(7月25日)在其官方博客中提到它们索引的独立网址数超过了1兆,然后说“我们可以很自豪地说我们在所有的搜索引擎中拥有最完整的检索”。当然“网络的大小其实看你怎么定义一个页面是否有用,而这个问题没有一个固定的答案”。换言之,搜索网页数量不能说明什么,搜索有用网页的数量才有意义。
    2004年新搜索引擎Accoona发布时请来克林顿,也曾引人注目于一时,过后accoona由综合性搜索引擎改为面向商务的了,自己也就不再关心。其实凡新搜索引擎问世,口气基本上都很大,但绝大多数之后就悄无声息了。不知道cuil的未来如何?

    试用了一下,查Library,结果还真与众不同。

    如上图,首先是检索结果图文并茂,比较吸引眼球。
    其次,检索结果上方有多个标签,用于提示相关的搜索词。
    再次,检索结果右上角有分类提示(Explore by Category),类似于通常所见的分面限定,但其类(面)并非固定(如OPAC中固定为作者、主题、题名、年代等等),而是因检索结果而异(如本例有图书馆类型、学术图书馆、图书馆与情报学等)。可见cuil不仅仅是关键词检索,其对网页内容有较多的挖掘。

    检索结果每页11个,与分类提示合计共12个位置。有二栏、三栏显示切换。
以上图为例,二栏显示:
1A-Internet Public Library            1B-Explore by Category
2A-Library of Congress                2B-Libraryspot.com
3A-Boston Public Library Home Page    3B-New York Public Library
4A-UCLA Library                       4B-Lyndon Baines Johnson Library and Museum
5A-British Library                    5B-Canadian Library Association
6A-Online Computer Library Center     6B-Ontario Library Service
相对应的三栏显示:
11-1A   21-2A   31-Explore by Category
12-2B   22-3A   32-3B
13-4A   23-4B   33-5A
14-5B   24-6A   34-6B
    也就是说其结果排序先从左到右、再从上到下。由于每个结果显示较多摘要及Logo,占用页面较多,看各页后面的结果通常需要翻屏,如此显示保证相关内容被首先看到。
    目前选项(preferences)有两个开关:安全搜索(过滤色情或有问题网站)、输入提示

    另外查了图书馆远程存储。由于library与remote storage碰巧在图书馆与计算机领域都有而具有歧义,因而查询结果与Google相比完全不能令人满意,同样的检索式,cuil首页基本上都是计算机方面的,侧栏的分类提示也是如此,基本没有适用的结果。
    如果说由于cuil注重保护用户隐私而无法探知查询者关注的领域,至少它的分类提示可以作出改进。     我想我会把它当作Google的补充,而非替代。在漫无目的的搜索时,或许用cuil会得到些有益的提示。

参见:
New York Times: Former Employees of Google Prepare Rival Search Engine / By MIGUEL HELFT (July 28, 2008)
(译言:前Google员工推出竞争搜索引擎 / by sandow (2008-7-29))
Lib News 圖書館資訊網誌:Cuil搜尋引擎 挑戰Google (2008-7-29)

Offical Google Blog: We knew the web was big… (7/25/2008)
Searching Land: Google "Knows" About 1 Trillion Web Items (Jul. 25, 2008)
(译言:Google检索了1个兆的网页 / by sandow)

CNKI引文数据库与H指数、W指数

    丫枝介绍w-index后(h指数(h-index)之变体–w指数(w-index)诞生),去那儿留言鼓动他做牛人们的h-index和w-index,看到结果(图林牛人们的h指数与w指数选择阅读图情牛人经典文献(鸡鱼w指数)),也想算算自己的指数几何。
    进入CNKI中国引文数据库(http://ref.cnki.net/),看到左栏“统计数据”下有“作者统计”,想当然地由此而入,其下已有“H指数”这一项,但如何获取w指数?总不至于逐篇查找后统计?
    看丫枝一日间做了N多牛人的统计,网上碰到,就讨教如何做成的。一来二去,才发现自己弄错了入口,如丫枝所言,“在初级检索处,直接输入作者名就行”──JADSL的人机交互老师Michael B. Twidale说,What you see depands on what you know,这里居然是个逆向干扰的例子。
    如上所说是新的引文库入口,需要注册才能使用(依丫枝告,免费注册使用),直接检索的结果提供题名及被引频次等信息,可依次复制到EXCEL中处理。由于进入时看得不仔细,一度从旧版进入(竟然是无需注册的),结果发现检索结果一览就是表格形式的,可以整批复制到EXCEL表中,处理起来方便不少。(在CNKI主页上看介绍新旧引文库应该是一致的,但实际检索结果略有差异,不知何故)
    根据丫枝发来的统计表样例,按文章被引频次在EXCEL表中降序排序,从上到下有N篇被引N次,则H指数为N;有M篇被引10M次,则W指数为M。果然“简单”。

    转引丫枝对w指数值意义的说明:
i) w 指数为 1 或者 2,表示该研究者已经学到了一个课题的基本。
ii) w 指数为 3 或者 4,表示该研究者已经掌握了 the art of scientific activity。
iii) w 指数为 5,表明他是位成功的研究者。
iv) w 指数为 10,表明他是为出色的科学家。
v) 工作 20 年后 w 指数超过 15,或者 30 年后指数超过 20,那就是顶尖科学家了。

    查了一些人的H指数和W指数后,感觉H指数更有区别性,任何人只要发表一篇文章得到一次引用,就得到H指数为1;而要使W指数为1,至少须得有一篇文章被引十次以上(不是总被引次数)。我查到几位H指数从1到4的,W指数均为0──W指数用来给大牛们排名还有点用,要用做一般人的评价指标则是形同虚设了。不过,如果上面这个“意义说明”竟被有关部门认可,也会让N多牛人非常伤心的。

    老槐曾认为当年选择“三大检索刊物”作为大学排名研究的依据是由于这几个刊物的检索功能而非收录内容(排行榜研究的智慧),事实是否如此不得而知。但此次丫枝做引文分析选CNKI而舍CSSCI,则明确申明是功能的原因。自己很少有几次不得已使用CSSCI,总有恨铁不成钢的感觉──多少年了,得到荣誉无数,怎么还看不到多少长进呢?

参见:
CNKI的引文检索功能(兼及维普)(2005-09-14))
Scopus与引文评价H指数 (2007-09-12)
中美数图研讨班2008·人机交互与数字化图书馆 (2008-05-24)

用Google图书搜索API增强OPAC

    2007年中的时候,想要在OPAC中像链接Amazon那样链接Google图书(因为部分是可以看全文的),还是件挺令图书馆人伤脑筋的事(参见“Google图书搜索的电子书网址”)。但前几天Google发布了新的图书搜索API,开始转而鼓励图书馆及其他图书网站在图书页面显示Google图书搜索的封面小图片、全文的可获得状态,并链接到图书搜索的结果。

    Google图书搜索提供静态与动态两种链接方式:

Viewability API – Dynamic Links (动态链接:全文可看性API)
· 可通过ISBN、LCCN及OCLC号链接到Google图书搜索
· 获知Google图书搜索是否有特定图书,及其全文可看性
· 生成图书封面小图片链接
· 生成图书信息页链接
· 生成图书预览链接

所谓Viewability分为四种 [因地域而异,有些书在美国可看,到加拿大就不可看了]:
Full View:全文可看
Limited Preview:部分可看(仅部分页面可看)
Snippet View:片断可看(可作书内检索search within this book,每页仅显示部分内容)
Metadata View:无全文(仅有图书信息“关于此书”)
(但从API返回的preview状态看,只有3种:noview, partial, full。似乎中间两种合并显示了,其实标出是否可作书内检索对用户还是很有意义的。)

Dynamic Links – Getting Started最后附有三段代码实例:
   *  Example: Basic linking to books
    * Example: Using a callback
    * Example: An AJAX Example

Static Links to Google Book Search (静态链接)
·通过ISBN、LCCN及OCLC号链接到图书的有关页面(显然不能像动态链接那样保证链接的有效性)
链接语法(ISBN):
http://books.google.com/books?vid=ISBNXXXXXXXXXX&printsec=[内容]
[内容]代表
空:图书首页
frontcover:封面
titlepage:题名页
copyright:版权页:
toc:目次页:
index:索引
backcover:封底

Static Links to GBS Content的实例没有介绍LCCN及OCLC号的链接方法,去年是不加前缀直接引用的,即:http://books.google.com/books?vid=XXXXXXXX&printsec=[内容]。但从动态链接实例看,分别用了LCCN和OCLC作前缀。

    在宣传博文中列出了一串共14个已经链接到Google图书搜索的公共图书馆、大学图书馆,以及图书网站LibraryThing、Open Library和Scriblio(开源软件,原WPOpac)。特别说明有几个大学是通过Ex Libris的Primo或SFX实现的。
    正好看到Library Technology Guides上的新闻:Ex Libris在其产品中集成了到Google图书的直接链接。据称Primo发现与传递解决方案(discovery and delivery solution),SFX内容敏感链接解析器(context-sensitive link resolver),以及Aleph和Voyager集成图书馆系统均加上了此功能。

    LibraryThing的Tim曾费尽心思做小插件以期利用群众的力量获取Google图书搜索的链接信息,这回很兴奋,因为LibraryThing还被Google官方举为首批应用者。在“来自Google的免费封面”中他提供了二段JS代码,一段是通过ISBN只抓取图书封面但不提供链接,一段是只在有全文时提供链接──应该说都很实用。同时,也没忘为他的OPAC增强服务LibraryThing for Libraries再做一回广告。

参见:
Google图书搜索的电子书网址 (2007-09-27)

Google Book Search Book Viewability API
Offical Google Blog:Book info where you need it, when you need it (2008-3-13)
Inside Google Book Search:Preview books anywhere with the new Google Book Search API (2008-3-13)

Library Technology Guides:Ex Libris integrates direct links to Google About this Book pages in its products (March 13, 2008)

The LibraryThing Blog: Google Books in LibraryThing (March 13, 2008)
Thing-ology (LibraryThing’s ideas blog):Free covers for your library, from Google (March 15, 2008)