用Google收藏喜欢的网页

    Google个性化搜索已经推出很久了,一直不想使用。因为觉得自己平时并没有遇到太多搜索问题,需要Google进一步优化;反而因为已经用了太多基于Google帐户的服务,让Google搜集了太多个人隐私,不想把自己全部都卖给Google了。
    前几天Library Journal博客上说Google个性化搜索新推出个人搜索统计(Personal Search Engine Stats),可以告诉你最常搜索的词、最常点击的搜索结果、最常搜索的时段――它对你的了解真是太多了。
    终于下决心登录进去看个究竟,不意发现其中有一个“管理书签”功能,“给您喜爱的网站加上书签,并添加可搜索的标签和备注”――这不是又一个书签服务吗?原来雅虎大张旗鼓收购美味书签,Google则悄悄地建起自己的书签服务了。用户增加的书签,未来无疑将成为改善网页搜索的一个重要砝码。

    无论是Google书签,还是其它“社会书签”,一个致命的弱点就是对网络服务的依赖性。一旦服务网站无法访问,就会临时“失忆”;如果服务网站关门,就会彻底“失忆”。所以,不提供收藏“导出”功能的网站如新浪Vivi博采,就显得很可怕。尽管我可能很少“导出”,但我需要这个功能给自己留一条后路!Goolge书签也没有导出功能,也没有美味书签那样的社会化功能,如何吸引用户使用,值得关注。

    据说某位高人就用一个EXCEL工作薄,设定好格式,只需复制入网址等必要信息,可随时输出成网页格式的“我的收藏”文件。随身带个U盘,就可随时收藏,倒也不失为一个不求人的好办法。

 

Google图书馆员中心开张运行

    Google在10月开了一个图书馆员中心(Google Librarian Center),计划是发行面向图书馆员的快讯,支持图书馆员推进“图书馆员与Google共同的使命――组织世界上的信息,并使之随处可用”。该快讯为季刊,以电子邮件方式订阅。

    如今,第一期快讯Google Librarian News (December 2005) 已经正式发行。开场白中说明“Google馆员中心”的设想源自今年ALA年会,当时Google在那儿设摊展览,与馆员们聊了三天。为继续聊下去,就有了这个快讯。本期主要内容是一篇文章“Google如何收集与排序结果”(How does Google collect and rank results?),回答当时馆员们问得最多的问题。未来还会请馆员与图书馆供应商撰文,提供图书馆相关网站,更新Google产品与服务。

    “Google如何收集与排序结果”,大致如下:
    先由Google机器人(Googlebot)爬行WWW上的页面。所谓爬行并非真的漫游整个网络,而是发出请求,由对方服务器返回特定网页;然后扫描页面的超链接,再由链接出发,重复同样的请求获取其它网页。机器人给每个被检索页面一个编号。然后,给页面中的每个词建立倒排索引。
    Google排序依据多种因素,总起来说是“著名”与“相关”(both reputable and relevant)。PageRank算法针对的是“著名”,由被多少网页链接、这些链接网页本身的质量打分;“相关”则由检索词是否在标题上出现、出现次数、多个检索词间距离…决定。在相关度基本相同的情况下,由著名度来决定排序。
    给检出网页打分、排序后,抽取含检索词的部分网页作为摘要(snippets),与URL一同展示为检索结果页面。
    Google使用数百台计算机同时执行搜索与结果排序,每一搜索返回时间不超半秒。

    因为是一个“快速入门”(quick primer),所以比较初级。为图情专业人员一五一十讲述倒排档检索匹配,好象在给小学生授课,令人心理上有点难以承受。不过,如果用于向没有受过检索训练的读者解释,倒比较合适。文中还有两个练习,是提供中小学馆员给学生练习的。

图书馆地图

    看中国的公共图书馆统计数据,只有二千多个,我总不相信。全国县级市就不止这个数,省府、大城市还有区图书馆,怎么就只有这几个图书馆?
    还记得小时候,学校没有图书馆,但街道有图书室。虽只小小一间外借室,放学后去借书,还是很愉快的记忆。这种图书室,在国外的公共图书馆统计中都是包含在内的,难道我们不包括?
    今天看到《文汇读书周报》报道――“281家图书馆可按图索骥 上海诞生‘图书馆地图’”:“为建立学习型城市、体现上海城市精神,使上海市的图书馆服务更加贴近基层、贴近市民,上海图书馆与上海市测绘院共同编制的《上海市图书馆分布图》近日‘出炉’”。除43家高等院校及专业图书馆外,分布图标注了238家公共图书馆(市、区、县、乡镇、街道、社区、少儿馆)的地理位置。(2005年10月14日第2版)
    如果说上海一地就有大致全国十分之一的公共图书馆,显然是不合理的。如果用这种不同统计口径得出的数据进行国内外对比说事,又有什么说服力? 用Google本地搜索查到的上海的图书馆地图

    曾见过国外放在馆内随取的本地图书馆分布图,没有那么多分馆,是比较简单的示意图。《上海市图书馆分布图》与测绘院合作,自然是绘制正规、印刷精美的那种,免费索取的可能性不大。那么如何可得此图?报道说,“凡11月双休日在上海图书馆上图书店购书满40元者,即送地图一张。凡在11月成为上图书店会员并预存300元购书费者,赠送一张地图和一份明年《文汇读书周报》订单。”没有提及是否可售、售价几何。
    如果获赠只是得到这份地图的条件之一,那没什么问题;如果是只送不买,只是该书店的营销手段,那就太过份了。

    现在Google、雅虎已经开放了地图服务的API已有一些人利用这些地图做了千奇百怪的应用。期待哪位高手能做个网络版的图书馆分布图。这里放的是目前直接利用Google本地搜索,检索内容“图书馆”、检索位置“上海”得到的首页结果图。

更新(2005-10-31)

看到一幅特别的图书馆地图:受卡特里娜与丽塔飓风严重破坏的公共图书馆(GOOGLE地图,含馆名与受破坏情况)
Public Libraries Affected by Hurricanes Katrina and Rita

更新(2006-1-23)

根据leon提供的信息,《上海市图书馆分布图》已经有了电子版