编目精灵III

Google在10月开了一个图书馆员中心（Google Librarian Center），计划是发行面向图书馆员的快讯，支持图书馆员推进“图书馆员与Google共同的使命――组织世界上的信息，并使之随处可用”。该快讯为季刊，以电子邮件方式订阅。

如今，第一期快讯Google Librarian News (December 2005) 已经正式发行。开场白中说明“Google馆员中心”的设想源自今年ALA年会，当时Google在那儿设摊展览，与馆员们聊了三天。为继续聊下去，就有了这个快讯。本期主要内容是一篇文章“Google如何收集与排序结果”（How does Google collect and rank results?），回答当时馆员们问得最多的问题。未来还会请馆员与图书馆供应商撰文，提供图书馆相关网站，更新Google产品与服务。

    “Google如何收集与排序结果”，大致如下：
    先由Google机器人（Googlebot）爬行WWW上的页面。所谓爬行并非真的漫游整个网络，而是发出请求，由对方服务器返回特定网页；然后扫描页面的超链接，再由链接出发，重复同样的请求获取其它网页。机器人给每个被检索页面一个编号。然后，给页面中的每个词建立倒排索引。
    Google排序依据多种因素，总起来说是“著名”与“相关”（both reputable and relevant）。PageRank算法针对的是“著名”，由被多少网页链接、这些链接网页本身的质量打分；“相关”则由检索词是否在标题上出现、出现次数、多个检索词间距离…决定。在相关度基本相同的情况下，由著名度来决定排序。
    给检出网页打分、排序后，抽取含检索词的部分网页作为摘要（snippets），与URL一同展示为检索结果页面。
    Google使用数百台计算机同时执行搜索与结果排序，每一搜索返回时间不超半秒。

因为是一个“快速入门”（quick primer），所以比较初级。为图情专业人员一五一十讲述倒排档检索匹配，好象在给小学生授课，令人心理上有点难以承受。不过，如果用于向没有受过检索训练的读者解释，倒比较合适。文中还有两个练习，是提供中小学馆员给学生练习的。

归档

Google图书馆员中心开张运行