Google在10月开了一个图书馆员中心(Google Librarian Center),计划是发行面向图书馆员的快讯,支持图书馆员推进“图书馆员与Google共同的使命――组织世界上的信息,并使之随处可用”。该快讯为季刊,以电子邮件方式订阅。
如今,第一期快讯Google Librarian News (December 2005) 已经正式发行。开场白中说明“Google馆员中心”的设想源自今年ALA年会,当时Google在那儿设摊展览,与馆员们聊了三天。为继续聊下去,就有了这个快讯。本期主要内容是一篇文章“Google如何收集与排序结果”(How does Google collect and rank results?),回答当时馆员们问得最多的问题。未来还会请馆员与图书馆供应商撰文,提供图书馆相关网站,更新Google产品与服务。
“Google如何收集与排序结果”,大致如下:
先由Google机器人(Googlebot)爬行WWW上的页面。所谓爬行并非真的漫游整个网络,而是发出请求,由对方服务器返回特定网页;然后扫描页面的超链接,再由链接出发,重复同样的请求获取其它网页。机器人给每个被检索页面一个编号。然后,给页面中的每个词建立倒排索引。
Google排序依据多种因素,总起来说是“著名”与“相关”(both reputable and relevant)。PageRank算法针对的是“著名”,由被多少网页链接、这些链接网页本身的质量打分;“相关”则由检索词是否在标题上出现、出现次数、多个检索词间距离…决定。在相关度基本相同的情况下,由著名度来决定排序。
给检出网页打分、排序后,抽取含检索词的部分网页作为摘要(snippets),与URL一同展示为检索结果页面。
Google使用数百台计算机同时执行搜索与结果排序,每一搜索返回时间不超半秒。
因为是一个“快速入门”(quick primer),所以比较初级。为图情专业人员一五一十讲述倒排档检索匹配,好象在给小学生授课,令人心理上有点难以承受。不过,如果用于向没有受过检索训练的读者解释,倒比较合适。文中还有两个练习,是提供中小学馆员给学生练习的。
要是把国内外的图书馆界blog发布这一消息的也汇总一下,那肯定很有意思。^_^。<br><br>精灵先生,加入我们的中文翻译计划吧?<br>
前:用上海话说,那叫“一天世界”――到处都是了。<br><br>后:惭愧得很,无法承诺。主要原因:<br>一是语言水平不够。看是看,译是译。一旦作全文翻译,白纸黑字,从个性上讲,要尽力避免在广大人民群众面前出丑,就会不断地自己折磨自己――想着就可怕。<br>二是年纪一把、诸事繁杂。经营此地已经差不多是全部精力了,只能自私一点了。万望见谅!<br>
看了laolu的相关blog,再看您的这篇,感觉不同了。他的似乎是您所描述的google事实背后的google的用心。<br>
呵呵,精灵多虑了。一日世界至少还有像我们这样不怕死的。<br><br>偶干过好几年的编目――也许根本就不是真正的编目,所以看到编精灵先生的每篇文字常常惭愧得要命。而翻译缺的也许就是这些真正的专业文字。所以才有相邀之意。<br><br>不过没关系,我们会慢慢好起来的。^_^<br>
To herbsun:<br>laolu原来与我的背景相似,其实在对Google的看法上也相似。<br>只不过我就在第一段的那个位置加了一个引号,没作评论――本来也想讲两句的,后来想想好象理由不够充分。伟大领袖曾经说,“大家为了一个共同的目标,走到一起来了”。有共同的使命,好象并不能说明它居心叵测。<br><br>To游园:那“一天世界”(可没有“一日世界”的说法),是指关于Google馆员中心的报导。沪语“一天世界”指到处都是,略带贬意,有弄得乱糟糟让人心烦之意。<br>对于游园、钱涂、烂泥巴三位,我只有由衷的敬佩。因为没有勇气加入,所以不敢在你们那儿吱声。愿你们一切都好,悠着点儿 ^_^<br>