大千世界 – 第 141 页

用Google收藏喜欢的网页

    Google个性化搜索已经推出很久了，一直不想使用。因为觉得自己平时并没有遇到太多搜索问题，需要Google进一步优化；反而因为已经用了太多基于Google帐户的服务，让Google搜集了太多个人隐私，不想把自己全部都卖给Google了。
    前几天Library Journal博客上说Google个性化搜索新推出个人搜索统计（Personal Search Engine Stats），可以告诉你最常搜索的词、最常点击的搜索结果、最常搜索的时段――它对你的了解真是太多了。
    终于下决心登录进去看个究竟，不意发现其中有一个“管理书签”功能，“给您喜爱的网站加上书签，并添加可搜索的标签和备注”――这不是又一个书签服务吗？原来雅虎大张旗鼓收购美味书签，Google则悄悄地建起自己的书签服务了。用户增加的书签，未来无疑将成为改善网页搜索的一个重要砝码。

无论是Google书签，还是其它“社会书签”，一个致命的弱点就是对网络服务的依赖性。一旦服务网站无法访问，就会临时“失忆”；如果服务网站关门，就会彻底“失忆”。所以，不提供收藏“导出”功能的网站如新浪Vivi、博采，就显得很可怕。尽管我可能很少“导出”，但我需要这个功能给自己留一条后路！Goolge书签也没有导出功能，也没有美味书签那样的社会化功能，如何吸引用户使用，值得关注。

据说某位高人就用一个EXCEL工作薄，设定好格式，只需复制入网址等必要信息，可随时输出成网页格式的“我的收藏”文件。随身带个U盘，就可随时收藏，倒也不失为一个不求人的好办法。

2005美国学术图书馆员关注大事

岁末正是年度总结的时光。LISNews早早推出了“2005十大事件”（Ten Stories that Shaped 2005），好象和我们关系不大。美国大学与研究图书馆协会(ACRL)博客(ACRLog)赶在年前推出了“2005学术馆员关注大事”（Top Stories of 2005 For Academic Librarians），虽仍不免地域特点，还是很值得一看。以下排名不分先后（链接为本人添加）：

Google Book Search and Open Content Alliance（Google图书搜索与开放内容联盟）
Blackboard Merges With WebCT（两大课件软件“黑板”与WebCT合并）
Information Literacy Backlash（关于信息素养的大讨论）
Emerald Pulls A Fast One（学术期刊出版商Emerald被揭露有不同期刊的多期内容相同）
Ilene Rockman Passes Away（信息素养研究专家Ilene Rockman去世。见有关报道）
The Bookless Academic Library（德州大学的学生图书馆有大量电脑、一个咖啡店、舒适的座椅、24小时技术帮助，但没有书――成为没有书的学术图书馆）
Katrina Devastates Gulf Coast（卡特丽娜飓风）
All Hail The Chair Of Information Literacy（普渡大学设立信息素养教授。见该校新闻）
Virtual Conferencing Makes A Splash（ACRL在ALA各协会中首次在2005年会同时举行虚拟会议，2006年将举行全虚拟会议）
Can UKU With All This Tech Stuff（跟上新技术：博客, RSS, 新闻聚合器, 播客, 短信服务, 屏播, 视频博客, 社会书签, 大众分类, 标签, 个性化, Web及图书馆2.0, 语义网, 机构库, 开源, 垂直搜索……）
Talkin’ ‘Bout The Generations（?）
Getting Savvy To ID&T（了解教育技术：学术图书馆员有更多机会融入校园教学、专业发展、以及教育技术资源管理的讨论）
“Perceptions” Report Is Eye Opener（OCLC“理解图书馆与信息资源”报告让人睁眼看世界。参见报告文本“Perceptions of Libraries and Information Resources (2005)” ）
ACRL Debuts Its Blog（ACRL博客开张）

    这么多件事涉及“信息素养”，看来美国大学图书馆对此真的很在意。ACRLog有文指出，关于信息素养已经研究了20年，发表文章大概有5000篇，是时候行动起来建立教师主导、馆员辅助的培养信息素养的制度了。
    各种信息技术也是重点――网络数字化图书、与信息素养相关的课件软件及其它教育技术、令人眼花缭乱的“Tech Stuff”。
    不管关注什么，图书馆的生存是最需要关注的――通过OCLC的“Perceptions of Libraries and Information Resources”，我们可以更多地了解图书馆的生存环境（见图林中文译站“《图书馆与信息资源的理解：给oclc成员的报告》之结论部分”，国内镜像）。

Google图书馆员中心开张运行

Google在10月开了一个图书馆员中心（Google Librarian Center），计划是发行面向图书馆员的快讯，支持图书馆员推进“图书馆员与Google共同的使命――组织世界上的信息，并使之随处可用”。该快讯为季刊，以电子邮件方式订阅。

如今，第一期快讯Google Librarian News (December 2005) 已经正式发行。开场白中说明“Google馆员中心”的设想源自今年ALA年会，当时Google在那儿设摊展览，与馆员们聊了三天。为继续聊下去，就有了这个快讯。本期主要内容是一篇文章“Google如何收集与排序结果”（How does Google collect and rank results?），回答当时馆员们问得最多的问题。未来还会请馆员与图书馆供应商撰文，提供图书馆相关网站，更新Google产品与服务。

    “Google如何收集与排序结果”，大致如下：
    先由Google机器人（Googlebot）爬行WWW上的页面。所谓爬行并非真的漫游整个网络，而是发出请求，由对方服务器返回特定网页；然后扫描页面的超链接，再由链接出发，重复同样的请求获取其它网页。机器人给每个被检索页面一个编号。然后，给页面中的每个词建立倒排索引。
    Google排序依据多种因素，总起来说是“著名”与“相关”（both reputable and relevant）。PageRank算法针对的是“著名”，由被多少网页链接、这些链接网页本身的质量打分；“相关”则由检索词是否在标题上出现、出现次数、多个检索词间距离…决定。在相关度基本相同的情况下，由著名度来决定排序。
    给检出网页打分、排序后，抽取含检索词的部分网页作为摘要（snippets），与URL一同展示为检索结果页面。
    Google使用数百台计算机同时执行搜索与结果排序，每一搜索返回时间不超半秒。

因为是一个“快速入门”（quick primer），所以比较初级。为图情专业人员一五一十讲述倒排档检索匹配，好象在给小学生授课，令人心理上有点难以承受。不过，如果用于向没有受过检索训练的读者解释，倒比较合适。文中还有两个练习，是提供中小学馆员给学生练习的。