Swicki个人搜索引擎与Spam

    三月份时,美国大学与研究图书馆协会(ACRL)代表团来馆,Nancy K. Dennis(新墨西哥州大学图书馆助理馆长)作主要报告“信息技术在美国学术图书馆中的作用”(Role of Information Technology in Academic Libraries within the US),不知为什么却大谈Swicki的专门搜索引擎“巧克力搜索”(Chocolate Search)。
    我当时想起,曾看到某位很兴奋的在自己博客上放好Swicki个人搜索引擎后的尴尬:不知是谁多次检索一个与专题无关的词,结果显示在博客最上方的搜索词云中,最大的就是那个莫名其妙的词――遭遇垃圾(spam)入侵了(可惜当初没有截个图)。

    Swicki(http://swicki.eurekster.com/)是一个由用户创建个人搜索引擎的社区,建立后的搜索引擎可以放在自己的网站或博客上,也会在Swicki网站相关目录中显示。其明显特征除了Swicki的search标志外,就是搜索词云(buzz cloud)――很像美味书签的标签云。
    建立个人搜索引擎,听上去有点不可思议,其实并不是自己弄个爬虫上网去抓内容,而是对现有搜索引擎的搜索或显示优先顺序作一些后台限定。在Swicki,主要由创建者通过“训练(training)”步骤来实现:

1、提供与本搜索引擎最相关的网站,搜索结果优先显示
2、输入每次搜索隐含加入的词
3、选择是否搜索博客网站
4、如提供自己的网站,搜索结果优先显示
5、其它与本搜索引擎关联的网站,搜索结果优先

    换言之,创建者需要做的是从茫茫网海中找出与主题相关的网站,让搜索引擎按所告知的优先顺序排列搜索结果。还可以预先设置一些与主题相关的检索词,作为最热搜索词云中的种子,引导或提示搜索者,本个人搜索引擎关注的重点。

    大部分人只有耐心看完搜索结果的前几页,每个搜索引擎独特的搜索结果排序算法,成为用户选择搜索引擎的重要因素。由于Swicki个人搜索的创建者一般熟悉相关领域的网站,将最相关网站的命中优先显示,自然有助于搜索者找到所需内容。
    Swicki使用的是雅虎搜索,但利用“社区力量”(community powered),人为改变搜索结果顺序。一般来说,专门搜索引擎的使用者对该专题都有一定兴趣,他们就构成了一个“社区”。除创建者个人“训练”外,Swicki采用Eurekster技术,基于搜索者的行为对搜索词加权。使用者可以参与每个搜索结果的评价:

1、加标签推荐(推荐新站点)
2、推荐本搜索结果
3、删除本搜索结果
4、删除本搜索结果所在网站

    最终,使用者推荐的搜索结果会首先显示。其余的结果可能有5个来自自己的网站、5个来自“训练”中的重要网站,5个来自附加了“训练”中重要关键词的普通网页、5个来自博客(如果“训练”中选择的话)、10个来自其他普通网页。Swicki还有根据使用者点击信息等不断改进排序的设想。
    按WebLeOn的说法,“用Swicki所创建的搜索引擎还具有学习功能,可以通过用户的推荐及搜索行为来自动调整搜索结果。而作为创建者,可以对它学习的过程进行控制。”

    不但个人建立的搜索引擎被看作一个社区,Swicki本身也是一个更大的社区(community)。是社区,似乎少不了排名。搜索的人越多,个人搜索引擎在Swicki中的排名越靠前。由档案历史学家David Mattison建立的“数字保存搜索引擎”(Digital Preservation Search Engine),最近进入了“Top Ten Swicki”。他的博客The Ten Thousand Year Blog关注数字文化保存问题,侧栏就放置了“数字保存搜索引擎”,搜索词云中的词或词组均与数字保存相关,搜索最多因而字体最大的是”david bearman”,此人是档案与博物馆信息学会主席(President of Archives & Museum Informatics)。如果要查数字保存领域的资料,或许用他的搜索引擎得到的结果会比较专业。

    回到篇首的例子,难道创建者不能把垃圾搜索词从搜索词云中删除掉吗?如果我在自己的博客上放一个Swicki(支持中文),某个居心不良的人专门输入莫名其妙的词来恶心我,或者大做广告,岂不明摆着要废掉它吗?
    Swicki提供搜索词云显示管理,创建者可以锁定(block)那些不希望出现的搜索词。
    网络中的垃圾无所不在,哪里热门往哪里钻:垃圾邮件、垃圾贴、垃圾网站、垃圾博客、垃圾留言、垃圾搜索词……。想象中热门Swicki的创建者可能还需要在维护过程中,经常删除那些垃圾制造者“推荐”的垃圾站点。网络用户与Spam的战斗永无止境。

    创建Swicki是免费的,除了邮箱,也不需要用户的其他个人信息。用户自然要关心它靠什么赢利?答案是广告。如果在“训练”时选择在检索结果中包括广告,创建者可以与Swicki分成。不是强制广告,有利益还能分享,是不是又能赢得创建者的一份心?