Swicki个人搜索引擎与Spam

    三月份时,美国大学与研究图书馆协会(ACRL)代表团来馆,Nancy K. Dennis(新墨西哥州大学图书馆助理馆长)作主要报告“信息技术在美国学术图书馆中的作用”(Role of Information Technology in Academic Libraries within the US),不知为什么却大谈Swicki的专门搜索引擎“巧克力搜索”(Chocolate Search)。
    我当时想起,曾看到某位很兴奋的在自己博客上放好Swicki个人搜索引擎后的尴尬:不知是谁多次检索一个与专题无关的词,结果显示在博客最上方的搜索词云中,最大的就是那个莫名其妙的词――遭遇垃圾(spam)入侵了(可惜当初没有截个图)。

    Swicki(http://swicki.eurekster.com/)是一个由用户创建个人搜索引擎的社区,建立后的搜索引擎可以放在自己的网站或博客上,也会在Swicki网站相关目录中显示。其明显特征除了Swicki的search标志外,就是搜索词云(buzz cloud)――很像美味书签的标签云。
    建立个人搜索引擎,听上去有点不可思议,其实并不是自己弄个爬虫上网去抓内容,而是对现有搜索引擎的搜索或显示优先顺序作一些后台限定。在Swicki,主要由创建者通过“训练(training)”步骤来实现:

1、提供与本搜索引擎最相关的网站,搜索结果优先显示
2、输入每次搜索隐含加入的词
3、选择是否搜索博客网站
4、如提供自己的网站,搜索结果优先显示
5、其它与本搜索引擎关联的网站,搜索结果优先

    换言之,创建者需要做的是从茫茫网海中找出与主题相关的网站,让搜索引擎按所告知的优先顺序排列搜索结果。还可以预先设置一些与主题相关的检索词,作为最热搜索词云中的种子,引导或提示搜索者,本个人搜索引擎关注的重点。

    大部分人只有耐心看完搜索结果的前几页,每个搜索引擎独特的搜索结果排序算法,成为用户选择搜索引擎的重要因素。由于Swicki个人搜索的创建者一般熟悉相关领域的网站,将最相关网站的命中优先显示,自然有助于搜索者找到所需内容。
    Swicki使用的是雅虎搜索,但利用“社区力量”(community powered),人为改变搜索结果顺序。一般来说,专门搜索引擎的使用者对该专题都有一定兴趣,他们就构成了一个“社区”。除创建者个人“训练”外,Swicki采用Eurekster技术,基于搜索者的行为对搜索词加权。使用者可以参与每个搜索结果的评价:

1、加标签推荐(推荐新站点)
2、推荐本搜索结果
3、删除本搜索结果
4、删除本搜索结果所在网站

    最终,使用者推荐的搜索结果会首先显示。其余的结果可能有5个来自自己的网站、5个来自“训练”中的重要网站,5个来自附加了“训练”中重要关键词的普通网页、5个来自博客(如果“训练”中选择的话)、10个来自其他普通网页。Swicki还有根据使用者点击信息等不断改进排序的设想。
    按WebLeOn的说法,“用Swicki所创建的搜索引擎还具有学习功能,可以通过用户的推荐及搜索行为来自动调整搜索结果。而作为创建者,可以对它学习的过程进行控制。”

    不但个人建立的搜索引擎被看作一个社区,Swicki本身也是一个更大的社区(community)。是社区,似乎少不了排名。搜索的人越多,个人搜索引擎在Swicki中的排名越靠前。由档案历史学家David Mattison建立的“数字保存搜索引擎”(Digital Preservation Search Engine),最近进入了“Top Ten Swicki”。他的博客The Ten Thousand Year Blog关注数字文化保存问题,侧栏就放置了“数字保存搜索引擎”,搜索词云中的词或词组均与数字保存相关,搜索最多因而字体最大的是”david bearman”,此人是档案与博物馆信息学会主席(President of Archives & Museum Informatics)。如果要查数字保存领域的资料,或许用他的搜索引擎得到的结果会比较专业。

    回到篇首的例子,难道创建者不能把垃圾搜索词从搜索词云中删除掉吗?如果我在自己的博客上放一个Swicki(支持中文),某个居心不良的人专门输入莫名其妙的词来恶心我,或者大做广告,岂不明摆着要废掉它吗?
    Swicki提供搜索词云显示管理,创建者可以锁定(block)那些不希望出现的搜索词。
    网络中的垃圾无所不在,哪里热门往哪里钻:垃圾邮件、垃圾贴、垃圾网站、垃圾博客、垃圾留言、垃圾搜索词……。想象中热门Swicki的创建者可能还需要在维护过程中,经常删除那些垃圾制造者“推荐”的垃圾站点。网络用户与Spam的战斗永无止境。

    创建Swicki是免费的,除了邮箱,也不需要用户的其他个人信息。用户自然要关心它靠什么赢利?答案是广告。如果在“训练”时选择在检索结果中包括广告,创建者可以与Swicki分成。不是强制广告,有利益还能分享,是不是又能赢得创建者的一份心?

 

编目的乐趣

    编目其实是件相当乏味的事,因为规矩太多,一举一动均受约束。有人说,编目之所以无趣,是因为那把尺子(规矩)是别人做好了的,只有量得好不好,不能说这把尺子好不好。其实发现并思考这把尺子好与不好在何处,并不是所有编目员都能够达到的境界。虽然这也是编目工作中比较有挑战性的部分(参见“编目研讨信息源一览”),但对我来讲,编目的乐趣只在于搜索与发现。

    首先的乐趣是寻找以前不知道的数据来源。最初发现美国国会图书馆的Z39.50软件网页,试用多个客户端软件后,发现了可用于中文的丹诚Z39.50前端软件;而后从LC、OhioLINK的Z39.50服务器信息开始,这些年陆续寻找与试用各种Z39.50服务器(Z39.50相关信息链接);不能通过Z39.50服务器的,还有各类国家图书馆或大型联合目录的WepOPAC可用(RLG的红绿灯OCLC的开放联合目录、“网上编目参考资源一览”之书目资源),基本上构建起一个常用的免费书目信息库。另外还找到一些可以参考的图书相关网站(亚马逊Google Print/Google图书搜索豆瓣)。
    具有讽刺意味的是,数据来源只需寻找一次。随着越来越多的数据源被找到,编目变得越来越乏味。因为大部分东西都可以套录到,编目就好象《摩登时代》中流水线上的卓别林,机械地复制、检索、下载,以各种规矩衡量一遍,修改那些细枝末节,然后提交、保存,真是无丝毫乐趣可言。
    记得读大学时,高数老师曾说,微积分就那几个公式,解题是“纯粹的体力劳动”。编目是又一个绝好实例。

    在无聊中,持续的乐趣就是在编目中发现需要继续寻找的内容。  
    最大的一块是在规范方面。如果是翻译作品,寻找原题名就是乐趣;如果发现可能是未规范的名称标目,查找其规范形式就是乐趣;如果文献上的中、日作者是以罗马拼写形式出现的,查找其汉字名称就是乐趣;如果文献中只有汉译姓,查找其罗马拼写就是乐趣;……
    遇到韦氏音标名称,分析出转换为汉语拼音的规律,是一种乐趣;见到记录中有不知来源的出版年,发现原来书上用罗马数字标注,是一种乐趣;为分类找出各种合用的参考网站,更是一种永无止境的乐趣(“网上编目参考资源一览”之分类、主题与与著者号;“最佳编目参考网站”之知识类);……
    如果没有这些不时冒出的有点意思的事,还真得闷死。

    一直自以为得意的是做过一条自认的“超级记录”。那是五年半前为别人打工,用MARC21格式编中文书。大部分都是“纯粹的体力劳动”,总算做到一本《楚图南集》,其中有很多译著。于是很耐心地通过各种方式查找,力图将译著不同语种的原名一一寻出(其中有一部未找出,似乎是译者所编的作品集)。以下除编目来源外,按目前网上检索得到的原样列出,当时功底尚浅,就MARC格式而言有不完善之处。如果是在自己的书目库中,早把看着不顺眼的东东改掉、把记录弄得更漂亮了:

LEADER 00000nam  2200000 a 4500c
008    000904s1999    cc ac  e b    000 0dchi d
020    7541516589 (set)
040    XXX
041 1  chi|henggerrus
090    DS778.C63|bA2 1999
100 1  楚圖南,|d1899-1994.
245 10 楚圖南集.
250    第1版.
260    [昆明] :|b雲南敎育出版社,|c1999.
300    5 v. :|bill., ports. ;|c21 cm.
504    Includes bibliographical references.
505 0  v. 1. 著作 — v. 2. 文選 — v. 3. 譯著: 地理學發達史; 看哪, 這人; 查拉斯圖拉如是說 — v. 4. 譯著: 在俄羅斯誰能快樂而自由; 楓葉集; 草葉集選 — v. 5. 譯著: 希臘的神話和傳說; 附: 楚圖南年譜.
700 1  Dickinson, Robert Eric,|d1905-|tmaking of geography.
       |lChinses.
700 1  Nietzsche, Friedrich Wilhelm,|d1844-1900.|tEcce homo.
       |lChinese.
700 1  Nietzsche, Friedrich Wilhelm,|d1844-1900.|tAlso sprach
       Zarathustra.|lChinses.
700 1  Nekrasov, Nikolai Alekseevich,|d1821-1877.|tKomu na Rusi
       zhit&apos khorosho.|lChinses.
700 1  Whitman, Walt,|d1819-1892.|tLeaves of grass.|lChinses.
700 1  Schwab, Gustav,|d1792-1850.|tSchonsten Sagen des
       klassisches Altertums.|lChinese.

附言:

    写此篇与编目作别。出于惯性,以后还会关注到编目的信息,但不会细细地看编目论坛的讨论,也不会花时间研读那些几十、上百页的报告,再总结心得了。
    前几天在“最新研究报告:改变目录性质、与其他发现工具集成”和“《资源描述与检索》(RDA)一统江湖?”中增加了几个新出现的重要链接,或许就到此为止了。

    上月删除了原来首页过长的编目相关链接,改链自己总结的几篇博文,但不知何故总是“网页上有错误”,似乎无法在首页“自恋”。日后或许可以把本文当做所有编目相关链接的起点。

深圳图书馆新馆

    深圳图书馆选择4·23世界阅读日/世界读书日/世界书香日/世界图书与版权日(World Book and Copyright Day),召开新馆落成新闻发布会。图书馆搬迁工作全面开展,预计7月初开放。老馆将于6月初关闭,重新装修后成为新的深圳少年儿童图书馆。

从深圳当地新闻中搜罗出的一些信息:

基本信息:
占地面积2.9万多平方米,总建筑面积49589平方米,概算投资7.7亿。
现有藏书180万册,藏书容量400万册。
拥有读者座椅2500个,日均可接待读者8000人次。
网络节点3000个;在中国内地率先采用RFID系统,将实现图书自助借还书、图书自助分拣、自动整序排架、自助清典馆藏、智能图书车和射频防盗报警等一系列自动化管理功能。

楼层分布:
首层:大众报刊服务区,并设有视障人士阅览室;
二层:人文社科图书区;
三层:科学技术图书区;
四层:信息服务区(多媒体视听、电子文献阅览、网络漫游);
五层:专题服务区,分为法律、时装、商贸及港台文献资料室;
六层:特藏服务区,提供深圳本土地方文献阅览、国学文献阅览等。

服务信息:
定位为大众性、研究性、数字化三位一体的大型现代化图书馆。
实行“全面开放、免证阅览、分层管理、一卡通行”的方式,所有文献对所有人开放,不管读者身份如何,全都一视同仁。
除复印、下载、借书证等收取工本费外,所有服务都免费提供(包括上网)

花絮:
武警部队派五台军车和近两个班的干部战士前来帮忙搬迁。

亮点:RFID的应用(尽管集美大学图书馆已经“率先”了,但规模远不及深图)
盲点:借书证收取工本费

 

Update (2006/6/11) 深圳图书馆从善如流

6月1日,吴晞馆长还在超平的“今天将改写杭州公共图书馆的历史”下留言:“我多年疾呼图书馆免费服务,但也反对一刀切的方式。只要不与创收、奖金、福利挂钩,合理的费用还是要收的。如借书证工本费,至少有避免随意丢失的作用。矫妄就是了,别过正了。”超平当时回复说:“吴馆长,可以通过一些管理办法来解决您说的问题,比如遗失补办加收工本费。”不到十天,深圳图书馆就发布办证通告(深圳图书馆新馆从6月10日起开始提前办理读者证):“首次办证、旧证换新证免收工本费;补办证收取工本费10。”