乐此不疲 – 第 41 页 – 编目精灵III

Swicki个人搜索引擎与Spam

三月份时，美国大学与研究图书馆协会(ACRL)代表团来馆，Nancy K. Dennis(新墨西哥州大学图书馆助理馆长)作主要报告“信息技术在美国学术图书馆中的作用”(Role of Information Technology in Academic Libraries within the US)，不知为什么却大谈Swicki的专门搜索引擎“巧克力搜索”(Chocolate Search)。
我当时想起，曾看到某位很兴奋的在自己博客上放好Swicki个人搜索引擎后的尴尬：不知是谁多次检索一个与专题无关的词，结果显示在博客最上方的搜索词云中，最大的就是那个莫名其妙的词――遭遇垃圾(spam)入侵了（可惜当初没有截个图）。

Swicki（http://swicki.eurekster.com/）是一个由用户创建个人搜索引擎的社区，建立后的搜索引擎可以放在自己的网站或博客上，也会在Swicki网站相关目录中显示。其明显特征除了Swicki的search标志外，就是搜索词云(buzz cloud)――很像美味书签的标签云。
建立个人搜索引擎，听上去有点不可思议，其实并不是自己弄个爬虫上网去抓内容，而是对现有搜索引擎的搜索或显示优先顺序作一些后台限定。在Swicki，主要由创建者通过“训练(training)”步骤来实现：

1、提供与本搜索引擎最相关的网站，搜索结果优先显示
2、输入每次搜索隐含加入的词
3、选择是否搜索博客网站
4、如提供自己的网站，搜索结果优先显示
5、其它与本搜索引擎关联的网站，搜索结果优先

换言之，创建者需要做的是从茫茫网海中找出与主题相关的网站，让搜索引擎按所告知的优先顺序排列搜索结果。还可以预先设置一些与主题相关的检索词，作为最热搜索词云中的种子，引导或提示搜索者，本个人搜索引擎关注的重点。

大部分人只有耐心看完搜索结果的前几页，每个搜索引擎独特的搜索结果排序算法，成为用户选择搜索引擎的重要因素。由于Swicki个人搜索的创建者一般熟悉相关领域的网站，将最相关网站的命中优先显示，自然有助于搜索者找到所需内容。
Swicki使用的是雅虎搜索，但利用“社区力量”(community powered)，人为改变搜索结果顺序。一般来说，专门搜索引擎的使用者对该专题都有一定兴趣，他们就构成了一个“社区”。除创建者个人“训练”外，Swicki采用Eurekster技术，基于搜索者的行为对搜索词加权。使用者可以参与每个搜索结果的评价：

1、加标签推荐（推荐新站点）
2、推荐本搜索结果
3、删除本搜索结果
4、删除本搜索结果所在网站

最终，使用者推荐的搜索结果会首先显示。其余的结果可能有5个来自自己的网站、5个来自“训练”中的重要网站，5个来自附加了“训练”中重要关键词的普通网页、5个来自博客（如果“训练”中选择的话）、10个来自其他普通网页。Swicki还有根据使用者点击信息等不断改进排序的设想。
按WebLeOn的说法，“用Swicki所创建的搜索引擎还具有学习功能，可以通过用户的推荐及搜索行为来自动调整搜索结果。而作为创建者，可以对它学习的过程进行控制。”

不但个人建立的搜索引擎被看作一个社区，Swicki本身也是一个更大的社区(community)。是社区，似乎少不了排名。搜索的人越多，个人搜索引擎在Swicki中的排名越靠前。由档案历史学家David Mattison建立的“数字保存搜索引擎”(Digital Preservation Search Engine)，最近进入了“Top Ten Swicki”。他的博客The Ten Thousand Year Blog关注数字文化保存问题，侧栏就放置了“数字保存搜索引擎”，搜索词云中的词或词组均与数字保存相关，搜索最多因而字体最大的是”david bearman”，此人是档案与博物馆信息学会主席(President of Archives & Museum Informatics)。如果要查数字保存领域的资料，或许用他的搜索引擎得到的结果会比较专业。

    回到篇首的例子，难道创建者不能把垃圾搜索词从搜索词云中删除掉吗？如果我在自己的博客上放一个Swicki（支持中文），某个居心不良的人专门输入莫名其妙的词来恶心我，或者大做广告，岂不明摆着要废掉它吗？
    Swicki提供搜索词云显示管理，创建者可以锁定(block)那些不希望出现的搜索词。
    网络中的垃圾无所不在，哪里热门往哪里钻：垃圾邮件、垃圾贴、垃圾网站、垃圾博客、垃圾留言、垃圾搜索词……。想象中热门Swicki的创建者可能还需要在维护过程中，经常删除那些垃圾制造者“推荐”的垃圾站点。网络用户与Spam的战斗永无止境。

创建Swicki是免费的，除了邮箱，也不需要用户的其他个人信息。用户自然要关心它靠什么赢利？答案是广告。如果在“训练”时选择在检索结果中包括广告，创建者可以与Swicki分成。不是强制广告，有利益还能分享，是不是又能赢得创建者的一份心？

编目的乐趣

编目其实是件相当乏味的事，因为规矩太多，一举一动均受约束。有人说，编目之所以无趣，是因为那把尺子（规矩）是别人做好了的，只有量得好不好，不能说这把尺子好不好。其实发现并思考这把尺子好与不好在何处，并不是所有编目员都能够达到的境界。虽然这也是编目工作中比较有挑战性的部分（参见“编目研讨信息源一览”），但对我来讲，编目的乐趣只在于搜索与发现。

    首先的乐趣是寻找以前不知道的数据来源。最初发现美国国会图书馆的Z39.50软件网页，试用多个客户端软件后，发现了可用于中文的丹诚Z39.50前端软件；而后从LC、OhioLINK的Z39.50服务器信息开始，这些年陆续寻找与试用各种Z39.50服务器（Z39.50相关信息链接）；不能通过Z39.50服务器的，还有各类国家图书馆或大型联合目录的WepOPAC可用（RLG的红绿灯、OCLC的开放联合目录、“网上编目参考资源一览”之书目资源），基本上构建起一个常用的免费书目信息库。另外还找到一些可以参考的图书相关网站（亚马逊、Google Print/Google图书搜索、豆瓣）。
    具有讽刺意味的是，数据来源只需寻找一次。随着越来越多的数据源被找到，编目变得越来越乏味。因为大部分东西都可以套录到，编目就好象《摩登时代》中流水线上的卓别林，机械地复制、检索、下载，以各种规矩衡量一遍，修改那些细枝末节，然后提交、保存，真是无丝毫乐趣可言。
    记得读大学时，高数老师曾说，微积分就那几个公式，解题是“纯粹的体力劳动”。编目是又一个绝好实例。

    在无聊中，持续的乐趣就是在编目中发现需要继续寻找的内容。
    最大的一块是在规范方面。如果是翻译作品，寻找原题名就是乐趣；如果发现可能是未规范的名称标目，查找其规范形式就是乐趣；如果文献上的中、日作者是以罗马拼写形式出现的，查找其汉字名称就是乐趣；如果文献中只有汉译姓，查找其罗马拼写就是乐趣；……
    遇到韦氏音标名称，分析出转换为汉语拼音的规律，是一种乐趣；见到记录中有不知来源的出版年，发现原来书上用罗马数字标注，是一种乐趣；为分类找出各种合用的参考网站，更是一种永无止境的乐趣（“网上编目参考资源一览”之分类、主题与与著者号；“最佳编目参考网站”之知识类）；……
    如果没有这些不时冒出的有点意思的事，还真得闷死。

一直自以为得意的是做过一条自认的“超级记录”。那是五年半前为别人打工，用MARC21格式编中文书。大部分都是“纯粹的体力劳动”，总算做到一本《楚图南集》，其中有很多译著。于是很耐心地通过各种方式查找，力图将译著不同语种的原名一一寻出（其中有一部未找出，似乎是译者所编的作品集）。以下除编目来源外，按目前网上检索得到的原样列出，当时功底尚浅，就MARC格式而言有不完善之处。如果是在自己的书目库中，早把看着不顺眼的东东改掉、把记录弄得更漂亮了：

附言：

写此篇与编目作别。出于惯性，以后还会关注到编目的信息，但不会细细地看编目论坛的讨论，也不会花时间研读那些几十、上百页的报告，再总结心得了。
前几天在“最新研究报告：改变目录性质、与其他发现工具集成”和“《资源描述与检索》(RDA)一统江湖？”中增加了几个新出现的重要链接，或许就到此为止了。

上月删除了原来首页过长的编目相关链接，改链自己总结的几篇博文，但不知何故总是“网页上有错误”，似乎无法在首页“自恋”。日后或许可以把本文当做所有编目相关链接的起点。

通过Google学术搜索下载图书馆订购电子资源

年过得差不多了，上Google Scholar遛哒。发现搜索结果很多只能看文摘，记得原来不是这样的。转而一想，其实中文版“Google学术搜索”推出时就这样，大多是维普、万方的文摘，维普可以通过付费卡看全文，而万方似乎还没有形成商业运作模式。
总之，现在Google Scholar/学术搜索可以搜索到的论文肯定多了很多，但却有很多是无法免费下载的了。不过一篇文章有时会有多个下载链接，运气好的话，也还是有免费午餐的。如果没有免费的，还可以想办法，看看图书馆有没有订购全文：

在“学术搜索使用偏好”中有“图书馆链接”。有链接解析器(Link Resolver)的图书馆，可以免费参加“图书馆链接计划”，向Google提供本馆订购的电子馆藏信息后，如果图书馆订购了检出论文，Google学术搜索结果中就会出现指向这些资源链接的选项。也就是说，可以通过Google学术搜索，同时检索到图书馆订购的电子资源。如果在内部网（校园网）内，直接点击链接就可下载全文；如果在公网上，通过一般的用户认证方式也可以下载全文。
当然，图书馆有链接解析器的话，同样可以将Google学术搜索设为检索目标。不论通过图书馆网站还是Google学术搜索，都可以下载所需论文，正是Library 2.0所主张的走向用户所在的一个绝好行动。

    Google学术搜索网站上没有参加图书馆一览表，只有“查找图书馆”搜索框，中文举例为“Tsinghua”，英文为“Harvard”。想知道都有什么图书馆参与，先以Harvard为检索词，检到Harvard University (Find It @ Harvard)；再以Tsinghua为检索词，检到find via Tsinghua Library (get via Tsinghua Library) 。以此类推，用University（或类似的College、Institute）或Library为检索词，可以看到更多参与此计划的图书馆，数量还真不少。
    查到所需图书馆后，在复选框中打勾（如果只检出一个馆，且没有已选中馆，则自动打勾），最多可选三个馆。完成后“储存使用偏好”即可。检索时如论文在有关图书馆馆藏范围，则自动显示链接。如果是在内部网，则无需设定使用偏好，也会自动显示链接。
    不知道为什么可以设定三个，但我想可以充分利用这一点。设定几家电子资源多的图书馆，如果所需论文本馆没有，请哪位朋友帮忙就一目了然了

随便选几家图书馆看看检索结果链接情况，似乎链接解析器以Ex Libris的SFX为多，也见到III的WebBridge。国内参与馆目前已知的有国家图书馆、清华大学、北京师范大学和北京理工大学（未开通），用的都是SFX；香港有香港大学（WebBridge）和香港理工大学。
各馆在Google学术搜索结果中的链接用语五花八门。我比较喜欢“Find It @ Harvard”这种直截了当的，或者“Full-Text @”这样明确的。清华用的是“help from Tsinghua”，似乎对是否真的能通过此链接下载全文没有完全的信心；而北京师范大学的“sfx @ bnu”，对用户而言专业术语味太重，含义不明。

最后，有点遗憾。如果在Google学术搜索中检索中文论文，没有看到有关图书馆链接的话，不要奇怪。因为中文学术期刊数据库目前都没有采用OpenURL，或按可推定的方式构成URL，如此链接解析器无法工作。所以目前“图书馆链接”只对外文论文起作用。