为什么查资料要靠图书馆?

    父亲要查一些化学品的化学文摘社登记号(CAS RN),习惯性地打算去市图书馆。我想帮他在本馆解决,最终得知本馆只能查Dialog
    没有单独的《化学文摘》(CA)可查,我就想找公开检索途径。

    首先就是直接用Google搜索。对于有化学物质名称的化学品,用“化学物质名称+CAS”的方法,很方便就查到了。但是这种方法对只有商品名的化学品基本上无效。
    对于只有商品名的化学品,想到查Dialog Open Access。Dialog开放访问的化学部分,有化学物质名录(Chemical Substances Directory),可以通过商品名、公司名查CAS号。但结果一个也没有查到。看查询来源,原来是The Merck Index Online(Dialog 304文档),一部生化百科全书,仅一万多词条。
    于是把希望寄托在“正式”途径,找馆里专家帮忙,通过教学帐号试查Dialog的399文档《化学文摘》(CA Search)――结果六个中也只查到一个。
    兜了一圈回到原地,最后还是用Google,先查生产公司,再在公司网站中查。用这种方法,虽然费点力气,但查到了其余三个(CA中查到的那个应该也可以用此法查到)。还剩两个由两种有机物合成的盐,没有找到CAS号,或许本来就没有?

    虽然自己身在图书馆工作,经此一番还是觉得,查资料越来越不需要依靠图书馆了。以前CA只有图书馆有收藏,要查CAS号也只有CA一条途径,所以图书馆必不可少。但网络已经改变了这一切。
    以上经历,只是网络及搜索引擎正在取代图书馆的一个例证。老一辈科研人员即使会用电脑、会上网,多半对网络不够熟悉,还习惯上图书馆查资料,而在网络时代成长的一代,会离图书馆越来越远。

 

国家科学图书馆的网络营销

    又一家国内图书馆在Google Scholar/学术搜索上开通了“图书馆链接”――刚刚改名的国家科学图书馆。来自的中科院网站的新闻“国家科学图书馆联合目录与Google Scholar连接正式开通”:

    “用户通过Google Scholar进行学术文献查询时,Google Scholar能够根据IP地址判断是否是中国用户,如果是中国用户,所查询的学术文献同时又在国家科学图书馆联合目录的馆藏资源范围内,那么在检索结果页面上将出现“图书馆搜索”连接图标(如果是英文主页搜索将显示“Find in ChinaCat”连接图标),用户点击该连接后,系统将引导用户直接进入国家科学数字图书馆联合服务系统,用户可以通过原文传递服务获取全文。”

    有点疑惑的是,Google学术搜索的搜索范围只限论文,怎么与收录图书的图书馆目录相连?实际作一下检索,从中科院文献情报中心网站的馆藏目录中查到《科学史八讲》,用此书查Google学术搜索,结果只有[引用]及“被引用次数”与“网页搜索”,并没有看到所说的链接标志。查英文《The Information Age in Perspective》,结果也是一样

    再看报道,方参透此中玄机――差不多可称之为“抢注”吧。尽管现在Google学术搜索中还不会出现相关链接,但报道说明国家科学图书馆计划做好西文期刊部分,并且今后或许Google图书搜索也会提供相关链接,这样的话:

未来在Google学术搜索/图书搜索中出现“图书馆搜索”,用户不会认为那只是国家科学图书馆的目录,还以为要查图书馆的资料就该点击此链了;而在Google Scholar中出现“Find in ChinaCat”就更绝了,外国用户要查中国图书馆的资料,就只点此链了。

    链接有什么好处?“用户点击该连接后,系统将引导用户直接进入国家科学数字图书馆联合服务系统,用户可以通过原文传递服务获取全文。”一般图书馆参与“图书馆链接”计划的目的是给用户直接链接全文,而国家科学图书馆的意图是文件传递――换言之,通过服务获取利益。这是一个深谋远虑的网络营销计划。

    上个月馆里请上图吴建中馆长作报告,讲到大英图书馆(The British Library, BL)的营销,吴馆长盛赞2000年上任的馆长Lynne Brindley女士。BL是企业化了,馆长被称为“Chief Executive”,组织结构图被称为“Corporate structure”,而且从中一点也看不到图书馆业务的影子。
    其实早在我的大学时代,BL就是营销高手,当时BL外借部几乎是我们所知的唯一国际性馆际互借机构。通过馆际互借,BL赚了不少钱。到了文献传递时代,BL已先期参与了Google Scholar的图书馆链接计划,“BL Direct”让用户可以直接付费看到电子文献。
    这样有着广泛潜力的市场,国内图书馆当然不能只让万方、维普之类参与中文Google学术搜索的企业专美。
    不知道早就参与“图书馆链接”计划的国家图书馆,是不是后悔当初在链接中用了“National Library of China”这种中规中矩的名称?
   

有关Google学术搜索的“图书馆链接”计划参见:
通过Google学术搜索下载图书馆订购电子资源

 

Swicki个人搜索引擎与Spam

    三月份时,美国大学与研究图书馆协会(ACRL)代表团来馆,Nancy K. Dennis(新墨西哥州大学图书馆助理馆长)作主要报告“信息技术在美国学术图书馆中的作用”(Role of Information Technology in Academic Libraries within the US),不知为什么却大谈Swicki的专门搜索引擎“巧克力搜索”(Chocolate Search)。
    我当时想起,曾看到某位很兴奋的在自己博客上放好Swicki个人搜索引擎后的尴尬:不知是谁多次检索一个与专题无关的词,结果显示在博客最上方的搜索词云中,最大的就是那个莫名其妙的词――遭遇垃圾(spam)入侵了(可惜当初没有截个图)。

    Swicki(http://swicki.eurekster.com/)是一个由用户创建个人搜索引擎的社区,建立后的搜索引擎可以放在自己的网站或博客上,也会在Swicki网站相关目录中显示。其明显特征除了Swicki的search标志外,就是搜索词云(buzz cloud)――很像美味书签的标签云。
    建立个人搜索引擎,听上去有点不可思议,其实并不是自己弄个爬虫上网去抓内容,而是对现有搜索引擎的搜索或显示优先顺序作一些后台限定。在Swicki,主要由创建者通过“训练(training)”步骤来实现:

1、提供与本搜索引擎最相关的网站,搜索结果优先显示
2、输入每次搜索隐含加入的词
3、选择是否搜索博客网站
4、如提供自己的网站,搜索结果优先显示
5、其它与本搜索引擎关联的网站,搜索结果优先

    换言之,创建者需要做的是从茫茫网海中找出与主题相关的网站,让搜索引擎按所告知的优先顺序排列搜索结果。还可以预先设置一些与主题相关的检索词,作为最热搜索词云中的种子,引导或提示搜索者,本个人搜索引擎关注的重点。

    大部分人只有耐心看完搜索结果的前几页,每个搜索引擎独特的搜索结果排序算法,成为用户选择搜索引擎的重要因素。由于Swicki个人搜索的创建者一般熟悉相关领域的网站,将最相关网站的命中优先显示,自然有助于搜索者找到所需内容。
    Swicki使用的是雅虎搜索,但利用“社区力量”(community powered),人为改变搜索结果顺序。一般来说,专门搜索引擎的使用者对该专题都有一定兴趣,他们就构成了一个“社区”。除创建者个人“训练”外,Swicki采用Eurekster技术,基于搜索者的行为对搜索词加权。使用者可以参与每个搜索结果的评价:

1、加标签推荐(推荐新站点)
2、推荐本搜索结果
3、删除本搜索结果
4、删除本搜索结果所在网站

    最终,使用者推荐的搜索结果会首先显示。其余的结果可能有5个来自自己的网站、5个来自“训练”中的重要网站,5个来自附加了“训练”中重要关键词的普通网页、5个来自博客(如果“训练”中选择的话)、10个来自其他普通网页。Swicki还有根据使用者点击信息等不断改进排序的设想。
    按WebLeOn的说法,“用Swicki所创建的搜索引擎还具有学习功能,可以通过用户的推荐及搜索行为来自动调整搜索结果。而作为创建者,可以对它学习的过程进行控制。”

    不但个人建立的搜索引擎被看作一个社区,Swicki本身也是一个更大的社区(community)。是社区,似乎少不了排名。搜索的人越多,个人搜索引擎在Swicki中的排名越靠前。由档案历史学家David Mattison建立的“数字保存搜索引擎”(Digital Preservation Search Engine),最近进入了“Top Ten Swicki”。他的博客The Ten Thousand Year Blog关注数字文化保存问题,侧栏就放置了“数字保存搜索引擎”,搜索词云中的词或词组均与数字保存相关,搜索最多因而字体最大的是”david bearman”,此人是档案与博物馆信息学会主席(President of Archives & Museum Informatics)。如果要查数字保存领域的资料,或许用他的搜索引擎得到的结果会比较专业。

    回到篇首的例子,难道创建者不能把垃圾搜索词从搜索词云中删除掉吗?如果我在自己的博客上放一个Swicki(支持中文),某个居心不良的人专门输入莫名其妙的词来恶心我,或者大做广告,岂不明摆着要废掉它吗?
    Swicki提供搜索词云显示管理,创建者可以锁定(block)那些不希望出现的搜索词。
    网络中的垃圾无所不在,哪里热门往哪里钻:垃圾邮件、垃圾贴、垃圾网站、垃圾博客、垃圾留言、垃圾搜索词……。想象中热门Swicki的创建者可能还需要在维护过程中,经常删除那些垃圾制造者“推荐”的垃圾站点。网络用户与Spam的战斗永无止境。

    创建Swicki是免费的,除了邮箱,也不需要用户的其他个人信息。用户自然要关心它靠什么赢利?答案是广告。如果在“训练”时选择在检索结果中包括广告,创建者可以与Swicki分成。不是强制广告,有利益还能分享,是不是又能赢得创建者的一份心?