谷歌搜索的离去

上周就有消息说Google将在本周一离开中国,果然周二凌晨(美国的周一)谷歌搜索走了,Google.cn被重向到google.com.hk──欢迎您来到谷歌搜索在中国的新家。
香港也是中国,而且目前只是谷歌搜索离开,其它如谷歌音乐仍可访问,所以Google其实并未离开中国。

有人说Google.cn没有“登录”入口,我没有注意过。但我注意过,在谷歌音乐想保存某首歌,点击“登录”后,出现的是:

登录到谷歌音乐
使用蝌蚪网账号登录 »
使用人人网账号登录 »
使用Windows Live账号登录 »
使用Yahoo!账号登录 »
无需注册,谷歌音乐支持使用您常用的账户直接登录

对搜集用户信息有强烈嗜好的Google,竟然不支持用Google帐户登录,当时还有点奇怪。
我知道Google.cn没有邮箱,那是有Yahoo!的前车之鉴。把所有这些信息联系起来,说明Google一开始就决定不在中国的服务器上留下用户的信息,以免被迫暴露用户隐私。

谷歌搜索离去,其实更多地具有象征意义。因为一直以来,用其他Google搜索,都支持中文搜索,也支持中文界面。
相信政府大概还不至于像屏蔽YouTube等等那样把Google搜索一起屏蔽掉。对中国用户来说,可能会出现经常碰到临时性无法访问,因为搜索了某个无法预知的敏感词(包括局域网中其他人搜索了敏感词)。

对于Google是否不遵守中国法律,基本没什么可多说的。Google设了一个网页 Mainland China service availability,显示中国大陆访问各个 Google 服务的情况。大家可以从这个侧面,了解政府是如何“鼓励和推动互联网的开放”的。

参见可能吧:Google退出中国成定局,抹黑行动开始(需翻墙)

Google不支持元搜索

    最近谷歌中国故事多,谷歌图书收录中文图书的麻烦未解,Google总部突然发布了退出中国的惊人消息。
    关闭谷歌中国对我而言是无所谓的事,因为我不用g.cn,虽然偶用谷歌音乐、谷歌金山词霸、谷歌拼音、谷歌日历的手机提醒(与中移动合作)……。不过,谷歌离开中国,是否意味着www.google.com也会无法访问?这个麻烦就大了。转过来想,Google旗下的YouTube及一级域名同为google.com的Picasaweb、Sites、Docs下的电子表格……等等,倾注了自己不少心血,然无法访问久矣。Google是否退出中国,对www.google.com是否可以访问的影响不会是决定性的。
    对Google退出中国声明的评论铺天盖地,说坏的就不用说什么了,说好的不免过于理想化──如果理解为借题发挥自当别论。下面的例子,当可理解这一点。

    最近Ex Libris给用户发邮件,告知由于Google不允许通过元搜索使用Google学术搜索,因而不得不将其从联邦搜索产品MetaLib资源中排除。因为Google将元搜索视为自动查询,会关闭访问的IP地址。
    得知此消息,用自家的跨库检索系统(Research Pro)查了一下,果然结果均为0。在一个月前,还一切正常的。大概是发布使用后访问增多,被Google锁定了。

    约翰·霍普金斯大学图书馆的Jonathan Rochkind论及此事时,指出Google学术搜索没有提供API,而原用于结果排序的Google图书搜索API也只允许通过AJAX以浏览器访问,如果用服务器端访问,则很快会被切断。最近Google提供了一个Google图书数据API(Google Books Data API),明确说明允许来自服务器端的应用,但仍然不允许把Google图书搜索结果与其他服务结果混合──也就是说,仍不能用于元搜索。

    无论Google图书还是Google学术搜索都是非常有用的资源,图书馆自然很希望将其加入自己的元搜索工具,尽管Google的不允许很令大家不快,Google仍决意如此。Jonathan Rochkind的结论是:“此举提醒大家,Google有自己的商业利益……它也教育了大家,Google毕竟不是乌托邦式的慈善机构”(It’s a good reminder that, yes, Google does have business interests, and, … in the process help teach that Google is not some utopian charity after all.)。

元搜索meta-search≈联邦搜索federated search≈广播搜索broadcase search≈跨库检索cross-database search

Via Bibliographic Wilderness: Google Scholar does not allow meta-search(梯子自备)

Google图像标记游戏

    2009年最后一天,想找个东西写博,在Google笔记本的2blog标签下,找到Google图像标记(Google Image Labeler),玩了一盘,标记了4幅图像,只得了290分。

    游戏每次2分钟,随意配二个参与者,给同一幅图像加标签,如果二人给出相同标签就得分(越专指的词得分越高),并切换下一幅图像,直至时间结束。二人匹配越快,可标记图像越多,分数也就越高。
    和对方输入的标签相比,我的标签少得可怜。由于游戏双方得分相同,估计对手只能无奈地感叹碰到了文盲。
   
    这是个旧游戏,并非Google首创。但参与者似乎仍然有热情。下面是2009/4/21录得的排行榜,最高分超过3800多万:
All-time Top Contributors
1.    DeSotoDriver    38133870
2.    PS    32567260
3.    Yep Robots Blow    30511440
4.    FrankD    21141150
5.    MC    21116870
    今天的排行榜,最高分为4480多万,上榜者全换了:
All-time Top Contributors
1.    Bodies Wanted    44807110
2.    NotTurnin40Again    39999990
3.    9999999999999999    33230890
4.    TestudineousBots    26546750
5.    dirtle toves FD    26477480

    Google开设此游戏的目的是改善图像搜索结果的质量,估计是把那些匹配的标签当作图像的关键词。
    这种利用群众智慧的方式也就是所谓的“众包”(crowdsourcing)。图书馆界也有人想通过类似游戏,让公众帮助提供元数据。还没有看到实例──要让公众有参与热情,得设计好的方案。
    Freebase有打字机(Typewriter)和性别判断(Genderizer)二个公众参与项目,前者让帮助判断一些名称是不是人物、组织、建筑、地点、歌曲等等,后者让帮助判断真实或小说人物、生物体的性别,估计都是些稀奇古怪、工具书里找不到的名称。需要注册登录才能操作,前者的参与率还不错,有871,651 votes;后者较少,仅78,797 votes。

via Bibliographic Wilderness: “crowdsourcing” (April 20, 2009)及其下评论