存档在 2009 年十二月

Google图像标记游戏

2009年12月31日

    2009年最后一天,想找个东西写博,在Google笔记本的2blog标签下,找到Google图像标记(Google Image Labeler),玩了一盘,标记了4幅图像,只得了290分。

    游戏每次2分钟,随意配二个参与者,给同一幅图像加标签,如果二人给出相同标签就得分(越专指的词得分越高),并切换下一幅图像,直至时间结束。二人匹配越快,可标记图像越多,分数也就越高。
    和对方输入的标签相比,我的标签少得可怜。由于游戏双方得分相同,估计对手只能无奈地感叹碰到了文盲。
   
    这是个旧游戏,并非Google首创。但参与者似乎仍然有热情。下面是2009/4/21录得的排行榜,最高分超过3800多万:
All-time Top Contributors
1.    DeSotoDriver    38133870
2.    PS    32567260
3.    Yep Robots Blow    30511440
4.    FrankD    21141150
5.    MC    21116870
    今天的排行榜,最高分为4480多万,上榜者全换了:
All-time Top Contributors
1.    Bodies Wanted    44807110
2.    NotTurnin40Again    39999990
3.    9999999999999999    33230890
4.    TestudineousBots    26546750
5.    dirtle toves FD    26477480

    Google开设此游戏的目的是改善图像搜索结果的质量,估计是把那些匹配的标签当作图像的关键词。
    这种利用群众智慧的方式也就是所谓的“众包”(crowdsourcing)。图书馆界也有人想通过类似游戏,让公众帮助提供元数据。还没有看到实例──要让公众有参与热情,得设计好的方案。
    Freebase有打字机(Typewriter)和性别判断(Genderizer)二个公众参与项目,前者让帮助判断一些名称是不是人物、组织、建筑、地点、歌曲等等,后者让帮助判断真实或小说人物、生物体的性别,估计都是些稀奇古怪、工具书里找不到的名称。需要注册登录才能操作,前者的参与率还不错,有871,651 votes;后者较少,仅78,797 votes。

via Bibliographic Wilderness: “crowdsourcing” (April 20, 2009)及其下评论

网络打手

2009年12月27日

    今日雪,在家,忽得了个“网络打手”的头衔。真是说来话长。

    今年4月1日(刚发现是愚人节),写了“河海大学把数字图书馆嵌入用户环境”,因为当时看了河海大学“多渠道建设数字图书馆门户”的PPT,其中揭示的理念与本人正合,尤其喜欢所介绍的《本科教学资源信息管理与服务系统》。
    第二天有网友刘瑞留言:“看了所推荐的河海大学图书馆此项创新,不知与上海工程技术大学教务处的上海工程技术大学本科教学资源信息管理与服务系统有何差别,我认为只不过是做这件事的是图书馆还是教务处而已,也就是说由学校安排来做,创新,是乎是谈不上。”
    我的回复是:“本人没有看到过工技大的系统,不敢妄言。本校的系统远不如河海大学,则是没有疑问的。因为自己在做教学参考信息系统,与教务处系统相互独立,深感其弊病。希望能看到工技大系统的介绍,可供学习。”

    一晃过了半年,不意看到了上海工程技术大学教务处的系统,发现页面与前述PPT的截图几乎相同,显然用的是同一套系统。经查看网页下部,由天空教室®提供技术支持,故判断那是软件开发者。想了解这个产品,搜索后没看到教学系统的介绍,倒觉得该公司的精品课程云系统有点意思,就写了“天空教室及国家精品课程”,当然其中也提及了我的“发现”。

    又过了三个月,也就是今天上午,发现第二篇博文下有xlgao的二个留言,其一是:“这个项目是河海图书馆确定技术路线和方案,由本馆技术部与易学公司合作开发的,图书馆的成果必须由专业队伍做技术支撑才可能市场化. 上海工程技术大学是由河海大学友情支持的,收取少量技术转让费用,还是请易学做技术服务. 楼主有什么乱花迷眼的?”
    因为在工技大的教学系统各处,除了天空教室的标志,并未看到河海大学字样,当时我的确以为河海大学不过用了一套商用系统而已。看此留言,终于知道了背景,且看到xlgao对本博的分类有所误解,故回复:“谢谢告知内情。‘乱花迷眼’是本博的一个栏目,涉及对本人来说眼花缭乱的数图项目,本人对之均无限崇拜……”。如果鄙视这些项目,又怎会浪费时间写在博文中?
    下午发现博文下又多了个xlgao的留言,对河海大学开发的这套系统做了更详尽的介绍。因为其中有“在网络上宣传不够”这样的说法,加之由行文判断xlgao正是馆长本人,觉得休息天上网的馆长有开博潜力,正想回复忽悠其开博,不意突然断网。重新联上网后,发现邮箱中有馆长邮件,时间在第三个留言之后,似乎是意犹未尽的意思。点开邮件,与留言成鲜明对照,看后彻底晕倒。我想不妨把它当做第四个留言,记录在此,留做“提醒”:

斑竹,
   希望不要很轻易地批评自己是“一时激动”?信息时代,不清楚的情况可以了解,不就是打个电话,发个mail吗?不要将自己的博客评论建筑在个别人的只言片语之上,否则与市井妇人流言传播有什么区别?你的博客还如何让人尊重?
   你是个关注图书馆的人,这一直让我敬重,但是一定注意不要有成为网络打手的倾向,我这样肯定是言重了,但是我还是要提醒。
   由于后来易学忙于其他技术推广,对我校收取转让费较低等原因,该系统在2007年后终止推广,成果的社会效益很好,其他在帖子中说了,不多谈。
   我并不知道你是谁,是哪里的,也不想了解。如果你哪天来我校自抱家门,我一定热情接待,我是XXX,都是同道中人,共勉。

    河海大学拥有该软件的“版权”,为什么容忍放任在自己友情转让的软件上明显地标示软件开发者,而没有同样明显地标示版权所有者?即使有人想了解情况,mail也不会发给河海大学呀?意思是让天空教室转发?
    因此不明白馆长的“重言”凭何而来。不过最后一段的意思我想我是明白的,就是要我放心,如果我缚荆请罪,馆长定会一笑泯恩仇的。

注:所谓“一时激动”,指第二篇博文起始句:半年前看到河海大学高新陵馆长的多渠道建设数字图书馆门户,一时激动,写下了“河海大学把数字图书馆嵌入用户环境”。

圣诞老人的名称规范

2009年12月24日

八十年代初,洋节还没有在上海流行。到八十年代中风气突变,自己也曾在圣诞夜跟同学去过衡山路的国际礼拜堂,装模做样地做了一次礼拜。还有一个圣诞夜玩过通宵,因为那个不是节假日,本地同学不回家,比元旦更适合迎新年活动。离开学校的同时成了家,不信教,再也不会在圣诞夜外出参加什么活动了。
初写博时曾写“中国人为什么过圣诞?”,那是应景杂文,以后再也不曾涉及。前几天看到WorldCat博客介绍圣诞老人的名称规范Searching for Santa,想着留到圣诞夜应景不错。

如2007年初所说的设想,现在WorldCat Identity已经有了虚拟人物的规范,下面就是圣诞老人的身份档页面:Santa Claus
有35种语言的2,434种作品、4,203个出版物,收藏馆282,961。
页面显示语言为中文的有28,但点击链接到WorldCat,却显示有63个结果,看来数据不同步。

相关人物(Related Identities)应该都是责任者。
相关链接(Useful Links)的LC规范记录,有交替名称Father Christmas,不知为何WorldCat Identity没有如个人名称那样提供交替名称。
相关主题(Associated Subjects)应该直接取自书目记录,电影、诗比较多,故事也不少。读者对象儿童为主不出意外,但听障者用的视频、电影也有不少,是不是弱智了点?
最奇怪的就是地点“纽约”(New York (State)–New
York)出奇地多,又不是圣诞老人的居住地?点击链接到WorldCat再次出错,因为主题检索su:不接受那两个短横。无论如何此处是需要改进的,或许两难,因为同名的缘故,从主题抽取地理位置如果没有前面的限定,就可能是另一个地点,有限定就要有标识──主题词间用破折号分隔是卡片年代的用法,在
MARC中用子字段分隔,在Web时代,要重新考虑。

参见:规范档2.0:WorldCat身份档 (2007-02-14)

另推荐OCLC的Andrew Pace的圣诞歌:Jingle Books

让索书号见鬼去?美国国家医学图书馆停止提供克特号

2009年12月23日

    12月21日,美国国家医学图书馆(NLM)宣布,将于2010年6月21日起停止为该馆编目的印刷图书给克特号。只有该馆参考部及医学史部的图书例外。作为国家图书馆,NLM与国会图书馆(LC)有些类似,其书目记录不只本馆使用,所以提前半年发通知,以便相关图书馆有充足时间应对。

    停止提供克特号的目的是提高编目效率。理由一是NLM本身早在15年前就已经不按索书号排架了,这么多年仍坚持提供克特号,只是为了方便其他使用NLM记录的图书馆。理由二是,对使用NLM的图书馆来说,由于索书号唯一性要求,即使NLM给了克特号,到本馆仍有可能需要做些调节才能避免重号。因此,NLM索性就省了提供克特号这件事了。

    NLM仍承诺提供分类号以反映图书的主题,因为认为分类信息有广泛的用途。

    目前大多数图书馆的索书号(即书标上的号码),由分类号+同类书区分号构成,方便读者在书架上自行浏览,有徜徉书海之感。多数馆用著者号做同类书区分号,少数馆采用种次号(流水号)。国外最流行的著者号就是各种版本的克特号(参见:克特著者号码表知多少?)。NLM一直采用的是3位克特号,与国内通用的相同。

    NLM馆内排架使用登到号已经15年,这是否意味着他们是闭架的?或者依赖OPAC查登到号,然后自己到书架取书,完全放弃开架书库的分类浏览功能?虽然还没有看到各方反应,但相信NLM的示范作用,对学术图书馆的潜在影响,将不亚于公共图书馆放弃杜威分类法(参见:杜威困境)。对西文来说,或许像大英图书馆外借部那样,直接按题名字顺排架更方便些(参见:远程存储二三事)。可惜汉字排序比较麻烦,不适合采用这种方法。

    看NLM排架规则Shelflisting Procedures for Monographs and Classed Serials,确定克特号占主要部分,是有点复杂。为了索书号(分类号+著者号)的唯一性,不论采用何种著者号,为了把同作者同类书排架贴邻,为了区分姓名相近作者同类书,编目员的确在索书号上要花不少精力,还常常会因一时疏漏,要到各书库去找出原书修改书标,花费的时间就更多。

    从提高工作效率角度,最简单而不影响目前排架方式的做法,就是放弃索书号的唯一性。很久以前就听某人说其馆索书号不唯一,但很少图书馆接受。现在开架书库能够做到全排并且不乱架的,不知有多少馆?反正做不到,索书号重号又何妨?如果是闭架书库,像NLM那样,用登到号排架最方便,还不用因库位预设不周而倒架。

    目前图书馆编目工作需要考虑的,不仅仅是外包。除了索书号、排架号,接下来还有什么是需要变革的?

via Catalogablog: Cuttering at the National Library of Medicine

2009:无语一年

2009年12月19日

工作:无语
上半年被干部,说了“干不了,谢谢”,无奈人在江湖、身不由已
下半年被职称,始则(十分感动)+(几分随缘),终则(十分同情+少许鄙视)+(几分尴尬):名额0

开会:无数
偶而被发言,也有只是去打酱油却被围观的,囧。

写了博的都有收获;没有写的,有时只是不知如何下笔。

FB:偶尔
常与正儿八经的会议相伴,多半Keven买单。因不善写人,一般不写博、但爱看与会者写。
毕竟是“图书馆2.0的文化”,意外不意外地因此寻到一位远在千里之外的论文合作者。

梦想:继续
N年前的梦想,一点不浪漫:早点退休。伍佰万的新年梦想毕竟太不靠谱。
前些天与师姐Q聊,她竟也有类似期盼,自然她比我优雅,眼中的图景是:坐在洒满太阳的客厅里,一杯咖啡一本书……

写博:意外
写博成了习惯。
为写此年终总结,搜博文干不了,谢谢,Google竟然排第二,于是换百度看看,竟然排名第一。宿命啊。

推荐和菜头:一字话今年(2009年)