存档在 2009 年七月

第三届OCLC软件竞赛结果

2009年7月25日

    OCLC在2005年和2006年接连举办了两届软件竞赛,事隔三年,有了第三届,其目标仍为鼓励对OCLC的Web服务的创新应用。结果日前公布,来自加州州立大学的David Walker以名为Bridge的应用获奖:一套提供可配置和可定制的WorldCat全记录显示服务,向各图书馆提供了在自己所需位置定制WorldCat全记录显示的能力。换言之,可以用其代码,将WorldCat检索结果嵌入到本馆OPAC及其他需要的地方。
    从显示实例Java in a Nutshell: A Desktop Quick Reference看,融合了WorldCat的封面,OCLC的FRBR化xISBN,通过Z39.50检索OPAC方式获取本地馆藏(洛杉矶及加州州立大学各馆)。
    项目的源代码在Google Code上公开。按评委Roy Tennant的说法,代码用PHP写成,本地配置只需编辑一个简单的XML文件,再加一些图、做点样式转换(XSLT和CSS),就可以搞定了。

    题外话:看到获奖者与评委在图书馆中的职位,真正是紧跟形势,体现Web服务在图书馆计算机应用中的位置:获奖者David Walker是Library Web Services Manager;唯一一个来自图书馆的评委Kevin Clarke是Coordinator of Web Services,来自阿巴拉契亚大学的Belk Library and Information Commons──图书馆名称竟然已经加上了信息共享空间。

参见:
OCLC Announcements (22 July 2009). David Walker Wins Third OCLC Research Software Contest
OCLC Developer Network Blog: Congratulations to David Walker / by Roy Tennant

项目主页
Bridge: WorldCat in Context
源代码
bridge-worldcat: A configurable and customizable view of worldcat services

关于OCLC软件竞赛:
OCLC软件竞赛 (2005-02-05)
OCLC软件竞赛结果 (2005-06-25)
第二届OCLC软件竞赛 (2006-07-07)
第二届OCLC软件竞赛结果 (2006-09-30)

从保存图书到保存网络:图书馆的未来?

2009年7月25日

    最近Keven连发强贴探讨图书馆有没有未来(图书馆有未来吗?再续续三续四续五待续完结篇)。看到加州数字图书馆的网络档案(Web Archives),不知道保存网络是不是图书馆的一种未来?

    互联网时代,图书馆员最早发挥的特长是知识组织,对网站、网页做人工筛选、标引、编目、组织主题目录(CALIS的“学科导航”也属此类)。这种综合或专题的目录继承了OPAC的所有优点和缺点,相对于搜索引擎来说,最大的问题就是没有全文检索,可用性随着搜罗内容的增加而下降。
    图书馆另有专长是保存人类的知识,这是图书馆长久以来承担的责任之一。图书馆经历了保存甲骨、泥版、纸莎草、竹木简、羊皮……纸张、胶卷、磁带、光盘……,在比特时代,增加新的保存载体也是顺理成章的。由于网络内容的不稳定性(统计数据……),现实上也有这种需求。
    如同图书馆不能收藏所有的图书,图书馆也无法保存完整的网络。而有选择地永久保存网站与网页,形成专题,正是图书馆所擅长的。知道国内图书馆也有做这方面工作的,如国家图书馆的“网络信息保存项目”(惜乎一直无法访问),东华大学的纺织特色数据库也有存档网页的部分。尚有一点不明白的是其中的版权问题:图书馆有权保存这些网页并提供服务吗?大家都在做,暂且存疑。

    加州数字图书馆(CDL)的网络档案(Web Archives)是一种托管服务,带有云计算的特征(下述Archive-It类似):
 √ CDL提供存档工具及存贮(Web Archiving Service, WAS)
 √ 专题网络档案(目前包括18个专题,由不同机构建立,以加州本地内容为主,纽约大学图书馆的几个侧重左翼政治)
 √ 收录网站浏览+全文检索

    Web Archives链接了其它公开网络存档项目,各具特色的内容是专题研究很好的参考数据源,实现方式也可借鉴:

综合性的:
    * Internet Archive (IA) 互联网档案(网络存档的元老)
    * Archive-It 为后代保存互联网:收集、管理、检索……存档。目前有881个公开收藏,分为艺术人文、计算机与技术、政府、自发性事件、政治与选举、科学与健康、社会与文化、大学与图书馆八大类。由参与机构从IA制作不同主题的收藏(collections),由IA负责保存。
    * Pandora (Australia) 保存与访问澳大利亚网络文献资源。分18个主题。

保存政府网站受重视:
    * Government of Canada Web Archive 加拿大政府网络档案
    * Library of Congress Web Archives (LCWA, Minerva) LC互联网档案(曾名“智慧女神密涅瓦”)。侧重美国政府与外交,如:2006年苏丹达尔富尔危机、2003年伊位克战争、2001年911事件及美国国会、选举档案等。
    * CyberCemetery 网络墓地。北德克萨斯大学图书馆与USGPO合作,保存现已不存在的美国政府机构与委员会的网站及出版物,提供永久访问。
    * The Stanford WebBase Project 同样侧重收集美国政府网站(目前只能下载,无检索功能)

采用开源软件(CDL工具估计基于同样软件):
    * Harvard Web Archive Collection Service (WAX) 哈佛网络档案收藏服务。试验性项目,目前有三个档案:博客──捕捉妇女之声,日本宪法修正研究,哈佛网站档案。
采用多种开源工具,包括:互联网档案(IA)及国际互联网保存联盟(International Internet Preservation Consortium, IIPC)的Heritrix网络爬虫、Wayback索引工具、NutchWAX检索工具,以及OpenSymphony的Quartz作业调度软件。

特色馆藏数字化与网络存档的结合:
    * UCLA Campaign Literature Archive UCLA竞选文献档案:一个世纪的洛杉矶选举。收集符合要求的网站,并与UCLA特藏的数字化扫描结合。

Via Press Release: California Digital Library [July 21, 2009]
Library Technology Guides: Web archiving service preserves data for the future

[update] 《数字图书馆论坛》2009年第7期话题:网络信息资源保存
网络信息资源保存所面临的问题和挑战

/ 吴振新(中国科学院国家科学图书馆) PDF查看
网络信息资源保存的协作网络研究
/ 吴振新 张智雄 王婷(中国科学院国家科学图书馆) PDF查看
网页变化监测相关技术与方法研究*
/ 高建秀 吴振新 张智雄(中国科学院国家科学图书馆)
PDF查看
网络信息资源保存的编目方法与系统研究*
 
/ 孙敏杰 吴振新 孙志茹(中国科学院国家科学图书馆) PDF查看
基于Web Archive的网页重现方法及应用研究*

/ 向菁 吴振新 孙志茹(中国科学院国家科学图书馆) PDF查看
网络信息采集与保存标准规范研究*
/ 曲云鹏 王志庚 李春明 周晨 李成文(中国国家图书馆) PDF查看
基于网络信息资源保存的生命周期管理研究*
/ 李成文 王志庚 李春明 周晨 曲云鹏(中国国家图书馆)
PDF查看

不只是监控、还可以行动──Kindle电子书被删事件

2009年7月18日

    移动阅读、电子书阅读器如日中天,昨天发生的亚马逊删除用户已购电子书的事件,或许会让人有所警醒。
   
2009年7月17日晨,很多Kindle电子书阅读器的用户清晨醒来,发现自己从亚马逊购买的某小说不见了──因为亚马逊采用远程操作的方法把书从所有Kindle上删除了。亚马逊会把书钱返还给用户,但事情显然不只是钱的问题──网络时代,我们的隐私越来越少,竟至于连自主权也将一并丧失?
    据称iPhone也有类似的功能(亚马逊远程删除用户Kindle图书 引发争议):去年秋季,苹果首席执行官史蒂夫-乔布斯承认,苹果拥有一个远程的“删除开关”,在苹果认为有必要的情况下,将能远程删除用户iPhone中的应用软件。苹果目前还没有使用过这一功能,也只有当恶意软件对大量iPhone造成损害时,苹果才会启动该功能。对那些引起争议的应用软件,苹果仅仅是将软件从
App Store中移除,而并没有远程删除用户手机中已下载安装的软件。

    有人比喻说,这就好象出版商半夜偷偷进入自己家里,从床头柜上拿走了自己买下的书,然后在咖啡桌上留下一张支票。(Some E-Books Are More Equal Than Others)
    虽然此次亚马逊宣称是出版社的原因,但对美国职业图书馆人来说,很容易联想到日后可能因其他原因的censorship。这与我们的网民们对“绿坝”的敏感如出一辙。Roy Tennant 对此的评价是:很高兴这事发生了,因为这能提醒我们这种电子书发行模式的潜在危险。(Is the Kindle Ushering In A Golden Age of Censorship?
    具有象征意义的是,此次被删除的图书是奥维尔的《一九八四》和《动物农庄》。因此石墨工房博主说“Amazon這次小動作所引發的疑慮,似乎正是這兩本書內容在網路時代最好的註腳。”(來自「1984」的Kindle

易思教育的“高考备考专家系统”(易思夺分宝)

2009年7月15日

[update 2009-7-16]今天在易思教育网站上看到,“高考备考专家系统”改名“易思夺分宝”。

   
去年高考开考的那一天,我正在听第三次也是最后一次高考讲座[update:后来又参加了一次],是易思教育介绍“高考备考专家系统”,主要是数学和英语软件。有如传销,宣讲人员有很强的煽动性,如“英语135分的策略”:用科学方法在100天内攻克核心能力,把词汇量扩大到5000个(2-3小时筛选出所有不懂的单词,4-8天共40小时
背出),掌握16000意群(大部分学生30-50小时掌握)──虽然明白这完全是一方鬼扯,但看到软件演示,觉得对提高阅读速度还是会有帮助的。不过数学软件在我看来就完全是做习题了,没有什么意思。
   
这时,看到一位熟人竟然要英数二套全买,很受冲击。她儿子成绩优异,在我看来根本沾不上补习边的,而她不但也和我一样听讲座,还要为此花上六千元?想想自己从小到大花在儿子补习上的钱都没一套软件多,很是惭愧。原就对英语有所心动,回家后便对儿子晓之以理,最终让他同意订购了一套。
   
公司上门安装软件,就让人很不爽。软件用加密狗启动可以理解,只能装在一台机器上就难以理解了──如果那台机器坏了,重装还要另花钱买加密狗。更霸道的是,软件到第二年高考第二天就自动失效了。花差不多三千元买来的东西,还不让人随便用?不爽归不爽,软件还是买下了,只不过是2008版的,说是2009
版到8月底来升级。
   
儿子先筛选单词,发现竟然没有zoo,再对照2008的《高考词汇手册》,仅z部分就少了好几个。马上打电话给公司诸人,请他们更新2009版时,一定对照《高考词汇手册》,把缺的都补上,要不然没法用。每年《高考词汇手册》中的单词变化很少,很奇怪前几年用这个软件的人竟然没有提出过这个问题?后来2009版来了,词是补上了,但词汇总量比《高考词汇手册》多了一千多个(象我儿子这种水平的,没兴趣背多余的单词),需要对照剔除,很花时间;二是释义常常与《高考词汇手册》不同,单词义项很多,选哪几个解释竟然不参照《高考词汇手册》。总之做事既不敬业、又不专业,于是词汇部分只能弃之不用了。
    最终只用了这个软件的“意群”阅读。“16000意群”如果按100%速度自动播放且全部选择“会”,过一遍至少要30小时,不知道怎么用30-50小时掌握。不过公允地说,这部分对提高阅读速度还是有点效果的。至于是否值这个价钱,只能自己判断了。
    今年高考过后,证实“高考备考专家系统”确实不能再用后,就卸载了。

    昨天看到易思教育又在报上登广告──“高考英数拿下140分”,想起一年前的我,也一样对考分完全没有概念,听各种教育培训机构在那儿忽悠。
    高考真能考那么多吗?按英、数140,其他成绩平平(比较罕见),也够交大了:

英语140+数学140+语文105+理/化/生/政/史/地115+综合20=520

(其他科目根据今年一本各校录取最末一名分数计算:语文平均理科107,文科106;X平均理科115,文科114;综合平均文理均21;[update 2009-8-13] 补上一本各校录取最末一名英语、数学平均分:英语理科118,文科117;数学理科103,文科118)
    
现在才想明白我那熟人为什么要为儿子买软件,就是冲着140分上北大清华的。([update 2009-8-13] 复旦最末一名理科英语134、数学100,文科英语136、数学132)


    140分是易思教育忽悠未来用户的。那么原来用户考得如何呢?高考后收到公司发放“一年一度的易思奖学金”的信,评定标准及名额如下:
        特等奖1名:高考总分达到500分
        一等奖5名:高考成绩相比一模考总分提高50分以上,且高考总分达到470
        二等奖10名:高考成绩相比一模考总分提高30分以上,且高考总分达到450

        三等奖30名:单科提高20分以上,且此科目分数达到115分
    今年文科一本线471,理科一本线455,也可以是说除了特等奖,要求都定到了一本线下,可见真没几个达到他们宣传分数的。而且做的英、数软件,除了三等奖,竟然都不对英数科目成绩提要求,也够奇怪的──总分其实和公司没啥关系啊。

附:儿子对高考英语上海卷分值分析(对150分中的80分有部分帮助)
听力30分,更有8分的听写是需要辨认连读的,“高考备考专家系统”不包括听力专项训练。
选择16分、选词填空9分、完型填空15分,训练后可以不失分,“高考备考专家系统”也没有这方面练习。
阅读理解35分,这就是易思教育所谓的“得阅读者得天下”。公允地说,有帮助。
翻译20,没有人能保证能保证不失分或者只失一分。公允地说,有帮助。
英语考试有25分小作文,没有人能保证一定有20分。有帮助,但离达到20分还有距离。

高考志愿填报参考资料与重要时间节点(上海·裸考篇)

2009年7月13日

    儿子终于完成了十二年的马拉松。
    高考的所有努力,结果都体现志愿填报上。之前要做足功课,参考资料主要有(以出版/上线时间为序,印刷本学校一般会代为订购):
0、高校排行榜
   

虽然任何排名都只能参考,但还是要“参考”的。看各大学排行榜,基本结论是:综合性大学排名靠前、有医学院的综合性大学排名更前──或者说,学校排名与专业排名没有相关性。其实专业排名更重要──虽然以现有的按校录取方式,最终录取专业可能并非自己想学专业,至少在填报志愿时,还应努力一把。
    如果对照各校各专业录取分数线,就能看到,最低录取分数线与学校排名、专业排名关系都不大。在上海,除了就业考虑外,学校所在地域的影响也很大。这就是需要了解学校、专业排名的理由。
        武书连中国大学排名榜
        武汉大学中国科学评价研究中心排行榜
        中国校友网中国大学排行榜
        专业排名──武大邱均平等:“中国大学评价的改进与完善──2009年中国大学及学科专业评价的做法与结果分析”(《评价与管理》2009年第1期第34-77页)[如需扫描版请发邮件──Google文件不允许发布PDF文档]
   

1、上海招考热线(阳光高考)
    招考相关信息没有新闻网站多,但出自教育考试院,绝对权威。有上海高校招生网站链接,可省掉用搜索引擎逐一搜索。除政策性信息外,还可参考2007年以来实质性数据,如投档分数线、征求志愿缺额表等。
    此外,考前网上填报志愿,考后查分、查录取情况等,都要用到这个网站。

2、《家庭教育时报·高招周刊》
    上海教育考试院推荐(上海招考热线有节选版),高三一开学学校就会通过邮局“集订分送”。获取各种信息,也有各科目的学习指导。9月较早一期有高考这一年大致的时间节点提示。

3、教育部阳光高考网站
    了解院校、专业及就业情况等(高招指南>院校库/专业介绍/就业率)。相信这里的各专业就业信息比较完整、可靠。

4、《…-…年上海市普通高等学校招生各专业录取人数及考分
    前3年情况,3月底出版。根据模拟考成绩,参考历年最低录取分圈定自己打算填报的学校及专业。注意2008年开始实施平行志愿,各校分数排序会大致逐于稳定。

5、《……年上海高考指南
    当年指南,4月上旬出版。含体检要求。须通读一遍,了解、用足各项政策(如外地院校加分投档)。

6、《家庭教育时报·高招周刊》
    4月上旬有一期”秋考宝典·院校专业”,有外地一本院校详细信息。

7、《上海教育·高招特刊……》
    4月中旬出版,含(前一年)分数索引、学校索引、专业索引(除分数索引,其他信息限上海)。填报志愿筛选报考学校、确定志愿顺序时“分数索引”很方便。
    有些学校不订此书。可用上海招考热线的各校投档分数线(2009
一本理科文科,2008一本理科文科),复制到EXCEL表中,依最低分降序排序,自己制作“分数索引”。

8、《……年上海市普通高等学校招生专业目录
    当年目录,4月下旬出版,正式填报志愿以此为据,学校、专业、招生数、学费等。

9、上海教育考试院填报志愿问答
   
4月30日在上海招考热线上线,包括基本情况、志愿填报、录取投档、报考外省市高校政策等。2009年有99个问题解答,部分在“高考指南”中有。填报志愿前细读。

10、谷歌高考2009:6月5日上线,对已经填完志愿的上海考生来说太晚了。但可用于下一年参考,按地区、文理、专业、分数段等筛选符合条件的学校(有2006-2009四年数据)。


**********

 

    最后一年,对于高考有很多不能忽略的事、不能错过的时间点。不过,对于“裸考”一族,不参加各种名目的“自招”、不考虑各类加分,事情已经少了很多。
    在经历这一年之前,不知如何得到散落各处的信息,甚至茫然不知某事的存在。略总结高考一年间裸考者的重要事项:
从第一学期的三次月考、一模,到第二学期的二模等考前模拟(8-4月);
从网上预报名、正式报名,到现场报名确认(11-12月);
从体检,到英语口试模拟、正式口试(1-3月);
从各种报考资料下发,到填报志愿(4-5月);
从高考、查分、查录取结果,到收到录取通知书(6-7月);
最后是领取纸质档案(带往学校报到用)(8月)。
    时间节点详见:上海高考一年时节