MOOC《数据科学》学习体验

约翰霍普金斯大学在Coursera开设的专项课程《数据科学》(Data Science),或许是最火爆赚钱的MOOC课程了(参见2015-02-11:【快报】Coursera数据科学专项课程已经赚了350万美元!)。
课程共有9门课,每课4周时长,每月开班,免费或$29;全部9门课完成后还有毕业项目,8周时长,每年开设3次,交专项课程费用后参加($290,全部9门+毕业项目)。
课程清单(目前前4门课已有中文字幕)
1 数据科学家的工具箱
2 R语言程序开发
3 获取和整理数据
4 探索性数据分析
5 可重复性研究
6 统计推断
7 回归模型
8 实用机器学习
9 数据产品开发
数据课程毕业项目

借用某书的命名方法,此课程可称之为《数据科学及其R实现》:以R及其周边应用为工具,分专题讲述“数据科学”的整个流程。
这是入门级课程,对于有编程基础的非IT人员也适用。事实上3位教师都是生物统计专业的,应该是以R为工具做统计分析、机器学习、可视化展示等等。从科学研究的“可重复性”角度,教师比较偏爱非图形界面(命令行)的工具。

今年春节后,用4个月时间完成了9门课,很辛苦,但也很有收获,了解了数据科学的基本方法与理念,学习了R语言及若干工具。
作为一个在DOS时代学过编程的人,对命令行界面倒也不陌生。但作为一个统计学盲,全英文学课程中大量的统计知识实在抓狂,只能借一堆中文书自学,才算混将过去。最终能坚持下来,也说明课程还不是那么难。当然从同学互批作业看,也有同学隔几个月重修,结果还是不如人意。
最后,实际感受:学是学完了,但要能自主使用,还有相当长的路要走。
昨日自己结束了全部课程,虽然本月修的最后二门课的成绩要下周才会出来,通过应该没有悬念。在此分享本课程体验如下。

一、选课
9门课程间有依赖关系(Coursera Johns Hopkins Specialization in Data Science course dependency information),通常按顺序选没有问题。但如果同时选多门课,特别需要注意第7门“回归模型”以第6门“统计推断”为先修知识,如果没有统计基础,两门课不宜同一时间段选。

二、时间安排
有些MOOC课程是完全自主安排时间的。本系列则是在课程开始时一次性发布所有课程资料,按周设定测验与作业的提交截止时间。
除第1门入门课外,其他每周课时标明为4-9小时或7-9小时。如此看一周多选几门课似乎问题不大,实际还要考虑更多情况:
1、学习时间,依赖于学习者的原有基础。有几门课大量涉及统计学知识,没有相应基础的话,需要时间就会大大增加。如我这样的统计学白痴,借了好几本中文书看,才勉强跟上,需要付出大量额外时间。另外R语言本身,单靠听课对于完成作业也是远远不够的。
2、作业时间。除每周正常学习、测验(Quiz)外,每门课还会有一到二次课程项目(作业),单完成作业就可能需要数小时。课程作业通常在第三周(有一门课竟然第一周就有作业),同时修几门课,时间叠加起来就比较难应付了。又由于R本身作为开源软件、使用各色人等制作的安装包(package),提示出错找原因、解决也需要额外时间。某次作业因读入文件数据不完整导致出不了正确结果,各种折腾,最后才弄明白应当如何正确解决因中文环境所致的问题。
3、作业提交时间(天朝特有的网络问题)。作业以提交到Amazon AWS和GitHub居多,一个点击即可完成上传,对我们来说却是一定要预留足够时间的。本人最悲摧的一次,前晚同步不到GitHub,原本依常规次日一早推几次就行的,却不料直到当天下午2点才最终成功。如果不是提早一天完成了作业,截止期限早就过了,20-40%的分数没了,这门课就只有重修了。【70分通过,90分优秀】

三、学习过程
1、听课和自学
看视频、PPT是主要学习方式,PPT会提供大量参考资料,包括维基百科(对文科教师是不可思议的了)。在测验、作业中会遇到老师根本就没讲过的内容,需要搜索、自学。更有一门课我完全听不懂,正好除了通常的PPT外还提供有教材,于是完全不看视频直接自学教材+中文图书。
课程推荐RStudio中的swirl包确实是交互学习的好工具,多门课程有对应的学习包,载入学习后还可加分,真可谓一举两得。
2、课程论坛(Forum)
遇到R代码运行出错或者不明白的问题,实际感受是搜索引擎多半不如课程论坛。课程论坛针对性强,更有助教(Community TA)及时跟进解决问题,不会出现无助的情况。应该说Coursera或本系列课程在此点上做得相当好。
3、每周测验(Quiz)
最终成绩约60%来自测验。测验通常是选择题。本系列都允许做三次,取成绩最好的一次。有时候,再做时供选择的答案会改变,结果正确选项几乎是昭然若揭——外国老师永远不明白,对于深谙考试规则的中国学生,这根本就是在送分。
4、作业的互评与自评(Peer-evaluate & Self-evaluate)
最终成绩约40%来自课程作业。作业基本上由同学互评(评4位,未完成扣20%)。真是很好的学习机会,尤其对我这样比较初级的学习者,总是能够发现做得很好的作业,以及老师课上没有讲过的知识点。
有一门课有自评。在评过同学作业后再重温自己作业,对自己的评分自然会更客观。
5、英语
前几门课有中文字幕,好像到第4门课后面部分就没有了。希望有中文字幕的越来越多,这样对授课内容的理解会更好。
不过单是字幕解决不了所有问题,因为作业还是要用英语写的,另外论坛提问自然也是用英语。更有同学互评时,还有可能要求写10个甚至50个词的评语。
好消息是需要自己写的文字不多,作业内容中代码与作图为多。并且评分时,也不会因为语言原因而降低得分。

四、墙
无所不在的墙,不知道浪费了我们多少宝贵时光。除前述上传作业的情况外,还有更简单的:太长的链接老师会给个短网址,goo.gl的,不先找个还原网站就不知道访问哪里。
并且,课程中涉及的一些内容无法正常实现。比如GoogleViz,比如交互图形rChart中嵌入的Google代码,……。当然课程中老师们都很贴心地提供有替代选项,虽然功能不尽相同,但不至于因此完不成课程。

附本人课程项目3个
机器学习:由运动数据推测运动方式
说明:
1、用Knitr由R Markdown文件生成的HTML5文件,带R代码运行结果
2、文首没有摘要,完全忘了“可重复性研究”课程作业强调的格式
3、最佳模型应该是随机森林,只因数据量较大、预测变量太多,电脑竟然拖不动、N久出不了结果,无奈以70%准确率的lda模型交差
照猫画虎的小应用,图个热闹
说明:
1、使用shiny做的app
2、评估同学作业后学到不少,界面做了更新,主要是分页、加了简介
– 介绍前述shiny应用功能与用法的PPT
说明:
1、用RStudio Presentation生成,5页HTML5幻灯片,使用默认模板(比较丑)、只改了页面切换方式
2、末页图片由R代码直接生成

旧时记忆:长乐路1133号

长乐路1133号花园洋房,网上传说是永安公司老板郭琳爽别墅。实际上主人名郭鹫(按上海话读作“就”,是否此字不确定),据说是郭琳爽的侄子。

1960年代末到1980年代初,曾在此地住过十多年。
当年绝大多数人都是租住公房,要改变住房条件就只有“调房子”。为共同照顾祖母,孃孃家和我们家通过调房从两处换到一处,住进此地。这是幢二层的大房子,当年基本上一间房要住上一家人,最多时住了有十三四家。底层还有一大块空间,一度成为居委会的“向阳院”,晚间同楼人一起看电视,相当热闹。虽然房屋主人不知所往,但水电费单子上依旧写着他的名字(小时候看过无数次,只觉得那名字特别难写,到底是哪个字现在已记不真切)。
楼前楼后各种花草树木,印象最深的就是大门内的那棵高大广玉兰,还有我家南窗下的一棵石榴、一棵夹竹桃。我家住二楼西侧那间,南、西、北三面有窗,楼层又高(约3米半),特别敞亮。三家合用的卫生间除了现已很平常的整套卫浴设备,还有一个小型沙滤水装置,可以直接喝里面放出来的生水。
这是真正的花园洋房,南面是一片大花园。1970年代,政府打算在花园中造新工房。楼里有住户向以难弄著称的,平时分摊水电费(大小表差价)时常产生矛盾,这时就发挥起“难弄”的作用来加以阻止,最终留下了花园。隔壁1131号及1127-1129号那个花园就没那么幸运,在里面造起了2幢六层工房,门牌号为1131弄。话说1131号是市政府外事处宿舍,曾任中国驻联合国大使的梁于藩当年就住在那里。这种结果在今天就属于不可思议的了。

那里曾留下太多的故事,现在只偶而记起:
– 曾经不懂事在阳台上玩捉迷藏,被红领巾蒙住双眼的D同学从东面大楼梯滚落,头上出的血甚至溅到了眼白中。一起玩的同学们吓得要命,但她父母没有责怪任何人,这在如今怕是难以想象的了。
– 曾经哥哥调皮,模仿当时流行口号样式在阳台石柱上用粉笔写下二行文字“打倒JJJ”“MZX万岁”(J是他同住此楼的同学),不知怎地派出所警察找上门来,因为上下行念就曾了“打倒MZX”“DDD万岁”。如是则罪过不小,现在想来没出事真是万幸。
– 曾经花园里挖防空洞,成年人下班后拉出电线、挑灯夜战,在楼边和泥、压砖。
– 曾经难得冬天积雪,在阳台上堆雪人。
– 曾经躲在阳台阴处看日食,也曾半夜起来坐在阳台正中看月食。

到了1980年代,说是要落实政策、把房子还给资本家,楼中十多家人陆续搬走。但资本家似乎并没有回来,或许是把房子卖给了政府?搬走后我再没有回去看过。先是听说那里变成了王子酒家(现在网上还可以查到信息,公司注册时间1992年),据说老板是赵志刚,当年主演《沙漠王子》而被称为越剧王子,酒店以此为名。然后又听说变成了某政府机关的老干部活动室——今天去那里,看到挂着的牌子是“上海市交通委员会老干部活动室”。想想这房子数十年的变迁,正合一部中国现代史:私有、共产,经商、归公。

今天去,发现入口改到了东边,新造了门卫室,那棵广玉兰已经不见。西边原来我家楼下位置增筑了些一层的房子,不知石榴和夹竹桃是否还在?

网上查到“高参88的博客”有不少长乐路1133号的照片:长乐路1221号原郑良斌住宅 (2014-02-19)(博文后半部分)
文中介绍1221号业主是汉奸郑良斌,抗战胜利后由汤恩伯使用。
而当年大家知道这里是原东海舰队司令陶勇的住宅。当时陶勇夫妇已经去世,只见到常有军人出入,不知主人是谁。
现在门前挂着“徐汇区登记不可移动文物”“花园住宅”的铭牌,对住户历史未置一词。

旧时记忆:安福路

我的小学和初中都在安福路上。已经很多年没有去了,前些年听说安福路成了一条挺有名的文化街,完全不是当年景象了。(参见:上海:最具大资情调的安福路 (2014-06-25))
其实安福路不长,从常熟路到乌鲁木齐中路再武康路,仅跨两个街区,当年却有以此为名的三所小学(安福路第X小学)、一所中学(黎明中学)、数家文艺机构(青年话剧团、人民艺术剧院、电影放映公司),大概也可算文化街了。
最近失联已久的儿时朋友回国访友,加上微信后看她分享的几篇徐汇区老建筑照片的网文,想起自搬离后就再没去过,于是趁着休息天走了一趟。纯怀旧,不追求文化,因而没有进去看那些旧建筑。
距离1970年代毕竟还是太远了,那里的街道面貌变化之大,除了少数老建筑,过去的痕迹已经不多。

– 安三小学

我就读的安三小学在弄堂里,不知道门牌号码,这次去记下了,229弄9号。从299弄进去,右侧是学校的小操场,用黑色的竹篱笆(称“qiang篱笆”)围着。学校大门在弄堂底,里面是一座二层大房子,房间朝向各异,采光不足,完全不适合做教室。园中有后建的附属建筑,像体操房之类。空地上则搭上大大的雨棚,平时放置乒乓台,下课时排队打乒乓是最热门的运动。乒乓台边上有沙滤水,就是那种按一下会向上喷水的直饮水笼头。大雨棚下也是开全校大会的地方,批林批孔时大字报就贴那边的墙上。
如今竹篱笆变为水泥墙,学校已不复存在。门外没有挂任何招牌,紧闭的大门后不知道是何所在?
弄堂口的那幢楼,现在挂着“优秀历史建筑”的石牌(安福路233号,1918年建),原为巨拔来斯公寓。据说安福路原称巨泼来斯路。

– 黎明中学
隔着安三小学操场的另一面墙篱笆,就是隔壁的黎明中学(安福路247号),我初中在那里就读。学校有一幢四层的教学楼,操场尽头有一排低矮平房,似乎这就是学校的全部设施了。在黎明中学,对老师无论男女都称“先生”,很有历史传承的感觉。
黎明中所现在成了“爱菊小学”,据说是贵族学校。走到中学隔壁的弄堂尽头,可以看到原来平房处也改建成了高大的楼房。

– 人艺和青话
黎明中学和安三小学附近,往西是上海人民艺术剧院,再走到近武康路口是电影放映公司,当时以放内部电影著称;往东是青年话剧团。这里是文艺界人士出没之地,人艺、青话又都有不少当时上海滩最著名的演员,只是当年不流行追星,因而似乎没人在意这些进进出出的明星。上学放学每天从青话门前走过,四人帮倒台时,最早在他们的外墙上看到庆贺的标语。
虽然天天门前过,但因为是单位所在,所以从来不曾进去过。而且当时大门紧闭,完全看不清内中情景。如今才知道这两家单位的所在,都是好地方:
安福路201号原青话的位置,现在似乎是一些外语培训机构所在。挂着“优秀历史建筑”的石牌(1922年建),网上查说曾做过民国最后一任上海市长吴国桢的宅邸。参见:话剧圣地-上海安福路201号(2008-04-03);安福路201号吴国桢的官邸(2013-03-22)。
安福路284号的人艺,也挂着“优秀历史建筑”的石牌(1937年建)。现在边上有上海话剧艺术中心,文艺青年聚集地。

更多建筑图片可以搜索“安福路”或“安福路XXX号”。

– 96弄
当年上学,从长乐路的家转到乌鲁木齐中路(我们仍用旧称麦琪路),再转到安福路。有时到长乐路口时从与麦琪路平行的(乌鲁木齐中路)96弄穿到安福路,从公共浴室边出来。长乐路、安福路的这两段完全没有商店,麦琪路上这一段二侧则有不少。马路这一侧,先经过公用电话间,然后有一家烟纸店,偶而会用零花在这里买包盐金枣、话梅什么的,因为零花钱少,最多买5分、从来没有买过1角一包的。走到安福路转角,是一家食品店,夏天会去买4分一根的棒冰,如果碰到有断棒冰3分钱,会特别开心,8分的雪糕、1角9分的简装冰淇淋是极少吃的。烟纸店似乎没有名字,我们称“小店”,食品店名大又兴(我不确定是不是这么写,因为从来不看店名)。如今这些店连同96弄一起消失了。
安福路口,大又兴对面的药房现在变成了好德便利,还是原来的老房子,真是难得还算保留原状的一块了。

C360_2015-04-05-10-57-55-721