1923年前外文期刊:免费访问、批量下载、文本挖掘

关于JSTOR早期期刊内容(Early Journal Content, EJC

——包括美国1923年前、其他国家1870年前出版的期刊,于2011年9月6日开始提供世界范围的免费访问,并随着数字化的完成不断增加。
学科包括艺术人文、经济政治、数学和其他科学。
这批数据占JSTOR内容的6%。

——最近,JSTOR把这批350种期刊共45万篇文章提供给了互联网档案(IA),现在也可以通过IA访问

——这批数据共2T,还可以通过JSTOR或IA批量下载、收割
JSTOR:EJC介绍
IA:Downloading in bulk using wget

——JSTOR同时提供全文OCR及文章元数据的批量下载,供文本挖掘和分析研究使用。
目前压缩数据1.7GB,解压后7.5GB。
EJC数据集:Early Journal Content Data Bundle

via Internet Archive Blogs: 450,000 Early Journal Articles Now Available (2013-4-11)

P.S. 联想或感想二则:
1、一月去世的Aaron Swartz,为IA工作,另因批量下载JSTOR数据而面临牢狱之灾。这是它们之间的一种和解么?
2、老外做研究条件就是好,大量免费数据可用,阅读、使用之外,还可以挖掘、研究。

带上手机自助游:适合旅行的安卓应用

以前自助游,都是在家找好各种资料、整理后打印出来带上(旅行前准备资料,2009年8月30日),自从用上Evernote,除了有时因手机屏幕太小看起来不方便、会打印景区地图外,其他资料就不再打印了。
几年前准备资料常用的网站是携程旅行网、去哪儿、大众点评网、Google地图,现在还在用这几个网站,不同的是它们都有了手机应用app。除此之外,还有更多适合旅行的app。以前要查好所有信息才敢出门,现在可以随时用手机查,移动上网让自己轻松不少。
自己常用的安卓app汇总如下,不少也有iOS版。由于自己手机内存小,所以功能类似的,会比较在意app的大小;又由于上网套餐流量有限,特别注意app的离线功能。
行程安排
──印象笔记(Evernote):景点信息、行程安排,全记录在印象笔记中,并在手机桌面创建快捷方式,以便一键访问。在手机上打开过笔记后,免费用户也可离线访问。
──Google地图:带离线功能的,行前先把要去的、住的及某些地标都标上“星”,可以快速定位。
[update: 2014-8-13] 百度地图:Google用不了,百度代之。
──去哪儿旅行:景点-身边的景点:依距离列出附近的景点,适合到某处后,有点空闲时间,想在近处随便走走。
[update: 2014-8-13] 百度旅游:可下载感兴趣的目的的离线查看。
──大众点评:饭店等“收藏”后可离线使用。在线时可查找“附近”美食。
──Google地图:查周边。对小城市,大众点评的信息不够丰富甚至没有,可用此作补充。
[update: 2014-8-13] 百度地图:Google用不了,百度代之。
:通常行前住宿就找好了,如果要临时找的话,可用:
──携程无线:酒店查询,可看地图预订酒店,临时找酒店比较方便
──去哪儿旅行:酒店-夜销:按距离远近显示,适合晚上还没有找到住宿酒店时
– 地铁:出行首选,不堵车、发车频率高、速度快,时间可控
──8684地铁:可离线使用。地铁app不少,这个比较小。
– 公交:地铁不是到处都有,出租也不是想打就能打到的,了解公交车信息还是必要的
[update: 2014-8-13] 爱帮公交:强烈推荐。虽然到站提醒功能不可靠,但收录城市多、离线查询不错(8684现在不好用)

──8684公交:可离线使用。按站名查(输入后有提示),需自己体会查询技巧。很给力。

– 火车:通常行前火车票就买好了,但短途还是会临时买票
[update: 2014-8-13] 铁路12306:官方应用,随时买票、改签、退票(为方便更改,网上买票可不要急着取票)。
[update: 2014-8-13] 高铁管家:查询速度快、功能多,可与12306配合使用
──猜火车:火车时刻表、余票查询、在线订票(要能有手机支付)。余票查询是其独特功能,便于在买票前确定车次。
──8684火车:预置电话订票(拨号),由于取票时支付,需要抢票时可以与猜火车结合使用。
──去哪儿旅行、携程无线也有火车时刻表功能,但没有余票查询、订票等功能。
– 飞机:通常行前机票就买好了,主要查航班准点
[update: 2014-8-13] 航旅纵横:民航官方应用,可关注航班信息。认证后只要买好机票,你的航班信息就有了,还会发短信告知航班动态。目前有关航班信息的最佳应用。
──携程无线:携程的机票不便宜,但其“航班看板”可查航班准点情况。
──非常准:查航班准点情况。由于app大小超过10MB,且不能移到SD卡,手机内存不足的,还是直接上非常准网站查更方便(可以注册登录网站后早早订好短信通知)
──去哪儿旅行:订机票比价首选。对我来说,只是在其网站上查航班比价,然后到航空公司官网订,还没有在上面订过。
天气预报
──彩虹天气:绝对够用的最简功能。
──墨迹天气:太大,而且不断升级、越来越大,内存太小的手机承受不起。
另:台港澳旅游,推荐電腦玩物:Android 手機陪你一起去自助旅行的 33 款 Apps 推薦下載(有墙)

微软学术搜索,比谷歌更专业

看到雨师提到微软学术搜索(Microsoft Academic Search,以下简称MAS),去看了下,发现界面同样是简洁的一个搜索框,但功能与简陋的Google Scholar(以下简称GS)相比,更接近发现系统,换言之,更适合查找学术资源。

访问网址:
http://academic.research.microsoft.com/
http://libra.msra.cn/(尽管有.cn的域名,却没有收录中文资源)

1、限定领域
找学术资源,查准非常重要。
MAS在搜索框中直接提供了领域限定,可在15个大领域中选择一个或多个(文科比分类较粗)。
Agriculture Science
Arts & Humanities 艺术人文
Biology
Chemistry
Computer Science
Economics & Business 经济商业
Engineering
Environmental Sciences
Geosciences
Material Science
Mathematics
Medicine
Physics
Social Science 社会科学
Multidisciplinary 多学科
– 相比之下,GS提供的限定是文章、专利、法律文献(搜索框下),有点不搭调。而在搜索框的同样位置是高级搜索(见下)。

2、分面和年份限定
如果未选择领域直接搜索,MAS左侧栏为15个领域的结果数,点击领域限定出现结果后,左侧栏分面同下。
选择特定领域(可多选)后检索,结果一览表的左侧栏限定是:
(以选择社会科学,查随便找的两个词data library为例,鼠标移上显示命中数量)
作者(可以了解相应专题的牛人,第1个是Scott Nicholson,8个结果)
期刊(或可视为核心期刊,第一个是The Electronic Library,214个结果)
机构(同作者,第一个是雪城大学,27个结果)
关键词(第一个Design Methodology,725个结果;第二个Academic Libraries,512个结果──很有指导意义)
另外,右侧上有时间限定,可限定2010年或之前某年以来

相比之下,GS的左侧栏功能过少,缺乏指导性:
时间(可定制范围,这点优于MAS)
排序:相关性或日期(MAS没有提供日期排序)

3、高级检索
MAS提供六种检索途径:
作者
会议
期刊
机构
年度
DOI
– 使用上,点击高级检索后就在本页下拉,而非重开窗口,这个在形式上与GS一样。比较下GS的高级搜索:
搜索词:完全一致;与、或、非;位置限定:题名或正文(搜索词的这些功能,信息素养教学者会很喜欢)
作者
出版(从举例看,可用刊名)
日期

4、搜索(结果)订阅
MAS提供的是RSS订阅(右侧年份限定上面按钮。Google Reader没有订成,IE收藏夹中的“源”可订)
GS在左侧栏最下有邮件通知(Create alert)──大概也表明它打算放弃Reader吧。

5、其他:可视化功能
MAS还提供丰富的可视化功能(需安装SilverLight,不知道是否支持非IE浏览器)
学术地图(作者与机构地理分布)
会议日历
领域趋势
机构比较
合作者图谱
合作者路径
谱系图(研究者师承关系)
论文引用图谱
– 用秦健老师试了下作者(后4项),很丰富的关联,但谱系图没有显示出来。又查曾蕾老师(也未显示谱系图),发现两人的合作者图谱的另一端都是Paul Erdos,其专业领域是离散数学、概率、算法理论,不明白了。

6、排行榜
作者(领域牛人?)
出版物
会议(顶级会议?)
期刊(核心期刊?)
机构
关键词(领域热点?如限定近5年)
– 可选择15个领域及其子领域、年份(近5年/10年)、地域(大洲),按被引数/H指数排序。
如地理科学,按H指数排序,中科院在亚太地区排名第2,全球排名第32。

7、2.0功能:贡献
用微软的Live ID登录后,可以帮助MAS纠错、强化信息、提供内容。包括:
编辑作者(作者文档、出版物列表)、合并作者、编辑作者关系
编辑出版物(基本信息)、合并出版物
增加PDF文件或提供全文链接
增加Bib Tex(上传出版物清单)
编辑CFP(会议征文)

— 若说MAS不足的话,应该就是收录数量了,大概也是免费学术搜索的软肋了:页面称收录48,774,486出版物、21,931,226作者,过去一周2,454更新──总量不到5千万、周更新2千多。不知道Google学术收录量是多少,至少与发现系统比,显然还差不少。