梁启超与历史统计学

近年兴盛的数字人文,在国际上早先曾称为人文计算。近日在查民国时期文献,不意发现吾国在当时也已有之。突出的例子就是1920年代梁启超提出的“历史统计学”(见后)。到1930年代,已有对“历史统计学”的研究:
杨成柏.历史统计学底根本问题.研究与批判,1935,1(1):75-78
朱谦之.史学与统计学.国立中山大学文学院专刊,1936,(3):33-73

两文介绍的研究论著大致相同(朱文含2译文),合并如下:
丁文江.历史人物与地理之关系.科学杂志,8(1)
梁启超.近代学风之地理的分布.清华学报,1(2)
朱君毅.现代中国人物之地理教育与职业的分布.心理,4(1)
朱君毅.中国历代人物之地理的分布.中华书局常识丛书第四十种,1932
张耀翔.中国人才产生地.心理杂志选存,第18篇
余天休.中国近三十年人物底分析.社会学刊,3(2)
禇绍唐.当代我国名人之地理的分布
桑原骘藏.由历史上观察的中国南北文化(原载东洋史论丛).文哲季刊,1(2)
亨丁顿.北中国与南中国(见:种族的品性).汉译:自然淘汰与中华民族性.[新月书店,1929]

—— 梁启超:历史统计学(摘录)——
1922年11月10日在南京东南大学史地学会讲演“历史统计学”【小标题本人添加】:
出处1:史统计学.史地学报,2(2):1-8
出处2:晨报副刊,1922-11-28:1-2;1922-11-29:1;1922-11-30:1-2

【名称来历】历史统计学,是用统计学的法则,拿数目字来整理史料推论史迹。这个名称,是我和几位朋友们杜撰的。严格的说:应该名为“史学上之统计的研究法”。因贪省便,姑用今名。但我们确信也是研究历史一种好方法,而且在中国史学界尤为相宜,我们正在那里陆续试验,成绩很是不坏。所以我愿意把我们所拟的方法介绍诸君,盼望多得些同志共同做去。
【目的】我们为什么想用这种方法研究历史呢?我们以为:欲知历史真相,决不能单看台面上几个大人物几桩大事件便算完结;最要的是看出全个社会的活动变化。全个社会的活动变化,要集积起来比较一番才能看见。往往有很小的事,平常人绝不注意者,一旦把他同类的全搜集起来,分别部居一研究,便可以发见出极新奇的现象而且发明出极有价值的原则。……
【举例:历史人物之地理分布】我多年想做一张表,将二十四史里头的人物分类:学者,文学家,政治家,军人,大盗,……等等,每人看他本传第一句“某某地方人也”;因此研究某个时代多产某种人,某人地方多产某种人、我这个计划曾经好几次和我的朋友丁文江先生谈起,他很赞成。后来他说:先且不必分类,只要把正史上有传的人的籍贯列下来再说。他自己便干起来了。现在还没有完全成功,只是把几个统一的朝代——汉唐宋明做成了,编出一张很有趣的“历史人物之地理分配表”如下:……
【想做而未能做的其他题目】现在请把我想做而未能做的题目,随便说几个请教诸君。
(一)我们试做一篇“历代战乱统计表”……根据这表研究他“为什么如此”,一定可以发明许多道理来。
(二)我们试做一篇“民族同化人物表”……此表若成,则于各外族同化程度及我们现在的中华民族所含成分如何,大概可以了解。
(三)我们试做一个“地方统治离合表”……有那么一张表,我们各地方进化退化之迹,自然有許多发明。
(四)我们试做一篇“历代著述统计表”……只把数目字列出,便可以知道某时代某种学问发达或衰落,某地方文化程度或高或低,或进化或退化。
(五)我们试做一篇“历代水旱统计表”……
像这种大大小小的统计题目,常常在我脑子里头转的,不下几十个。我也无暇细述,姑且举这五个不伦不类的讲讲。诸君举一反三,或者想出来的题目比我还多还好哩。

民国期刊全文数据库四种

民国期刊全文数据库,以前一直用国图和CADAL的。
最赞的是国图,完全公开访问。据河边前辈称国图的来自当年从全国征集的缩微期刊,因而只要有的品种,卷期都比较全。惜乎这事后来没有持续下去,所以国图民国期刊品种不算多,目前网站上提供4351种期刊。
相比之下,CADAL的民国期刊更为逊色。据2006年9月的检索结果,当时有民国期刊3802种,且卷期极为不全。看CADAL二期计划新增14万期(CADAL资源介绍),或可有所改善。

检索方面,国图目前优于CADAL的是提供目录(也就是篇名)检索,但检索结果到刊而非到期,因而这种“目录”检索基本上是无用的功能。试想如果该刊有30期,除了一期期看过来,没有办法知道想要看的到底是哪期,更不会说是哪篇(具体页码),还有多大的意义?
作为全文库,国图和CADAL的民国期刊库存在一个致命缺陷──没有篇作者信息。由于不是基于篇名做索引,而是以期为单位做目次,既没有给篇作者定义元数据,做目次时也没有录入作者信息,导致以现有信息根本没有办法查到篇作者。未来如果不辅以强大的技术手段提升其功能(OCR识别全文并定位作者),无法改变现状。
简言之,国图和CADAL民国期刊库的最大问题在于它们作为检索工具,只是目录而非索引。期刊目录基本上只适合查找从其他来源已知的文献,根据已知的刊名、卷期找到所需文章。期刊索引才能发现文献,对旧刊来说,特别有用的是查找某位作者有哪些文章,发表在什么期刊、何卷、何期。

去年底《大成老旧刊全文数据库》在本馆试用,这是个基于篇的期刊索引库,据称有6千余种刊、12万多期、150万余篇文章。当时用一位民国作者查了一下,可以查到一些,但由于没有比对,不清楚覆盖范围。
前不久微博得知《复印报刊资料》《全国报刊索引》也有《民国期刊全文数据库》,然后在本馆网站上发现3月下旬曾有短暂试用。现在虽然已经结束试用,或许因为在继续试用它家的《民国时期期刊篇名数据库》的缘故,全文库仍可以查(不能下载全文),于是用同一位作者查了一下,命中结果是大成的近十倍!不过并没有涵盖所有大成的期刊(但其篇名库有)。看介绍目前收录5千多种4百万篇(比大成品种少、但篇数多,可见卷期较全),最终会达到2万多种,如此,恐怕无敌了。
有点奇怪的是,篇名库与全文库并不对应,还有全文库有、篇名库却没有的情况。

———-民国期刊全文库四种———-
国家图书馆:民国中文期刊
来自缩微胶片的数字扫描工作,预计将在三年内完成近600万拍缩微胶片的数字转换。现提供4351种期刊电子影像的全文浏览。资源库遵循边建设边服务的原则,将不断追加更新资源库内容。
访问网址:http://res4.nlc.gov.cn/home/index.trs?channelid=6(公开访问、全文浏览)

CADAL(高等学校中英文图书数字化国际合作计划)
已建资源:236,594册民国书刊(未区分书刊);在建资源:民国文献20万册(期),包括:民国图书4万册,民国期刊14万期,民国报纸2万期。
访问网址:http://www.cadal.cn/(公开查询、注册后全文浏览──特定IP范围?)

《大成老旧刊全文数据库》
收录清末自有期刊以来到1949年以前(1840-1949),中国出版的6000余种期刊,共12万多期,150万余篇文章。
访问网址:www.dachengdata.com
提供公开检索,检索途径:题名(篇名)、作者、内容提要、刊名。检索一览显示:题名、作者、刊名、年卷期。──即使没有买该库,作为查找工具也不错。

《民国时期期刊全文数据库(1911~1949)》(《全国报刊索引》)
计划收录民国时期(1911~1949)出版的两万余种期刊,一千五百余万篇文献。
分辑出版(每辑250GB),目前的数量:
第一辑 1142种 31533期 811044篇
第二辑 1245种 28263期 830326篇
第三辑 1145种 31382期 794213篇
第四辑 2098种 30856期 804569篇
第五辑 (种、期不详)769345篇
《全国报刊索引》以索引起家、目前仍在销售篇名库,因之该库不登录不能查,对未订购者,这访问网址也没啥意思了:www.cnbksy.cn

P.S. 一直很奇怪,民国元年明明是1912年,为啥我们的民国文献都是从1911年开始算的呢?

———-分割线———-

《晚清期刊全文库(1833-1910)》试用记 (2010年11月29日)

电子版民国图书和期刊 (2006年9月27日)

国家图书馆民国期刊全文下载方法 (2007年10月18日)──方法已失效

国家图书馆民国电子书 (2007年6月26日)

全球数字图书馆(百万册图书项目)中国站点

    外出一周,今天回家。看博文留言,重又看到了去年12月19日ZZ在“百万图书”项目(CADAL)相关信息下的留言:“整个UDL项目现在是又153万册左右数字图书,其中中国100多万,印度33万,还有埃及的几万。大部分英文图书还没有解决版权问题。中国古籍已经解决。CADAL, ULIB.cn等的关系是, CADAL位于浙大,主要负责中文图书数字化,是ULIB中国南方技术中心,www.cadal.edu.cn也是一个提供比较完整的检索和发布平台,是真的可以实用化的,从这一点讲,CMU的主站都做不到;但CADAL站点主要只有中文图书。而www.ulib.org.cn经过多次改版,已经提供了所有153册图书的镜像检索,涵盖了所有数据,并拥有北方中心15万册英文图书的全文检索系统、插图检索系统和知识网络系统,ulib.org.cn现在可提供所有版权允许的图书的访问。”
    去年11月本馆网站改版后向所有读者介绍CADAL的民国电子书,偶有访问不了的情况发生时,读者比较着急,并且在教育网外,CADAL访问速度极慢,所以想看看介绍中的百万册图书的UDL中国网站,或可与CADAL交替使用。[update: 来自CADAL的消息:因民国文献还有部分处于版权保护期,应作者或权利继承人要求,自2008.7.16起,民国文献全文不对公共网开放服务]

    全球数字图书馆中国站点(http://www.ulib.org.cn/zh-CN/)由中国科学院研究生院主办,看来知者不多。版权日期2003-2008,但至今日的网站访问统计数仅为:
首页访问: 1531
浏览次数: 5850
网站访问: 1101

    首页下有“百万册图书搜索:实验系统”,包括三种检索方式:
· IQuery 2.0 BETA:一种新颖的电子图书检索系统,支持多粒度电子图书检索与多侧面导航。
搜索范围可选择全文、章节、主题、题名或多粒度(all的专业术语?)。
搜索中栏为带图书封面的书目信息摘要;
左栏显示多层主题分面(含命中数):
  Composite subject 主题
  General subfield 一般子类
  People 人物
  Time 时代
  Place 地点
  Form of reservation 体裁
  Source of topic words 主题词来源
  Other subject 其他主题
右栏显示可扩展检索词(按相关度?),且可按可视化方式显示(更改浏览器安全设置后仍没有安装成功)。
· Illustrator:拥有870万张插图超大数据集的语义插图检索系统。
查询速度很快,可惜访问结果都是HTTP Status 404,图像说明都是not available。
· Knowmap:一个基于主题词网络的电子图书可视化导航与检索系统。需要Java插件。

    以上都是研究成果展示(网页下有研发者姓名)。不过因为自己太菜,需要的插件都没有安装成功,所以可视化的部分看不到。不过这没关系,现阶段我只需要最基本的检索功能(ULIB检索),因为我最关心的是能不能看全文,可否以此作为CADAL网站的备用──可惜,好象也不行。
    在帮助页,提示要显示DjVu图像,需从lizardtech下载免费插件 exview_setup.exe(7.9MB);在下载页给出的是其本地提供的DJVU浏览器(DjVuWebBrowserPlugin.exe)。后者与CADAL网站上的一样,本机原已安装,但看不到内容显示;安装前者后,仍看不到页面内容。我使用IE 7.0和Firefox 2.0。
    FAQ中说,如果需要整本下载,可以把书名告知help@ulib.org,然后会得到一个带下载说明的图书链接。这对很多读者来说是个不错的解决方案──不知道是不是真管用?现在假期中,开学后记得一试。