哈佛大学《中国历代人物传记资料库》(CBDB)

网友CJ在“数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)”下留言,提到哈佛大学的CBDB数据库,于是查到这个很强大的《中国历代人物传记资料库》,属于后知后觉。

CBDB据称收录七世纪至十九世纪的中国人传记资料共32.8万,网站首页有与地理信息数据结合的可视化数据呈现。数据库的强大不只在于其数据量,更因为其数据的处理及提供利用方式:
– 不是纯文本的,而是结构化的、带地理位置信息的;
– 不仅可以查,而且提供原始数据下载;
– 有CBDB API,可以通过人物ID或人名(汉字或拼音),返回丰富的结构化人物传记资料(生卒、别名、地理信息,任官、亲属关系、社会关系等)。

资料库简介称:“中國歷代人物傳記資料(或稱數據)庫係線上的關係型資料庫,其遠程目標在於系統性地收入中國歷史上所有重要的傳記資料,並將其內容毫無限制地、免費地公諸學術之用。截至 2013年10月為止,本資料庫共收錄約328,000人的傳記資料,這些人物主要出自七世紀至十九世紀,本資料庫現正致力於增錄更多的明清代人物傳記資料。本資料庫除可作為人物傳記的一種參考資料外,亦冀可敷統計分析與空間分析之用。”
该数据库由创始者郝若贝教授(Robert M. Hartwell,1932-1996)将初版遗赠哈佛燕京学社,后续开发工作由哈佛大学燕京学社、台湾中研院历史语言研究所及北京大学中国古代史研究中心三方合作进行(英文界面说明的合作方中,第一家是费正清中国研究中心)。从历史看,2004年傅君勱开始技术开发,2005年北大加入内容维护,2006年中研院提供经费资助,2007年开放使用。创始与开发、维护可称功德无量。

网站有方法论部分,也可以说其实讲的是数据库中的数据可以如何被利用,包括:
– 群体传记学
– 地理资讯系統(GIS)
介绍利用ArcGIS或MapInfo(甚至Google Earth)等,将CBDB与哈佛的另一个项目中国历史地理信息系統(CHGIS)(update: 2014-8-4:中国编纂处复旦大学历史地理研究中心,多种GIS数据可下载)整合的多个实例。
– 社会网路关系(SNS)
介绍利用免费社会网络分析工具Pajek,对CBDB导出数据做人际关系可视化的实例。

下载了某个版本的数据(ACCESS数据库),看到很多实用的表,比如朝代年号(对照公历年)、古代地名(带地理位置、管辖关系),要做古代数据时,可以用上。于是又仔细下载了网站上的用户指南(下载教学与辅助文件):

《中国历代人物传记资料库:用户指南(中文版)》(2011年4月) / 傅君勱(Michael A. Fuller);北京大学CBDB编辑组译
第三章CBDB的分析工具,介绍设定的了解人物关系的用法,可供古代中国人物研究用。
第二章CBDB的结构,详细给出了数据库表的结构与取值等,就是一套全面的古代中国人物本体

– 实体:
1、人物:基本信息
2、亲属关系:9种基本类别,及更多变化
3、非亲属关系:直接、间接,未来还考虑参加丧事、馈赠礼物关系
4、身份(社会区分)
5、入仕方式
6、职官和除授:序列、年份、地址,未来考虑官僚组织的历史变化
7、地点:名称、地理座标(经纬度)、政区等级(从属关系)
8、传记地点信息:传记中涉及的各种地点
9、文本:与人物有关的著述,包括碑刻等、手稿、印刷品
10、人物参与的重大事件:比如谋反、皇后废立、党争等,相关的人物、时间、地点
11、财产

– 数据库包括5类表格,分别是:
1、基本实体(11个)
2、基本实体间相互关系(16个)
3、关系类型信息(16个)
4、历史信息辅助表(9个)
5、分析辅助表(5个)