哈佛大学《中国历代人物传记资料库》(CBDB)

网友CJ在“数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)”下留言,提到哈佛大学的CBDB数据库,于是查到这个很强大的《中国历代人物传记资料库》,属于后知后觉。

CBDB据称收录七世纪至十九世纪的中国人传记资料共32.8万,网站首页有与地理信息数据结合的可视化数据呈现。数据库的强大不只在于其数据量,更因为其数据的处理及提供利用方式:
– 不是纯文本的,而是结构化的、带地理位置信息的;
– 不仅可以查,而且提供原始数据下载;
– 有CBDB API,可以通过人物ID或人名(汉字或拼音),返回丰富的结构化人物传记资料(生卒、别名、地理信息,任官、亲属关系、社会关系等)。

资料库简介称:“中國歷代人物傳記資料(或稱數據)庫係線上的關係型資料庫,其遠程目標在於系統性地收入中國歷史上所有重要的傳記資料,並將其內容毫無限制地、免費地公諸學術之用。截至 2013年10月為止,本資料庫共收錄約328,000人的傳記資料,這些人物主要出自七世紀至十九世紀,本資料庫現正致力於增錄更多的明清代人物傳記資料。本資料庫除可作為人物傳記的一種參考資料外,亦冀可敷統計分析與空間分析之用。”
该数据库由创始者郝若贝教授(Robert M. Hartwell,1932-1996)将初版遗赠哈佛燕京学社,后续开发工作由哈佛大学燕京学社、台湾中研院历史语言研究所及北京大学中国古代史研究中心三方合作进行(英文界面说明的合作方中,第一家是费正清中国研究中心)。从历史看,2004年傅君勱开始技术开发,2005年北大加入内容维护,2006年中研院提供经费资助,2007年开放使用。创始与开发、维护可称功德无量。

网站有方法论部分,也可以说其实讲的是数据库中的数据可以如何被利用,包括:
– 群体传记学
– 地理资讯系統(GIS)
介绍利用ArcGIS或MapInfo(甚至Google Earth)等,将CBDB与哈佛的另一个项目中国历史地理信息系統(CHGIS)(update: 2014-8-4:中国编纂处复旦大学历史地理研究中心,多种GIS数据可下载)整合的多个实例。
– 社会网路关系(SNS)
介绍利用免费社会网络分析工具Pajek,对CBDB导出数据做人际关系可视化的实例。

下载了某个版本的数据(ACCESS数据库),看到很多实用的表,比如朝代年号(对照公历年)、古代地名(带地理位置、管辖关系),要做古代数据时,可以用上。于是又仔细下载了网站上的用户指南(下载教学与辅助文件):

《中国历代人物传记资料库:用户指南(中文版)》(2011年4月) / 傅君勱(Michael A. Fuller);北京大学CBDB编辑组译
第三章CBDB的分析工具,介绍设定的了解人物关系的用法,可供古代中国人物研究用。
第二章CBDB的结构,详细给出了数据库表的结构与取值等,就是一套全面的古代中国人物本体

– 实体:
1、人物:基本信息
2、亲属关系:9种基本类别,及更多变化
3、非亲属关系:直接、间接,未来还考虑参加丧事、馈赠礼物关系
4、身份(社会区分)
5、入仕方式
6、职官和除授:序列、年份、地址,未来考虑官僚组织的历史变化
7、地点:名称、地理座标(经纬度)、政区等级(从属关系)
8、传记地点信息:传记中涉及的各种地点
9、文本:与人物有关的著述,包括碑刻等、手稿、印刷品
10、人物参与的重大事件:比如谋反、皇后废立、党争等,相关的人物、时间、地点
11、财产

– 数据库包括5类表格,分别是:
1、基本实体(11个)
2、基本实体间相互关系(16个)
3、关系类型信息(16个)
4、历史信息辅助表(9个)
5、分析辅助表(5个)

数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)

今天参加上海市图书馆学会举办的2014年图书馆前沿技术论坛(IT4L)“数字人文与语义技术”。因为注册了这个会议,所以对数字人文就特别关注起来。其实今年2月OCLC发布研究报告《每个研究图书馆都需要一个数字人文中心么?》时就下载了的,但一直没有看。
Does Every Research Library Need a Digital Humanities Center? / Jennifer Schaffner , Ricky Erway. OCLC Research, February 2014. ISBN 978-1-55653-466-9. 18 p.

直觉“数字人文”就是用计算方式进行人文科学研究——比如以前就听说过的用文学作品语料库统计分析写作风格之类,只是那时可能没有用这个名词。今日午餐时和几位说起为什么没有数字科学,以为自然科学是通过实验做研究的、不似人文科学更依赖思辨,需要用计算的方式进行定量研究。待回到家中,才发现我的电脑收藏中不知何时已建有e-sci文件夹。查维基百科,自然科学和数字人文对应的,或许就是电子科学吧——当然采用的方法肯定不同,就是人文科学中也不会相同。
维基百科词条:Digital Humanities  vs e-Science 

———-“数字人文与语义技术”会议报告随记———-
刘炜《数字人文与关联数据》是入门课,从起源讲到“云中上图”。像上图这样的图书馆,还真有很多资源可做。
特别有感觉的是说数字人文不是学科,而是研究领域……(待看PPT)。

曾蕾《语义技术应用与知识再发现》举例说明如何用图情一直以来的强项,即基于图书馆资源的半结构数据,用语义技术做挖掘。报告中提到无结构的大数据、有结构的智慧数据(smart data)和半结构的XML文档(概念来自《数字人文杂志》:Big? Smart? Clean? Messy? Data in the Humanities / CHRISTOF SCHÖC)。
另外,第一次听说CCO(Cataloging Cultural Objects)图像标引三层次:一描述、二辨识(即主题)、三阐述(即意义)——有一种豁然开朗的感觉。

秦健《从欧美数字人文奖励项目说开去》对受资助项目做了归类。从数据类型上说,既包括非结构化的文本,也包括结构化的包括GIS数据集,以及数字和纸质地图、各种档案、音乐信息、语音文档、图像数据。

不同的人文科学肯定会有不同的数字人文方法,比如前述文学作品研究,与林海青《用GIS数据呈现历史事件》介绍的空间历史学,就完全不同。
除此报告外,其他报告所举例子也有不少地图应用。人文科学、社会科学研究中,与时间、地点相关的内容是相当重要的。
AHA 2014: Getting Started in Digital History Spatial History & hGIS Breakout Session

复旦大学张亮《数字人文中的IT推动力-以二十世纪中国人物志数字图书馆原型系统为例》,介绍了名为“数风流人物”的原型系统。数据来源是国家社科基金重大课题“中国人物传记数据库”,原库有5万余人,PDF全文检索。原型系统只取了十多个人(?),从时间、地理、人物关系等予以揭示。

上图杨佳《数字人文中的可视化技术》将可视化技术分为五类,举了不少例子,需慢慢消化。

上图夏翠娟《以书目框架建模的上图家谱知识库系统》介绍上图已用BIBFRAME构建了家谱本体,并对预期服务作了十分丰富的设想。可做的不少,能做到多少自然是另一个问题,夏MM自己提出了在数据加工、初始数据清洗、实例和规范数据提取、不同时代地理信息差别及纠错机制上的问题及困境。
雨师提问则是另一个问题:本体要做到何种深度,才能达到把金庸与徐志摩关联起来?答案是BIBFRAME是文献本体,还需要内容本体(要加上谱系本体)——深为受教。
对于夏MM提出的问题,张亮教授对数据清洗的看法我还是很同意的:清洗不可能准确,能做多少是多少。——大数据中,信息缺失或错误不可避免,未必影响结果,只是对采用的方法肯定有影响。

最后中科院生命科学信息中心陈涛、张永娟《关联数据在生化学会会员系统中的应用》,基于上海社科基金课题。利用PubMed数据,采用非关系型数据库、RDF数据进行关联,对中国生物化学与分子生物学会部分会员的个人发文信息、人际关系等进行揭示,还可对会员进行相关内容与会员的推荐。
系统做得相当好。比较遗憾的是如张亮教授提问所指出的,生化领域有PubMed的RDF数据可用,此法对其他领域未必适用。

注:下午迟到,很遗憾错过了上图王曼隽《上海年华的故事》。
P.S. 佩服sogg边听报告边给出提及内容链接的本事。

———联想的分割线———-
各报告介绍的众多实例、原型系统、设想,很有启发。期待PPT分享,再细细看过。
联想到本馆,有一个《中国年谱数据库》,一直以来用者了了。而年谱中可挖掘的数据,包括人物、时间、地点、事件、人物关系……完全可以比肩家谱。如果有意试水数字人文,倒也是个不错的数据源。
秦健教授在问答环节中指出:图书馆从提供数据资源,到提供数据产品。这大概就是图书馆要有一个数字人文中心的理由吧?

珀尔修斯数字图书馆(从人类可读信息到机器生成知识)

珀尔修斯数字图书馆项目(Perseus Digital Library Project)始于1985年,专注古希腊及古罗马的历史、文学与文化,是一个由领域专家主持的数字化项目。主编Gregory R. Crane是塔夫茨大学教授,一位数字人文的早期实践者。
项目于今年5月发布了珀尔修斯目录(The Perseus Catalog) ,目标是包括所有主要的古希腊和古罗马作者、每人至少收录一部联机版作品。发布当时包括3,679部作品,以及1.1万余全文链接(其中谷歌图书6,419部、互联网档案5,098部、HathiTrust为593部)。
目录细览页有全文时,按行分页显示,左栏为文字导航、上面为条形导航。点击全文中任意词,会跳转到该词的分析页,包括词典解释、出现统计等。如埃斯库罗斯的希腊文版《阿伽门农》

该目录采用了图情与IT领域的不少通用技术,有不少可圈可点之处:
元数据格式:通用的采用LC的MODS和MADS,专业方面采用Homer Multitext Project开发的Canonical Text Services及CTS-URN protocols(应该是做某些强化)
软件界面:采用开源的Blacklight及Solr
输出格式:目前为HTML和ATOM,但对所有文本组、作品、版本及译本提供稳定、可链接的标准URI后续版本将提供RDF三元组(语义网与关联数据世界又将多一个数据来源)
目前该项目已把MADS格式的作者规范数据贡献给了虚拟国际规范档(VIAF),未来也将在目录中提供到VIAF的链接。

项目网站的Research部分谈到其使命,最后说明其关注三个方面,并有详细解释:
– 人类可读信息
– 机器可操作知识
– 机器生成知识
从前面部分行文看,似乎写于2008-2009年,尽管没有出现语义网或关联数据字样,但后两个方面应该正是抓住了这一趋势。

参见:珀尔修斯数字图书馆目录项目的博客:The Perseus Catalog Blog
Announcing The Perseus Catalog, release 1.0 / by LISA M. CERRATO (2013-5-10)
Contribution to the Virtual International Authority File / by ANNA KROHN (2013-11-25)