“明清妇女著作”数据库初探

今天加拿大麦吉尔大学东亚学系方秀洁(Grace S. Fong)教授来本馆介绍她主持的“明清妇女著作”数据库(MQWW), 她的2个学生介绍如何使用该数据库进行相关研究。
为参会做准备,昨晚今晨先探索了一番MQWW网站。以下结合个人使用及会上信息,对MQWW做简单概述。

明清妇女著作 = Ming Qing Women’s Writings
本数据库收录明清时期刊刻的女性诗歌及其他写作
合作图书馆】方教授从胡文楷《历代妇女著作考》中著录的4千余种作品起步,寻找明清时期妇女著作。据估计明清时期刊刻作品近5千种、存世约1/4(千余种),大多收藏在各图书馆的古籍部。因此从2003年起方教授与哈佛燕京图书馆合作扫描相关文献,并培训学生进行元数据著录,MQWW网站2005年上线。之后陆续与北京大学图书馆中山大学图书馆中国国家图书馆合作扫描文献,最新合作馆是华东师范大学图书馆香港中文大学图书馆,合计共6所合作图书馆。

收录数量】著作342部(近存世的1/3)、扫描图像5.5万余页,含诗词5.7万余、文1.8万余。由于收录的是明清时期“刊刻”的作品,因此本库内容范围并不限于明清时代,有少量早至周秦的各时期古代女性作品(比如虞姬有《和垓下歌》5种,据说还有西王母)。目前收录女性5028,还有男性1706——通常是作品集的前言后记、传记、编者评论等相关作者。

更新与元数据下载利用】每年12月更新,并提供元数据下载(Access格式)。下载数据包括:作品集信息(work, subwork)、单篇信息(poem)、作者信息(poet)、地区 (region)、朝代年号干支(cycle)、胡文楷《历代妇女著作考》收录作品(huwenkai)等,可用于数据挖掘。
方教授提示可结合ArcGIS显示地理分布,利用Gephi或SPSS做社会网络分析,并介绍她的一篇文章,以广东地区的别集为对象,利用Pajek可视化软件,揭示诗集中的序、同刊等展现的社会关系。

外链】查找到作品或人物后,会提供更多到外部数据库的链接。
对作品,本库提供扫描图像,也提供中國哲學書電子化計劃的全文链接。
对作者,本库提供到哈佛《中国传记数据库》(CBDB)的传记信息链接,点击后在弹出窗口显示。
本库的作者信息收录在CBDB中。由于女性传记在其他来源中少见,因此本库到CBDB的链接大多是本身提供出去的信息。但也有其他来源的,如:丘逢甲(是位男士)。
对链接依据很感兴趣,据说是由CBDB提供的,具体情况不详。刚才查到“虞姬”,发现弹出的是“虞汲”,再看URL:https://cbdb.fas.harvard.edu/cbdbapi/person.php?name=Yu%20ji,不禁哑然。再仔细看,原来CBDB提供了人名拼音相同的一系列ID,于是把所列40多个ID点了一遍,没有找到!再给一个在CBDB没有结果的例子“德宗宮人”,直接告诉你:No result.
据称MQWW提供给CBDB的数据近年没有同步更新(加入CBDB时由人工干预消歧)。不知道为什么CBDB上显示MQWW提供的传记数量是8300,而MQWW本身只有6918(最大ID也仅7614)。

检索与浏览】提供丰富的查找入口,包括各种途径浏览与检索。常见的人名、书名、关键词之外,还有地名、年代、婚姻……
地名浏览:上层(历史地名)会列出当时的下属地名,比如“江蘇(清)”包括上海及现属上海的县。我很感觉兴趣的是如何做的,包括历史地名对应现地名,可惜方教授说这部分做得很不好……。
年代浏览:提供朝代年号和干支浏览。清单在下载数据库的cycle表中,可以直接利用。
婚姻状态:原以为无非单身已婚。本着所有功能全看一遍的想法点进去,结果大大出乎意料,竟然有数十种(以下未含明显有误的“清”“清末民初”和用“、”分隔的其他2个):
不明、其他、后、女冠、妃、妃﹐女冠、妓、妓﹐女冠、妓﹐妾、妓﹐妾﹐尼、妓﹐尼、妓﹐正室、妾、妾﹐女冠、妾﹐寡婦、妾﹐尼、婢、婢﹐妾、宮女、宮女﹐女冠、宮女﹐妾、宮女﹐尼、宮女﹐正室、寡婦、尼、未嫁、正室、正室﹐后、正室﹐女冠、正室﹐寡婦、正室﹐寡婦﹐尼、正室﹐尼、皇后、繼室、繼室﹐寡婦、 继室、聘妾、聘室、貞女
其中有些是两种甚至三种状态的组合——好奇是先组(预先确定)还是后组(重复字段录入),看了录入单,似乎是后者。