标签: 数字人文
TEI中的书目描述及其他
“明清妇女著作”数据库初探
今天加拿大麦吉尔大学东亚学系方秀洁(Grace S. Fong)教授来本馆介绍她主持的“明清妇女著作”数据库(MQWW), 她的2个学生介绍如何使用该数据库进行相关研究。
为参会做准备,昨晚今晨先探索了一番MQWW网站。以下结合个人使用及会上信息,对MQWW做简单概述。
明清妇女著作 = Ming Qing Women’s Writings
本数据库收录明清时期刊刻的女性诗歌及其他写作。
【合作图书馆】方教授从胡文楷《历代妇女著作考》中著录的4千余种作品起步,寻找明清时期妇女著作。据估计明清时期刊刻作品近5千种、存世约1/4(千余种),大多收藏在各图书馆的古籍部。因此从2003年起方教授与哈佛燕京图书馆合作扫描相关文献,并培训学生进行元数据著录,MQWW网站2005年上线。之后陆续与北京大学图书馆、中山大学图书馆和中国国家图书馆合作扫描文献,最新合作馆是华东师范大学图书馆和香港中文大学图书馆,合计共6所合作图书馆。
【收录数量】著作342部(近存世的1/3)、扫描图像5.5万余页,含诗词5.7万余、文1.8万余。由于收录的是明清时期“刊刻”的作品,因此本库内容范围并不限于明清时代,有少量早至周秦的各时期古代女性作品(比如虞姬有《和垓下歌》5种,据说还有西王母)。目前收录女性5028,还有男性1706——通常是作品集的前言后记、传记、编者评论等相关作者。
【更新与元数据下载利用】每年12月更新,并提供元数据下载(Access格式)。下载数据包括:作品集信息(work, subwork)、单篇信息(poem)、作者信息(poet)、地区 (region)、朝代年号干支(cycle)、胡文楷《历代妇女著作考》收录作品(huwenkai)等,可用于数据挖掘。
方教授提示可结合ArcGIS显示地理分布,利用Gephi或SPSS做社会网络分析,并介绍她的一篇文章,以广东地区的别集为对象,利用Pajek可视化软件,揭示诗集中的序、同刊等展现的社会关系。
【外链】查找到作品或人物后,会提供更多到外部数据库的链接。
对作品,本库提供扫描图像,也提供中國哲學書電子化計劃的全文链接。
对作者,本库提供到哈佛《中国传记数据库》(CBDB)的传记信息链接,点击后在弹出窗口显示。
本库的作者信息收录在CBDB中。由于女性传记在其他来源中少见,因此本库到CBDB的链接大多是本身提供出去的信息。但也有其他来源的,如:丘逢甲(是位男士)。
对链接依据很感兴趣,据说是由CBDB提供的,具体情况不详。刚才查到“虞姬”,发现弹出的是“虞汲”,再看URL:https://cbdb.fas.harvard.edu/cbdbapi/person.php?name=Yu%20ji,不禁哑然。再仔细看,原来CBDB提供了人名拼音相同的一系列ID,于是把所列40多个ID点了一遍,没有找到!再给一个在CBDB没有结果的例子“德宗宮人”,直接告诉你:No result.
据称MQWW提供给CBDB的数据近年没有同步更新(加入CBDB时由人工干预消歧)。不知道为什么CBDB上显示MQWW提供的传记数量是8300,而MQWW本身只有6918(最大ID也仅7614)。
【检索与浏览】提供丰富的查找入口,包括各种途径浏览与检索。常见的人名、书名、关键词之外,还有地名、年代、婚姻……
地名浏览:上层(历史地名)会列出当时的下属地名,比如“江蘇(清)”包括上海及现属上海的县。我很感觉兴趣的是如何做的,包括历史地名对应现地名,可惜方教授说这部分做得很不好……。
年代浏览:提供朝代年号和干支浏览。清单在下载数据库的cycle表中,可以直接利用。
婚姻状态:原以为无非单身已婚。本着所有功能全看一遍的想法点进去,结果大大出乎意料,竟然有数十种(以下未含明显有误的“清”“清末民初”和用“、”分隔的其他2个):
不明、其他、后、女冠、妃、妃﹐女冠、妓、妓﹐女冠、妓﹐妾、妓﹐妾﹐尼、妓﹐尼、妓﹐正室、妾、妾﹐女冠、妾﹐寡婦、妾﹐尼、婢、婢﹐妾、宮女、宮女﹐女冠、宮女﹐妾、宮女﹐尼、宮女﹐正室、寡婦、尼、未嫁、正室、正室﹐后、正室﹐女冠、正室﹐寡婦、正室﹐寡婦﹐尼、正室﹐尼、皇后、繼室、繼室﹐寡婦、 继室、聘妾、聘室、貞女
其中有些是两种甚至三种状态的组合——好奇是先组(预先确定)还是后组(重复字段录入),看了录入单,似乎是后者。