TEI中的书目描述及其他

最近在看TEI(Text Encoding Initiative),这是对文本进行数字化编码、添加机读语义标识的标准。
最新版指南《TEI P5:电子文本编码与交换指南》(3.3.0版,2018.1.31更新),长达1841页:
幸好有台湾出版的中文版,主要内容是轻量版(TEI Lite选录版)手册和完全版指南第2章标头的翻译:
TEI 使用指南:運用TEI處理中文文獻 / 魯‧伯納、麥克‧蘇寶麥昆、馬德偉 著; 謝筱琳、黃韋寧 譯.
看完中文版指南,再以样例为主浏览完全版指南,只了解个大概。
感觉TEI具有相当大的灵活性,很大的努力在于保持文本的原有状态:一是元素标识位置放置自由(随文本而定),二是可以用不同元素表达相同含意(适应不同文本表达);同时根据分析需要,对相同文本可采用侧重、深度各不相同的元素标识。相形之下,编目标准有时不免有削足适履之感。
TEI文件由标头<teiHeader>和文本<text>组成:标头由文件描述(必备)、编码描述、配置描述和修订描述4部分组成;文本由文前、正文(必备)和文后3部分组成。
其中文件描述<fileDesc>(2.2),是完全按照信息源,对书目信息进行客观描述,与书目记录的著录部分很相似。并且TEI的这部分也是参照编目界的标准,特别是ISBD,因为目的是“确保编目记录所需的资讯能够从TEI文件标头中取回复原”(中文版p.227)。<fileDesc>的7个部分与ISBD8大项很接近:
<titleStmt> 题名说明(含责任说明)
<editionStmt> 版本说明
<extent> 数量
<publicationStmt> 出版说明(含发行)
<seriesStmt> 丛编说明
<notesStmt> 附注说明
<sourceDesc> 来源描述(电子文本所依据的来源的书目描述)
另外,正文或文后可能有书目引用和参考文献(3.11),也与书目信息有关,揭示项目与方法接近文后参考文献标准。
试着依据TEI P5指南本身,做一下标头部分的“文件描述”。特点是可以完全按题名页原顺序转录(数量例外),文字间以TEI元素分隔:
<fileDesc>
 <titleStmt>【1题名和责任说明】
  <title type=”main”>TEI P5:</title>【正题名】
  <title type=”sub”>Guidelines for Electronic Text Encoding and Interchange</title>【副题名】
  <respStmt>【责任说明1】
   <resp>by </resp> <orgName>the TEI Consortium</orgName>
   </respStmt>
  <respStmt>【责任说明2】
   <resp>Originally edited by</resp> <persName>C.M. Sperberg-McQueen</persName> and <persName>Lou Burnard</persName> for the <orgName>ACH-ALLC-ACL Text Encoding Initiative</orgName>
   </respStmt>
   <respStmt>【责任说明3】
    <resp>Now entirely revised and expanded under the supervision
of the</resp> <orgName>Technical Council of the TEI Consortium</orgName>
   </respStmt>
 </titleStmt>
 <editionStmt>【2版本说明】
  <respStmt>【版本责任说明】
    <orgName>The TEI Consortium</orgName>
  </respStmt>
   <edition n=”V3.3.0″>Version 3.3.0. Last updated on <date>31st January 2018</date>, revision
f4d8439</edition>【版本】
 </editionStmt>
 <extent>【3数量】
  <measure unit=”MB” quantity=39>39MB</measure>
  <measure unit=”pages” quantity=”1841″>1841 pages</measure>
 </extent>
 <publicationStmt>【4出版说明】
  <publisher>Text Encoding Initiative Consortium</publisher>【出版者】
  <date>2018</date>【出版日期】
 </publicationStmt>
</fileDesc>
文件描述<fileDesc>属于客观描述。在文本<text>部分,文前<front>或文后<back>也可以对题名页等进行描述,此时可以考虑字体、字号、颜色,甚至可以完美揭示排版样式。
同样的内容,如果在正文<body>部分,可以根据文本分析的需要,以不同方式揭示语言文字的内涵。TEI不是规定一种做法,而是提供多种灵活表达。如对于名称,在可以有多种灵活表达方式。专有名称,可以使用通用的<name>,也可以使用更专指的揭示方式,如作为团体名称,以下3种方式专指度相同:
<orgName>【专指元素】
<name type=”org”>【专有名称+type属性】
<rs type=”org”>【通用名称+type属性】
各种缩写,也可根据需要予以说明(或者不做说明)。如机构名the TEI Consortium中含有首字母缩略词TEI,可以表示为:
<name type=”org”>the TEI Consortium</name>
<rs type=”org”>the <abbr type=”acronym”>TEI</abbr> Consortium</rs>
甚至在名称中提供TEI的全拼形式:
<orgName>the
 <choice>
  <abbr type=”acronym”>TEI</abbr> Consortium
  <expan>Text Encoding Initiative</expan>
 </choice> Consortium
</orgName>

“明清妇女著作”数据库初探

今天加拿大麦吉尔大学东亚学系方秀洁(Grace S. Fong)教授来本馆介绍她主持的“明清妇女著作”数据库(MQWW), 她的2个学生介绍如何使用该数据库进行相关研究。
为参会做准备,昨晚今晨先探索了一番MQWW网站。以下结合个人使用及会上信息,对MQWW做简单概述。

明清妇女著作 = Ming Qing Women’s Writings
本数据库收录明清时期刊刻的女性诗歌及其他写作
合作图书馆】方教授从胡文楷《历代妇女著作考》中著录的4千余种作品起步,寻找明清时期妇女著作。据估计明清时期刊刻作品近5千种、存世约1/4(千余种),大多收藏在各图书馆的古籍部。因此从2003年起方教授与哈佛燕京图书馆合作扫描相关文献,并培训学生进行元数据著录,MQWW网站2005年上线。之后陆续与北京大学图书馆中山大学图书馆中国国家图书馆合作扫描文献,最新合作馆是华东师范大学图书馆香港中文大学图书馆,合计共6所合作图书馆。

收录数量】著作342部(近存世的1/3)、扫描图像5.5万余页,含诗词5.7万余、文1.8万余。由于收录的是明清时期“刊刻”的作品,因此本库内容范围并不限于明清时代,有少量早至周秦的各时期古代女性作品(比如虞姬有《和垓下歌》5种,据说还有西王母)。目前收录女性5028,还有男性1706——通常是作品集的前言后记、传记、编者评论等相关作者。

更新与元数据下载利用】每年12月更新,并提供元数据下载(Access格式)。下载数据包括:作品集信息(work, subwork)、单篇信息(poem)、作者信息(poet)、地区 (region)、朝代年号干支(cycle)、胡文楷《历代妇女著作考》收录作品(huwenkai)等,可用于数据挖掘。
方教授提示可结合ArcGIS显示地理分布,利用Gephi或SPSS做社会网络分析,并介绍她的一篇文章,以广东地区的别集为对象,利用Pajek可视化软件,揭示诗集中的序、同刊等展现的社会关系。

外链】查找到作品或人物后,会提供更多到外部数据库的链接。
对作品,本库提供扫描图像,也提供中國哲學書電子化計劃的全文链接。
对作者,本库提供到哈佛《中国传记数据库》(CBDB)的传记信息链接,点击后在弹出窗口显示。
本库的作者信息收录在CBDB中。由于女性传记在其他来源中少见,因此本库到CBDB的链接大多是本身提供出去的信息。但也有其他来源的,如:丘逢甲(是位男士)。
对链接依据很感兴趣,据说是由CBDB提供的,具体情况不详。刚才查到“虞姬”,发现弹出的是“虞汲”,再看URL:https://cbdb.fas.harvard.edu/cbdbapi/person.php?name=Yu%20ji,不禁哑然。再仔细看,原来CBDB提供了人名拼音相同的一系列ID,于是把所列40多个ID点了一遍,没有找到!再给一个在CBDB没有结果的例子“德宗宮人”,直接告诉你:No result.
据称MQWW提供给CBDB的数据近年没有同步更新(加入CBDB时由人工干预消歧)。不知道为什么CBDB上显示MQWW提供的传记数量是8300,而MQWW本身只有6918(最大ID也仅7614)。

检索与浏览】提供丰富的查找入口,包括各种途径浏览与检索。常见的人名、书名、关键词之外,还有地名、年代、婚姻……
地名浏览:上层(历史地名)会列出当时的下属地名,比如“江蘇(清)”包括上海及现属上海的县。我很感觉兴趣的是如何做的,包括历史地名对应现地名,可惜方教授说这部分做得很不好……。
年代浏览:提供朝代年号和干支浏览。清单在下载数据库的cycle表中,可以直接利用。
婚姻状态:原以为无非单身已婚。本着所有功能全看一遍的想法点进去,结果大大出乎意料,竟然有数十种(以下未含明显有误的“清”“清末民初”和用“、”分隔的其他2个):
不明、其他、后、女冠、妃、妃﹐女冠、妓、妓﹐女冠、妓﹐妾、妓﹐妾﹐尼、妓﹐尼、妓﹐正室、妾、妾﹐女冠、妾﹐寡婦、妾﹐尼、婢、婢﹐妾、宮女、宮女﹐女冠、宮女﹐妾、宮女﹐尼、宮女﹐正室、寡婦、尼、未嫁、正室、正室﹐后、正室﹐女冠、正室﹐寡婦、正室﹐寡婦﹐尼、正室﹐尼、皇后、繼室、繼室﹐寡婦、 继室、聘妾、聘室、貞女
其中有些是两种甚至三种状态的组合——好奇是先组(预先确定)还是后组(重复字段录入),看了录入单,似乎是后者。

数字人文奖:2012-2017年

前一阵在数字人文微信群中看到2017数字人文奖投票中(要翻墙),今天看到已经揭晓。顺链接去看网站:
Digital Humanities Awards: Highlighting Resources in Digital Humanities
本数字人文(DH)奖为年度奖,始于2012年。如副题所称,主要突出数字人文资源。目前设5个类别,每个均评出冠亚季军,并列出所有提名项目及链接【以下中译只求形式一致、语法混乱勿介意】:
Best Use of DH For Fun 最好玩【2017年冠军:Cancionero Escolar
Best DH Data Visualization 最好看【2017年冠军:Mapping Islamophobia: Visualizing Islamophobia and Its Effects
Best Use of DH For Public Engagement 最好友【2017年冠军:Imágenes y Relatos de un Viaje Por Colombia
Best DH Tool or Suite of Tools 最好用【2017年冠军:Checklist for Digital Humanities Projects
Best DH Blog Post or Series of Posts 最好文【2017年冠军:The Programming Historian en español
本奖为纯民间奖项,不设奖金。候选项目/资源/博文完全由公众提名,也由公众投票决定结果。创始人James Cummings(牛津大学)为首的国际提名委员会由英国、美国、法国、日本、墨西哥5个国家的5名成员组成,其作用是确认提名项目/资源/博文符合3个基本条件:
1、是否数字人文
2、是否在正确的类别(可能移到更合适的类别)
3、是否当年推出/发布/主要更新
网站称“这些奖项旨在作为一项提高认识的活动,帮助把有趣的DH资源置于聚光灯下,并让DH用户(和普通公众)参与社区工作”。确实是个吸引眼球、增加曝光率的活动。
网站上历年奖项信息不但是个很好的信息源,也可供了解DH发展中的一些信息,特别是从一些统计信息。
2012年仅在奖项结果页中有每个类别的投票数量,此后每年都有专门的统计页,包括提名项目数,投票数量及投票者性别、国别统计。以下为除国别外的2012-2017年统计数据汇总:
年份
提名数-入选数(其中博文数)
投票数-有效票
女性(投票-提名)
男性(投票-提名)
其他(投票-提名)
2012
? – 63 (17)
按类别最高3161
2013
? – 58 (10)
1704 – 1644
490 – 24
339 – 39
5 – 1
2014
93 – 78 (15)
2162 – 2117
676 – 31
676 – 47
14 – 0
2015
140 – 54 (14)
1922 – 1862
723 – 68
770 – 50
5 – 0 / 未答364- 22
2016
77 – 47 (4)
1726 – 1652
841 – 25
588 – 22
3 – 0 / 未答220 – 0
2017
59 – 48 (4)
4130 – 4069
1725 – 24
1276 – 19
(略)
注:(1)2012-2013年入选数根据结果或提名页计数;(2)2017年性别选项除男性/女性外多达二十余种
几个印象:
1、总体上女性参与度高于男性(2015年除外),男性前几年提名热情高于女性。不知道是不是反映研究者群体数量;
2、参与度不稳定,但2017年投票数量激增;
3、投票数可以表明参与DH的热度,但入选数近两年几乎是最低的(即使去掉博文数量也较前3年低),说明新项目不多。