密歇根大学图书馆数字馆藏

密歇根大学图书馆拥有近300个数字馆藏,很好奇如此多的馆藏是如何建立的。
University of Michigan Library – Digital Collections

仔细看该馆数字内容和馆藏部(Digital Content & Collections, DCC)网站,该部下设有数字转换组(Digital Conversion Unit, DCU),专门从事数字化工作,由用户提出需求、图书馆操作(具体实施时数字化工作可能外包):
其一,请求数字化本馆图书。此按需数字化服务免费,之前是作为馆际互借文献传递工作的一部分,现在相当于由读者代替馆员选择需要数字化的图书,完成后放在HathiTrust中提供服务(HathiTrust源自谷歌图书项目)。
其二,要求建立一个在线馆藏。读者提出项目建议、提供资料(已数字化或有待数字化),图书馆审核后实施并上线。
想来数百个数字馆藏,会有一定比例来自教学科研人员吧。

在《TEI图书馆最佳实践》第4版中,5级编码中第1-3级样例都是密歇根大学图书馆的数字馆藏(第3版第1-2级),当然都是2011年以前的。

1级项目:Making of America Books (MoA)
含约1万种19世纪出版物,由安德鲁 W 梅隆基金资助(密歇根大学和康奈尔大学)。2007年在某校友资助下数字转换了百余种有关纽约的文献【看清单不少是20世纪的】。
样例:Baby world: stories, rhymes, and pictures for little folks
常见问题中提到TEI:简单的SGML形式(40个符合TEI指南的元素)。部分是经验证的HTML文本,部分仍是原始图像,因为这部分OCR尚未验证,由该馆人文文本创始计划(Humanities Text Initiative)承担校对和改进标记。

2级项目:SPO Scholarly Monograph Series
SPO学术专着系列是由密歇根大学图书馆的前学术出版办公室(现为密歇根出版社的一部分)于2001年至2006年出版的跨学科的原创开放获取学术专着和论文集。在此期间,密歇根大学教师和图书馆成员共同探索新的出版模式和方法。 这些电子书是这种合作的一些成就。【从目次看,电子书格式同印刷版,应该是以TEI对目次及文前、文后进行了描述】
样例:Sports Culture Among Undergraduates: A Study of Student Athletes and Students at the University of Michigan

3级项目:Travels in Southeastern Europe2004年
从4种早年的波黑旅行出版物开始,根据扫描和审核四4个原始文本时收集的信息,另外扫描了本馆100多个其他品种,完成本项目。有目次(区分文前、章节、文后);但OCR未更正、不可替代图像(根据View entire text说明)。
样例:Bosnie et Herzégovine : souvenirs de voyage pendant l’insurrection

参见:《TEI图书馆最佳实践》第4版发布(附5级编码详解)(2018-10-6)

《TEI图书馆最佳实践》第4版发布(附5级编码详解)

TEI除指南外,还有针对不同应用场景的多种专题指引,《TEI图书馆最佳实践》是其中之一,用于依据TEI对大规模数字化(扫描)图像进行编码。第1版发布于1999年,由数字图书馆联盟(DLF)资助的TEI工作组(TEI Task Force)制订,第3版起由TEI联盟旗下的TEI图书馆特殊兴趣小组(TEI SIG on Libraries)承担修订职责。
上月《TEI图书馆最佳实践》发布4.0版,加了一个副标题或说明语:大规模数字化、自动化工作流程以及促进使用TEI的XML互操作的指南。
Best Practices for TEI in Libraries: A guide for mass digitization, automated workflows, and promotion of interoperability with XML using the TEI
Editors: Kevin Hawkins, Michelle Dalmau, Elli Mylonas, and Syd Bauman
Version: 4.0.0 (published September 2018)

本最佳实践最初为在基于图书馆的大型数字化项目中使用TEI而创建,作为一种从整体上达成数字化和编码的方式。由于不同的文本数字化项目目的各异,本最佳实践设置了5个编码级别以尽可能包容不同需求。5个级别有各自的编码样例,图书馆数字化项目实例链接,建议使用的元素和属性(并且不建议使用其他),适用项目,工作流程等。以下摘录第4版的5级编码目的、样例和工作流程【组成为个人理解概括】。

——— 5级编码:目的、样例、工作流程 ———
Level 1: Fully Automated Conversion and Encoding 全自动化转换与编码
目的:创建电子文本的主要目的是搜索关键字并链接到页面图像。在这种非常严格限制的编码级别使用TEI的主要优点是TEI标头附加到文本文件。【组成:标头/书目信息+扫描图像+未经审核OCR+页码标记】
样例:密歇根大学Making of America Books (MoA)
工作流程:可通过全自动方式创建和编码1级文本。使用OCR扫描和处理页面图像,但文本通常未经校正(“脏OCR”),并且从OCR输出生成XML。如果需要,可以通过标记各个页面元素来增强这种自动输出,以指示关键文本特征,例如题名页、文前内容或新章节的开始。

Level 2: Minimal Encoding 最小编码
目的:创建用于全文搜索的电子文本,链接到页面图像,以及识别简单的结构层次结构以改进导航(例如,可以根据此类编码自动生成目次)。【组成:标头/书目信息+扫描图像+未经审核OCR+章节标记/目次】
样例:密歇根大学Scholarly Mongraph Series (SPO)
工作流程:通常可以通过自动化手段创建和编码2级。分页在级别1中标识,并且可能基于页面图像创建文本分区的元数据。文本划分元数据可能包含划分开始的页码和该划分标题的转录。此元数据在适当的位置插入OCR,形成有效的XML文档。2级文本在章节级别下不需要任何特殊知识或人工干预。

Level 3: Simple Analysis 简单分析
目的:创建独立的电子文本并识别层次结构(逻辑结构)和排版,而无需内容分析是最重要的【组成:标头/书目信息+经审核OCR+文本结构标记(文前文后、排版样式),页面图像可选】
样例(第3版):印第安那大学Victorian Women Writers Project(VWWP)
样例(第4版):密歇根大学Travels in Southeastern Europe
工作流程:可通过电子来源(如HTML文件或文字处理文档)或印刷来源(通过OCR或键盘输入)进行半自动转换来创建;可能需要一些人为干预。

Level 4: Basic Content Analysis 基本内容分析
目的:要创建可以单独作为电子文本的文本,识别层次结构和排版,指定文本和结构元素的功能,并描述内容的性质而不仅仅是其外观。但是此级别无意编码或识别文本的所有结构、语义或书目功能。【组成:标头/书目信息+全文文本+文本内容标记】
样例(第3版):北卡罗来纳大学教堂山分校Oral Histories of the American South
样例(第4版):印第安那大学Victorian Women Writers Project
工作流程:文本通过录入生成(可能是外包的使用TEI Tite从页面图像中双录入),或者可能是使用识别拼写错误的软件更正OCR文本,或者从OCR软件查询日志以找到OCR文本中的不确定区域。如果从TEI Tite转换,应添加最少的额外标记,如TEI Tite附录A中所述。[附录A:TEI Tite与TEI图书馆最佳实践。TEI Tite介于3级与4级之间]

Level 5: Scholarly Encoding Projects 学术编码项目
5级文本是需要具有学科知识的编码者进行大量人为干预的文本。 这些文本可能包括语义、语言、韵律或其他特征的编码,远远超出上面1-4级中讨论的基本结构元素。它们还可能包括编辑、批评或分析添加的元素;手稿描述;译文;或其他文字设备。
目的:创建可能适合特定研究目的的深度分析编码文本,作为学术出版项目的一部分,或基于图书馆的文本编码中的其他编码实践。
样例:印第安那大学The Chymistry of Isaac Newton
工作流程(无)

———- 版本备记 ———
TEI官方版:1990.6 P1(首个草案),1994.5 P3版指南(首个官方版),2002.6 P4版指南,2007.11 P5版指南。
TEI图书馆最佳实践版本:1999年第1版(TEI Text Encoding in Libraries: Guidelines for Best Encoding Practices),确定了沿用至今的5级编码。2005年第2版,2011年第3版改名(Best Practices for TEI in Libraries)。2015.11决定修订第3版,2017.11发布3.1版、2018.1.15公示,2018.9.10发布4.0版。
从官网看,在TEI特殊兴趣小组中,负责本文件第3、4版的图书馆特殊兴趣小组归在不活跃之列(Dormant SIGs)。而TEI本身版本在此期间(2011-1018年)并未更新,不知道为何却有兴趣更新图书馆最佳实践文件。第4版中未找到与第3版在内容上差异的说明,大致浏览也未看出太多修订内容,不知为何由3.1版一下变成了4.0版。

参见:
TEI中的书目描述及其他(2018-8-10)
TEI笔记:语音转录(2018-8-27)
TEI笔记:手写本和印刷古籍的编目(2018-8-28)
TEI笔记:数字化文本的文字转录(2018-8-30)
TEI笔记:人物、机构、地点相关信息的标识(2018-9-13)

TEI笔记:人物、机构、地点相关信息的标识

TEI有一个通用名称元素<name>,适用于各种名称,可用属性@type定义名称类型,包括:人物、地点、机构、产品等。也可以使用专指元素表达,如<persName>人名, <placeName>地名, <orgName>机构名。
除了名称作为基本标识,人物<person>、机构<org>、地点<place>还有其他标识,TEI P5指南的第13章(Names, Dates, People, and Places尤其是13.3 Biographical and Prosopographical Data)有详细说明。
TEI将个人、机构和地点的信息归纳为三类,有各自的通用元素,即:<trait>特征(独立于个人意志的),<state>状态(与时间有关的),<event>、<listEvent>事件(改变状态甚至特征),可以用@type说明信息的具体类型,也可以使用如下专指元素。另外还有<relation>、<listRelation>说明相互间关系。
一、个人元素(13.3.2)
<person>,属性:@role职能/分类,@sex性别,@age年龄组(也可以用相应的专用元素)
<personGrp>
<listPerson>可用于TEI标头<profileDesc>之<particDesc>(参与者描述,如定义个人类别),也可用于正文
1、可嵌套的个人特征元素
<faith>信仰,<langKnowledge>语言知识,<nationality>国籍,<sex>性别,<age>年龄,<socecStatus>社会经济状态,<persName>人名(嵌套<forename>名、<surname>九),<occupation>职业,<residence>居所,<affiliation>单位,<education>教育经历,<floruit>活跃时期,<persona>角色,(没有专指元素时使用)<state>状态、<trait>特征
例(p.461)阿尔马尼亚族人
<trait type=”ethnicity” key=”alb”>【@type可以使用词表(种族),@key可以定义中国少数民族】
 <label>Ethnicity</label>
 <desc>Ethnic Albanian.</desc>
</trait>
2、可嵌套的个人事件元素
<birth>出生,<death>去世。其他用<event>@type定义。
例(p.462)结婚于1859年4月26日
<event type=”marriage” when=”1859-04-26″>
  <label>Marriage</label>
  <desc>
    <name type=”person” ref=”#WM”>William Morris</name> and <name type=”person”
ref=”http://en.wikipedia.org/wiki/Jane_Burden”>Jane Burden</name> were
married at <name type=”place”>St Michael’s Church, Ship Street, Oxford</name>
on
    <date when=”1859-04-26″>26 April 1859</date>.
……</desc>
</event>
3、人际关系元素
<relation><listRelation>,用@name说明关系类型。
例(p.464-465)
<relation name=”spouse” mutual=”#WM #JBM”/>【双向关系】
<relation name=”parent” active=”#RB” passive=”#JBM”/>【亲子关系:@active父母,@passive子女】
二、机构元素(13.3.3)
没有太多专指元素:<org>、<listOrg>机构,可嵌套的元素<orgName>机构名,<desc>描述。
三、地点元素(13.3.4)
<place>、<listPlace>地点,<placeName>地名
1、可嵌套的地理位置元素
(1)地理特征
<geo>地理坐标,<geoDecl>地理坐标声明,<geogFeat>地理地形特征(山、谷……),<geogName>地理名称(与地形名称结合的地名,如庐山)
(2)<location>位置
(从大到小)<bloc>多国(洲、欧盟……),<country>国家,<region>地区,<settlement>定居点,<district>区,<address>详细地址,<street>街;<locale>非正式描述地点性质
(3)<offset>相对位置
例(p.456)距巴黎北部20公里
<measure>20 km</measure>
<offset>north of</offset>
<settlement type=”city”>Paris</settlement>
2、可嵌套的地点特征与事件
<population>人口,<climate>气候,<terrain>地形。
没有专指元素时,使用<event>的@type说明特定事件。
例(p.474)治理变化:爱尔兰于1944年6月17日独立
<event type=”governance” when=”1944-06-17″>
<desc>Iceland became independent on 17 June 1944.</desc>
</event>
3、地点间关系
没有专指元素,通过<listPlace>或<place>层级嵌套表示。包括多地点(13.3.4.2),如多级行政区域、群岛,不同时期、不同语言名称;上下级关系等(13.3.4.4)等。(举例略)
详见最新版P5的指导文件:
参见: