UCLA专家讲座:1 特藏和档案相关的美国法律问题;2 韩玉珊特藏

今天(2018.11.1)下午,在本馆听洛杉矶加州大学(UCLA)图书馆两位专家的讲座:
一、书香年华讲座第三十三讲:特藏与档案文献法律问题研究现状 Current Topics in Balancing Legal Issues in Special Collections and Archives / Heather Briston (Head of Curators and Collections and UCLA University Archivist in the UCLA Library Special Collections),陈肃现场翻译
二、书香年华讲座第三十四讲:韩玉珊特藏与数字化:机会与挑战 / 陈肃(美国洛杉矶加州大学(UCLA)东亚图书馆馆长)
(由于本届进口商品博览会期间网络管控、访问控制,以上链接两周内校园网外无法访问)

一、Heather Briston介绍与特藏和档案相关的美国联邦法和加州地方法(未记录法律名称):
1 教育/联邦法(个人教育信息,不能公开学习成绩)
2 健康/联邦法(个人健康信息,死后50年,脱敏使用)
3 捐赠合约/州法(捐赠者可以设定公开期限,不可要求捐赠永不使用)
4 隐私//州法(案例:口述史,公开超过一年,没有权利要求撤下)
5 合理使用(fair use)的例外(案例:出版社告HathiTrust,因视障者的合理使用而未成)
图书馆的合理使用包括馆际互借、预防性复制等。除了将馆藏资源上网时需注意法律问题外,也需要提醒读者利用时注意。
两个案例都是图书馆获胜的。提问阶段这两个案例都被问及。
我问的是一直困惑我的HathiTrust:为什么在美国能在网上公开这么多(非公版)图书,因为极少数视障者,就可以让大家都公开访问?Heather Briston女士的回复是, 视障者人数虽少,但其权利更重要。我知道我提的问题政治不正确。因为曾经在 Open Library 看到一些非公版书只提供视障者专用格式(刚才查了一下,是 DAISY 数字有声书),我其实想问的是:如果是为了视障者,是否只提供视障者使用格式才算合理使用?由于是会议场合,一个人追着问不适合,因此作罢。
另一位同事问的是“合理使用”在复制上有没有数量规定。答案是没有,所以才会有HathiTrust数百万册仍是合理使用。她再次强调了确定“合理使用”的4个衡量因素,也就是讲座原文标题中的“平衡”问题:
1 使用目的和性质(商业vs非商业,教育,非赢利)
2 受保护作品的性质
3 使用的数量和实质
4 对作品市场的影响

二、陈肃介绍韩玉珊清代考卷特藏与数字化,包括对韩玉珊教授经历的介绍,对本批清代考卷来源的追溯(虽然没有结果)。介绍中强调专家指导、相关研究专著对理解特藏的作用,这确实是特藏数字化的基础——要对特藏有深入的了解,才能做好数字化。
因为雨师(林海青)的关系,我很期待对本项目数字化的深入介绍。但实际上数字化实施于2009年,还被陈肃当作了反面教材——经折装(对页)按手卷(长卷)扫描;背面内容单独扫描,且文件名没有规律,未与正面文件匹配,导致配对困难;折起来的姓名未打开扫描(信息不全);甚至还有扫描重复、遗漏的情况。
已有研究者利用本特藏考卷头的考生三代宗亲信息做研究并著书,在我想来这类信息很适合数字化用于数字人文研究。
回家后上网查此特藏,发现去年以来陈肃已在国内很多地方介绍过。据她今天所说,清代科举考卷总数有2万多。大概因为本馆曾向她“显摆”过馆藏仅有的状元卷(华东师范大学图书馆发现父子状元卷,2012-6-3),让拥有500份清代考卷的她谈起此特藏来仍很兴奋。
加州数字图书馆网站之加州在线档案中此特藏的介绍(提供缩微胶卷和在线利用):
Han Yu-Shan Collection, [1646-1910]
可惜点击在线访问显示403 Forbidden,没有权限。

中文文献全文版式XML规范 及 知识挖掘应用

最近在看《国家数字图书馆工程标准规范成果》丛书,其中有描述文本版式的XML规范:
中文文献全文版式还原与全文输入XML规范和应用指南 / 蒋贤春, 翟喜奎主编. 北京 : 国家图书馆出版社, 2010.
本标准规范由国家图书馆委托北京中易中标电子信息技术有限公司研制。后记中说明,国家图书馆于2006年4月成立项目组,2007年12月完成技术需求书,2008年经竞争性谈判签订研制合同,2009年到2010年1月通过各级验收完成。
本规范选择某些类型文献,对其进行数字化描述(规范 1 范围,对原表述有修改):
*中文文献(重点是古籍):将记录在纸介质(或通过扫描形成的图像)上的汉字、符号、表格、图形、图像数字化,目的是还原其排版格式。
*文献(知识挖掘):为获取特定知识而对文献进行数字化,目的是自动获取和分类文献中的特定知识。
*辞书(编纂):将词条结构化,目的是自动分析和统计相关内容和数据
*家谱:文献内容及其世系关系。

不知道本规范目前应用状况如何,国家图书馆是否在用?是否有其他机构使用?
感觉对国图而言,辞书编纂需求有点出乎意料。发现有GB/T 23829-2009《辞书条目XML格式》,采用ISO 1951:2007(本规范前言中未提到此标准),归口单位全国术语与语言内容资源标准化技术委员会。国家标准全文公开系统 不可看全文,道客巴巴上有全文。

从 4.3总体结构 看,包括:头文件、页文件、表格、文本行、纯内容文件和世系。
前面各项都是描述排版形式,只有“世系”涉及可挖掘的内容。5.4 世系标签(元素)及属性
(1)世系 lineage:文献名 title
(2)人物 person:标识 id,父标识 father_id,世代 generation,名谱 info,姓 surname,名 firstname,字 zi,号 hao,讳 hui,别称 alias,出入嗣 stepchild,堂号 heraldry,性别 sex,生日 birthday,卒日 death_date,出生地 homeplace,死亡地 death_place,墓地 tomb_place,结婚日期 wedding_date,配偶 spouse,配偶生日 spouse_birth,配偶卒日 spouse_death,配偶出嫁地 spouse_place,配偶出生地 spouse_homeplace,配偶墓地 spouse_tomb,职官 zhiguan,事实 story,迁移 transplant,支派 branch,产 possession,考 textual
(3)子女 issue:性别 sex,排行 birth_order,子女名 given_name
(4)原图位置标签 location:对应图标识 relate_id,页中位置 region

再看其他 5标签及属性,标签(元素)的属性基本都是有关版式的,但有些定义了“意义”(signification)属性,其取值在附录C“标签属性值”列出,“字型”部分、“词装饰”全部,具有内容意义:
字标签中的意义属性值
字型 font【形式类别】:文献名、标题1……、图像标题、表格标题、正文……、索引标题、索引1……、表格文字……、目录1……、批注主题、批注、页脚、页眉、中缝、参考文献、例句、句子1……、短语、谚语、成语、习惯用语、词……、字……、二行小字……、插入字……、其他……
不占位字 not_occupy【标点符号】:句号、感叹号、……、前方头括号、后方头括号、上标、下标、文字修改、文字删除符、批注、其他
错位字 inaccuracy【标点符号】:句号、感叹号、……、前方头括号、后方头括号、
词标签中的意义属性值
词装饰 decoration :人名、地名、事件名、附批注、其他

古籍文献中对某些字词会有各种修饰,如人名加外框,地名旁加竖线(下划线),事件名旁加波浪线,加着重点等,可以用词标签中“词装饰”(decoration)属性“意义”(signification)予以揭示,以此获取书中所有人名、地名、事件名、引用图书等。附录1 版式还原数字化与知识挖掘,介绍属性“意义”(signification)和“认同字”(异体字 variant)的用法,可用于知识挖掘。

<text>
    <decoration signification=”地名”>屯田</decoration>
<text>

参见:
TEI笔记:数字化文本的文字转录(2018-8-30)
TEI笔记:人物、机构、地点相关信息的标识(2018-9-13)

《TEI图书馆最佳实践》第4版发布(附5级编码详解)

TEI除指南外,还有针对不同应用场景的多种专题指引,《TEI图书馆最佳实践》是其中之一,用于依据TEI对大规模数字化(扫描)图像进行编码。第1版发布于1999年,由数字图书馆联盟(DLF)资助的TEI工作组(TEI Task Force)制订,第3版起由TEI联盟旗下的TEI图书馆特殊兴趣小组(TEI SIG on Libraries)承担修订职责。
上月《TEI图书馆最佳实践》发布4.0版,加了一个副标题或说明语:大规模数字化、自动化工作流程以及促进使用TEI的XML互操作的指南。
Best Practices for TEI in Libraries: A guide for mass digitization, automated workflows, and promotion of interoperability with XML using the TEI
Editors: Kevin Hawkins, Michelle Dalmau, Elli Mylonas, and Syd Bauman
Version: 4.0.0 (published September 2018)

本最佳实践最初为在基于图书馆的大型数字化项目中使用TEI而创建,作为一种从整体上达成数字化和编码的方式。由于不同的文本数字化项目目的各异,本最佳实践设置了5个编码级别以尽可能包容不同需求。5个级别有各自的编码样例,图书馆数字化项目实例链接,建议使用的元素和属性(并且不建议使用其他),适用项目,工作流程等。以下摘录第4版的5级编码目的、样例和工作流程【组成为个人理解概括】。

——— 5级编码:目的、样例、工作流程 ———
Level 1: Fully Automated Conversion and Encoding 全自动化转换与编码
目的:创建电子文本的主要目的是搜索关键字并链接到页面图像。在这种非常严格限制的编码级别使用TEI的主要优点是TEI标头附加到文本文件。【组成:标头/书目信息+扫描图像+未经审核OCR+页码标记】
样例:密歇根大学Making of America Books (MoA)
工作流程:可通过全自动方式创建和编码1级文本。使用OCR扫描和处理页面图像,但文本通常未经校正(“脏OCR”),并且从OCR输出生成XML。如果需要,可以通过标记各个页面元素来增强这种自动输出,以指示关键文本特征,例如题名页、文前内容或新章节的开始。

Level 2: Minimal Encoding 最小编码
目的:创建用于全文搜索的电子文本,链接到页面图像,以及识别简单的结构层次结构以改进导航(例如,可以根据此类编码自动生成目次)。【组成:标头/书目信息+扫描图像+未经审核OCR+章节标记/目次】
样例:密歇根大学Scholarly Mongraph Series (SPO)
工作流程:通常可以通过自动化手段创建和编码2级。分页在级别1中标识,并且可能基于页面图像创建文本分区的元数据。文本划分元数据可能包含划分开始的页码和该划分标题的转录。此元数据在适当的位置插入OCR,形成有效的XML文档。2级文本在章节级别下不需要任何特殊知识或人工干预。

Level 3: Simple Analysis 简单分析
目的:创建独立的电子文本并识别层次结构(逻辑结构)和排版,而无需内容分析是最重要的【组成:标头/书目信息+经审核OCR+文本结构标记(文前文后、排版样式),页面图像可选】
样例(第3版):印第安那大学Victorian Women Writers Project(VWWP)
样例(第4版):密歇根大学Travels in Southeastern Europe
工作流程:可通过电子来源(如HTML文件或文字处理文档)或印刷来源(通过OCR或键盘输入)进行半自动转换来创建;可能需要一些人为干预。

Level 4: Basic Content Analysis 基本内容分析
目的:要创建可以单独作为电子文本的文本,识别层次结构和排版,指定文本和结构元素的功能,并描述内容的性质而不仅仅是其外观。但是此级别无意编码或识别文本的所有结构、语义或书目功能。【组成:标头/书目信息+全文文本+文本内容标记】
样例(第3版):北卡罗来纳大学教堂山分校Oral Histories of the American South
样例(第4版):印第安那大学Victorian Women Writers Project
工作流程:文本通过录入生成(可能是外包的使用TEI Tite从页面图像中双录入),或者可能是使用识别拼写错误的软件更正OCR文本,或者从OCR软件查询日志以找到OCR文本中的不确定区域。如果从TEI Tite转换,应添加最少的额外标记,如TEI Tite附录A中所述。[附录A:TEI Tite与TEI图书馆最佳实践。TEI Tite介于3级与4级之间]

Level 5: Scholarly Encoding Projects 学术编码项目
5级文本是需要具有学科知识的编码者进行大量人为干预的文本。 这些文本可能包括语义、语言、韵律或其他特征的编码,远远超出上面1-4级中讨论的基本结构元素。它们还可能包括编辑、批评或分析添加的元素;手稿描述;译文;或其他文字设备。
目的:创建可能适合特定研究目的的深度分析编码文本,作为学术出版项目的一部分,或基于图书馆的文本编码中的其他编码实践。
样例:印第安那大学The Chymistry of Isaac Newton
工作流程(无)

———- 版本备记 ———
TEI官方版:1990.6 P1(首个草案),1994.5 P3版指南(首个官方版),2002.6 P4版指南,2007.11 P5版指南。
TEI图书馆最佳实践版本:1999年第1版(TEI Text Encoding in Libraries: Guidelines for Best Encoding Practices),确定了沿用至今的5级编码。2005年第2版,2011年第3版改名(Best Practices for TEI in Libraries)。2015.11决定修订第3版,2017.11发布3.1版、2018.1.15公示,2018.9.10发布4.0版。
从官网看,在TEI特殊兴趣小组中,负责本文件第3、4版的图书馆特殊兴趣小组归在不活跃之列(Dormant SIGs)。而TEI本身版本在此期间(2011-1018年)并未更新,不知道为何却有兴趣更新图书馆最佳实践文件。第4版中未找到与第3版在内容上差异的说明,大致浏览也未看出太多修订内容,不知为何由3.1版一下变成了4.0版。

参见:
TEI中的书目描述及其他(2018-8-10)
TEI笔记:语音转录(2018-8-27)
TEI笔记:手写本和印刷古籍的编目(2018-8-28)
TEI笔记:数字化文本的文字转录(2018-8-30)
TEI笔记:人物、机构、地点相关信息的标识(2018-9-13)