最近在看TEI(Text Encoding Initiative),这是对文本进行数字化编码、添加机读语义标识的标准。
最新版指南《TEI P5:电子文本编码与交换指南》(3.3.0版,2018.1.31更新),长达1841页:
TEI P5: Guidelines for Electronic Text Encoding and Interchange / by the TEI Consortium
幸好有台湾出版的中文版,主要内容是轻量版(TEI Lite选录版)手册和完全版指南第2章标头的翻译:
TEI 使用指南:運用TEI處理中文文獻 / 魯‧伯納、麥克‧蘇寶麥昆、馬德偉 著; 謝筱琳、黃韋寧 譯.
看完中文版指南,再以样例为主浏览完全版指南,只了解个大概。
感觉TEI具有相当大的灵活性,很大的努力在于保持文本的原有状态:一是元素标识位置放置自由(随文本而定),二是可以用不同元素表达相同含意(适应不同文本表达);同时根据分析需要,对相同文本可采用侧重、深度各不相同的元素标识。相形之下,编目标准有时不免有削足适履之感。
TEI文件由标头<teiHeader>和文本<text>组成:标头由文件描述(必备)、编码描述、配置描述和修订描述4部分组成;文本由文前、正文(必备)和文后3部分组成。
其中文件描述<fileDesc>(2.2),是完全按照信息源,对书目信息进行客观描述,与书目记录的著录部分很相似。并且TEI的这部分也是参照编目界的标准,特别是ISBD,因为目的是“确保编目记录所需的资讯能够从TEI文件标头中取回复原”(中文版p.227)。<fileDesc>的7个部分与ISBD8大项很接近:
<titleStmt> 题名说明(含责任说明)
<editionStmt> 版本说明
<extent> 数量
<publicationStmt> 出版说明(含发行)
<seriesStmt> 丛编说明
<notesStmt> 附注说明
<sourceDesc> 来源描述(电子文本所依据的来源的书目描述)
另外,正文或文后可能有书目引用和参考文献(3.11),也与书目信息有关,揭示项目与方法接近文后参考文献标准。
试着依据TEI P5指南本身,做一下标头部分的“文件描述”。特点是可以完全按题名页原顺序转录(数量例外),文字间以TEI元素分隔:
<fileDesc>
<titleStmt>【1题名和责任说明】
<title type=”main”>TEI P5:</title>【正题名】
<title type=”sub”>Guidelines for Electronic Text Encoding and Interchange</title>【副题名】
<respStmt>【责任说明1】
<resp>by </resp> <orgName>the TEI Consortium</orgName>
</respStmt>
<respStmt>【责任说明2】
<resp>Originally edited by</resp> <persName>C.M. Sperberg-McQueen</persName> and <persName>Lou Burnard</persName> for the <orgName>ACH-ALLC-ACL Text Encoding Initiative</orgName>
</respStmt>
<respStmt>【责任说明3】
<resp>Now entirely revised and expanded under the supervision
of the</resp> <orgName>Technical Council of the TEI Consortium</orgName>
</respStmt>
</titleStmt>
<editionStmt>【2版本说明】
<respStmt>【版本责任说明】
<orgName>The TEI Consortium</orgName>
</respStmt>
<edition n=”V3.3.0″>Version 3.3.0. Last updated on <date>31st January 2018</date>, revision
f4d8439</edition>【版本】
</editionStmt>
<extent>【3数量】
<measure unit=”MB” quantity=39>39MB</measure>
<measure unit=”pages” quantity=”1841″>1841 pages</measure>
</extent>
<publicationStmt>【4出版说明】
<publisher>Text Encoding Initiative Consortium</publisher>【出版者】
<date>2018</date>【出版日期】
</publicationStmt>
</fileDesc>
文件描述<fileDesc>属于客观描述。在文本<text>部分,文前<front>或文后<back>也可以对题名页等进行描述,此时可以考虑字体、字号、颜色,甚至可以完美揭示排版样式。
同样的内容,如果在正文<body>部分,可以根据文本分析的需要,以不同方式揭示语言文字的内涵。TEI不是规定一种做法,而是提供多种灵活表达。如对于名称,在可以有多种灵活表达方式。专有名称,可以使用通用的<name>,也可以使用更专指的揭示方式,如作为团体名称,以下3种方式专指度相同:
<orgName>【专指元素】
<name type=”org”>【专有名称+type属性】
<rs type=”org”>【通用名称+type属性】
各种缩写,也可根据需要予以说明(或者不做说明)。如机构名the TEI Consortium中含有首字母缩略词TEI,可以表示为:
<name type=”org”>the TEI Consortium</name>
<rs type=”org”>the <abbr type=”acronym”>TEI</abbr> Consortium</rs>
甚至在名称中提供TEI的全拼形式:
<orgName>the
<choice>
<abbr type=”acronym”>TEI</abbr> Consortium
<expan>Text Encoding Initiative</expan>
</choice> Consortium
</orgName>