TEI笔记:数字化文本的文字转录

TEI(Text Encoding Initiative,文本编码倡议)用于编码数字形式的文本全文,包括转录语音。语音转录方面,除口述文字外,TEI可以精准标记整个语音过程、包括非文本信息。
同样对于文本,除最终文字外,TEI也能标记整个书写过程、记录文稿上的各种修改、加注等痕迹,因而特别适合标识手稿、古籍、批注本等,以及对其数字化图片(数字摹本)的文字转录。TEI可以完美保留第一手资料信息,包括:不同位置的加注,手稿上的更改、更正、错误,书写过程中划线、加符号、重描(字上改写)、掉换顺序等修改痕迹,因损坏、模糊而无法转录情况,不同的笔迹等。当然,页眉、页脚、版式等信息也不会被忽略。
数字化文本的文字转录,古籍有很大需求,会涉及字符集不够大,需要说明竖排版式的问题。最新版P5的指导文件第5章对字符、字形和书写模式有说明(5 Characters, Glyphs, and Writing Modes)。而第11章则详解第一手资料的表示(11 Representation of Primary Sources),特别适用于数字化图片与转录文字对照表示的情况。
零、自造字与竖排本
1、字符:声明字符集中没有字符,以图片形式提供
在标头的<encodingDesc>,用元素<charDecl>声明字符
2、字形:声明已有字符的不同字形(比如避讳字?)
同上,用元素<charDecl>声明,增加新字符
3、书写模式:除从左向右、从上向下的通常书写外的各种其他模式
中文古籍多用从右向左的垂直书写模式,用属性@style说明。以下为日语例(p.203)
<lg xml:lang=”ja”
style=”writing-mode: vertical-rl”>
<l>古池や</l>
<l>蛙</l>
……
</lg>
一、数字摹本的表示
1、第1层元素
摹本<facsimile>、来源文档<sourceDoc>,可以代替或和<text>同用:
<text>转录文本
<facsimile>摹本图片
<sourceDoc>摹本图片+转录文本(嵌入转录法)
<facsimile>+<text>(并列转录法)
2、第2层及以下元素、属性
面<surfaceGrp>、<surface>(二维坐标空间,通常为1个数字化文件)
区域<zone>(面中的二维区域,如:叶中的页,页中的图区域)
坐标值属性:@ulx、@uly左上角x、y,@lrx、@lry右下角x、y
3、例(p.364):面组
<facsimile>
  <surfaceGrp n=”leaf1″>【面组/第1叶,含2页】
    <surface>
      <graphic url=”page1.png”/>
    </surface>
    <surface>【1面/第2页,有不同精度图片】
      <graphic url=”page2-highRes.png”/>
      <graphic url=”page2-lowRes.png”/>
    </surface>
  </surfaceGrp>
</facsimile>
4、例(p.365):面坐标
<facsimile>
  <surface ulx=”0″ uly=”0″ lrx=”500″ lry=”321″>
Handschrift.karlsruhe.blb.jpg”/>
  </surface>
</facsimile>
二、转录与摹本结合(数字化图片与文字对照)
例(p.371):并列转录法
<facsimile>【摹本图片】
  <surface start=”#PB49R”>【以PB49R为标识关联】
    <graphic url=”Bovelles-49r.png”/>
  </surface>
</facsimile>
<text>【转录文字】
  <body>
    <div>
      <!– … –>
      <pb xml:id=”PB49R”/>
      <fw>De Geometrie 49</fw>
      <!– … –>
    </div>
  </body>
</text>
三、转录文字方法
1、更改、更正和错误的文本(手稿常见现象)
选择<choice>(同一文本的交替编码组,嵌套<abbr><expan>、<sic><corr>等)
缩写<abbr>,扩展<expan>
更正<corr>,原文如此<sic>
添加<add>、<addSpan>,删除<del>、<delSpan>,恢复<restore>(嵌套<del>)
替代<subst>、<substJoin>(删除……改为……:嵌套<del><add>)
跳过<gap>(忽略),隔开文字<secl>,空格<space>
多余文字<surplus>,(转录者/编者)补充文字<supplied>
(1)例(p.384):在原有文字上标注删除
For I hate this <del rend=”strikethrough” hand=”#dhl”>my</del> body, which is so dear
to me …【在my上划删除线,表示删除】
<handNote xml:id=”dhl”>D H Lawrence holograph</handNote>【说明笔迹情况】
(2)例(p.385有手写稿图片):添加和删除
The O.E.D. is not a dictionary so much as a corpus of precedents <del hand=”#RG”>in the</del>:【未说明删除方式】
current, obsolete, <add hand=”#RG” place=”above”>cant,</add> cataphretic and
nonce-words are all included.【在行上添加文字】
(3)例(p.385):添加内容后被删除
You quote the <del>
<add hand=”#RG” place=”margin”>Norton</add>【页边添加文字】
</del> O.E.D…
(4)例(p.391, 392) :不同转录方法:跳过,或者添加
I am dr Sr yr <gap reason=”illegible” quantity=”3″
unit=”word”/>Sydney Smith【因难以辨认,跳过3个词】
I am dr Sr yr <supplied reason=”illegible” resp=”#msm”
source=”#Ry2″>very humble Servt</supplied> Sydney Smith【难以辨认,由责任人msm依据来源Ry2,添加3个词】
2、不同笔迹
笔迹说明<handNote>,笔迹改变<handShift>
3、损坏和猜测
损坏<damageSpan><damage>,模糊<unclear>
补充文字<supplied>,跳过<gap>
4、标记书写过程(文稿上的各种修改痕迹)
修改<mod>(如划线等)
元标记<metamark>(图形或文字符号,与各种修改结合用)
重描<retrace>(在原字上修改)
重做<redo>,撤销<undo>(如删除后恢复)
掉换顺序<listTranspose><transpose>(与<metamark>结合)
四、版式
例(p.411):定义面
<sourceDoc>
  <surfaceGrp type=”quire” n=”1″>【第1帖】
    <surfaceGrp type=”leaf” n=”1″>【第1叶】
      <surface type=”recto” n=”1r”>【第1页正面】
        <!– … –>
      </surface>
      <surface type=”verso” n=”1v”>【第1页反面】
        <!– … –>
      </surface>
    </surfaceGrp>
  <surfaceGrp type=”leaf” n=”2″>
    <surface type=”recto” n=”2r”>
      <!– … –>
    </surface>
    <surface type=”verso” n=”2v”>
      <!– … –>
    </surface>
  </surfaceGrp>
    <!– other leaves in first quire –>
  </surfaceGrp>
    <!– other quires here –>
</sourceDoc>
五、页眉、页脚等信息
印版工作<fw>(逐页标题、导词、页码等)
<fw type=”head” place=”top-centre”>Poëms.</fw>
<fw type=”pageNum” place=”top-right”>29</fw>
<fw type=”sig” place=”bot-centre”>E3</fw>
<fw type=”catch” place=”bot-right”>TEMPLE</fw>
六、在标头中定义变更和修订的标识(xml:id)
1、TEI标头<profileDesc>之<creation>,记录原文档制作或电子文件修订过程中的变化:
变化<listChange><change>
2、例(p.415)
<profileDesc>
  <creation>
    <listChange ordered=”true”>
      <change xml:id=”ST-1″>First stage, written in ink </change>【第1阶段,墨水笔书写】
      <change xml:id=”ST-2″>Second stage, with revisions written in the author’s hand
using pencil</change>【第2阶段,作者笔迹用铅笔修改】
      <change xml:id=”ST-3″>Fixation of the pencilled revisions together with further
revisions in the author’s hand using ink</change>【修改铅笔修订,作者笔迹用墨水笔修改】
      <change xml:id=”ST-4″>Additions in a different hand, probably at a later
stage</change>【可能在稍后阶段,以不同笔迹添加】
    </listChange>
  </creation>
</profileDesc>
详见最新版P5的指导文件:
参见:

TEI笔记:手写本和印刷古籍的编目

TEI(Text Encoding Initiative,文本编码倡议)用于编码数字形式的文本全文。最新版P5的指导文件对诗歌、剧本、语音转录、词典、手稿(含古籍)5类文本的使用各有一章详加说明。
TEI对手稿的专门章是:10 Manuscript Description,即手稿描述(著录)——基本上就是编目,对文本本身的编码极少。除通常的手稿(手写本、打字本),也适用于印刷古籍——本章中多处提到摇篮本(incunable)。当然和普通文献编目相比(参见:TEI中的书目描述及其他),手稿编目要复杂得多,有不少专指元素。
一、手稿描述<msDesc>嵌套元素
手稿描述<msDesc>一般在标头的<sourceDesc>部分,但对于文集,也可与书目元素一样出现在<listBibl>中。嵌套元素8种:
1手稿标识符<msIdentifier>(+收藏机构信息)
2标题/题名<head>
3手稿内容<msContents>(+子项)
4物理描述<physDesc>(+子项)
5历史<history>(+子项)
6附加信息<additional>(+子项)
7手稿部分<msPart>(原本在物理上分开,现绑在一起、有相同索取号的手稿或手稿部分)
8手稿片断<msFrag>(原本为整体、现分散的手稿片断,由相同或不同机构收藏)
例(p.320)
<msDesc>
  <msIdentifier>【1手稿标识符,嵌套元素见后】
    <settlement>Oxford</settlement>
    <repository>Bodleian Library</repository>【收藏馆】
    <idno>MS. Add. A. 61</idno>
    <altIdentifier type=”SC”>
      <idno>28843</idno>
    </altIdentifier>
  </msIdentifier>
  <msContents>【3内容】
    <p>
    <quote>Hic incipit Bruitus Anglie,</quote> the <title>De origine et gestis
Regum Angliae</title> of Geoffrey of Monmouth (Galfridus Monumetensis): beg.
    <quote>Cum mecum multa & de multis.</quote> In Latin.</p>
  </msContents>
  <physDesc>【4物理描述:材质、尺寸、页码。可以用更多专指元素(p.321例)】
    <p>
    <material>Parchment</material>: written in more than one hand: 7¼ x 5⅜ in., i
+ 55 leaves, in double columns: with a few coloured capitals.</p>
  </physDesc>
  <history>【5历史:最初写作地点、时间;脚注时间;购入情况】
    <p>Written in <origPlace>England</origPlace> in the <origDate>13th
cent.</origDate> On fol. 54v very faint is <quote>Iste liber est fratris
guillelmi de buria de … Roberti ordinis fratrum Pred[icatorum],</quote>
14th cent. (?): <quote>hanauilla</quote> is written at the foot of the page (15th
cent.). Bought from the rev. W. D. Macray on March 17, 1863, for £1 10s.</p>
  </history>
</msDesc>
二、词语层元素(专指元素,可嵌套于不同元素中)
原作日期<origDate>,原作时间<origDate>
支持材料<support>,装订<binding>,材质<material>,实物类型<objectType>
水印<watermark>,印章<stamp>
尺寸<dimensions>(高<height>宽<width>深<depth>,其他尺寸<dim>类型@type)
位置<locus>、<locusGrp>(参引手稿内位置)
名称<name>(及专指如<person>及<persName>等)
导词<catchwords>,签名说明<signatures>,第2叶说明<secFol>
纹章<heraldry>
三、1手稿标识符<msIdentifier>嵌套元素
所在地:国家<country>,地区<region>,定居点<settlement>
收藏机构:机构<institution>(保管单位的上级机构),保管单位<repository>,文库/特藏<collection>
标识号:<idno>, <altIdentifier>
手稿替代名:<msName>
例(p.332)
<msIdentifier>
  <country>USA</country>
  <region>California</region>
  <settlement>San Marino</settlement>
  <repository>Huntington Library</repository>【保管单位】
  <collection>El</collection>
  <idno>26 C 9</idno>【索取号】
  <msName>The Ellesmere Chaucer</msName>
</msIdentifier>
四、3知识内容<msContents>嵌套元素
1、手稿单项<msItem>,结构化手稿单项<msItemStruct>,摘要<summary>
2、<msItem>/<msItemStruct>嵌套元素:
作者、题名(一般书目元素):<author>,<respStmt>,<title>
卷首<rubric>,开端语<incipit>,结束语<explicit>,文本部分结束<finalRubric>,引语<quote>,版权页<colophon>
亲子关系<filiation>(衍生品:照相、抄本、誉本/影写本/复制本)
附注<note>,装祯附注<decoNote>;参考书目<listBibl>,<bibl>;文本语言<textLang>
例(p.336-337)
<msContents>
  <summary>A collection of Lollard sermons</summary>
  <msItem n=”1″>【第1项】
    <locus>fol. 4r-8r</locus>
    <title>3rd Sunday Before Lent</title>
  </msItem>
  <msItem n=”2″>【第2项】
    <locus>fol. 9r-16v</locus>
    <title>Sexagesima</title>
  </msItem>
</msContents>
五、4物理描述<physDesc>嵌套元素
特别要求:通用元素在前,以下专指元素在后。
实物描述<objectDesc>:支持描述<supportDesc>,支持材料<support>,条件<condition>
数量<extent>:尺寸<dimensions>,高度<height>、宽度<width>,测量<measure>(其他尺寸)
整理<collation>,叶编号<foliation>,版式描述<layoutDesc>:<layout>
手写描述<handDesc><handNote>(不同人字迹,特定手写字体),文字描述<scriptDesc><scriptNote>、打字描述<typeDesc><typeNote>、装祯描述<decoDesc><decoNote>
乐谱<musicNotation>,其他说明<additions>
装订描述<bindingDesc><binding>,印章描述<sealDesc> <seal>,配套资料<accMat>
六、5历史<history>嵌套元素
起源<origin>,流转<provenance>,获得<acquisition>
七、6附加信息<additional>嵌套元素
手稿管理信息<adminInfo>:记录史<recordHist>(+来源<source>、变化<change>),可获得情况<availability>,保管史<custodialHist>(+保管事件<custEvent>)
替代品<surrogates>(+书目信息<bibl>)

TEI笔记:语音转录

TEI(Text Encoding Initiative,文本编码倡议)用于编码数字形式的文本全文。最新版P5的指导文件对诗歌、剧本、语音转录、词典、手稿(含古籍)5类文本的使用各有一章详加说明。
总体上,TEI对文本进行的编码较少深入到文本内容。对于口语材料的转录,“8 Transcriptions of Speech”说明不是面向语言学家的(如分析话语、语音等),主要是揭示社会交互过程
TEI可以客观转录整个语音过程,包括讲话过程中的停顿、改变语音语调,受干扰、其他背景声音,不同讲话者的插话、同时讲话,讲话过程中展示的书写文字,视频中的身势(如眼神、手势)等。上述非文本信息可以简单表示此种情况的存在,也可以精确表达。当然,语音资料文档本身的信息也能记录。
感觉TEI的标记功能很强大,适合记录演讲、访谈、讨论等富含文字内容的影音资料。
一、专用元素
话语<u>,停顿<pause>,声音<vocal>(不一定是说话声),身势<kinesic>,事件<incident>(影响话语),书写文字<writing>(说话过程中展示),转换<shift>(说话方式变化),同步与重叠(多种表示方式同时说话)。
属性:归属者@who,类型@type、@subtype,时间@start、@end、@dur
1、例(p.262):对话
<u who=”#mar”>you
never <pause/> take this cat for show and tell
<pause/> meow meow</u>【停顿。可说明停顿时间如:<pause dur=”PT20S”/>】
<u who=”#ros”>yeah well I dont want to</u>
<incident>【声音影响谈话】
<desc>toy cat has bell in tail which continues to make a tinkling sound</desc>
</incident>
<vocal who=”#mar”>【学一声猫叫】
<desc>meows</desc>
</vocal>
<u who=”#ros”>because it is so old</u>
<u who=”#mar”>how <choice>【发音有误】
<orig>bout</orig>
<reg>about</reg>
</choice>
<emph>your</emph> cat <pause/>yours is <emph>new</emph>【强调,未具体说明】
<kinesic>【身势】
<desc>shows Father the cat</desc>
</kinesic>
</u>
<!– … –>
<listPerson>【参与者清单】
<person xml:id=”mar”>
<!– … –>
</person>
<person xml:id=”ros”>
<!– … –>
</person>
<person xml:id=”fat”>
<!– … –>
</person>
</listPerson
2、例(p.265):显示书写文字
<u who=”#a”>look at this</u>
<writing who=”#a” type=”newspaper”
gradual=”false”>Government claims economic problems
<soCalled>over by June</soCalled>
</writing>
<u who=”#a”>what nonsense!</u>
3、例(p.271):同步和重叠
<u who=”#jane”>have you read Vanity Fair</u>
<u trans=”overlap” who=”#stig”>yes</u>【同步】
<u xml:id=”utt1″ who=”#jane”>have you read Vanity <anchor synch=”#utt2
#k1″ xml:id=”a1″/> Fair</u>【第1个人说话,更精确地定义同步位置】
<u xml:id=”utt2″ who=”#stig”>yes</u>【第2个人说话点,第1个人说到Vanity时】
<kinesic xml:id=”k1″ who=”#lou”
iterated=”true”>【第3个人身势点,第1个人说到Vanity时点头】
<desc>nods head vertically</desc>
</kinesic>
4、例(p.272):同步和重叠
传统表达方式:
Tom: I used to smoke – –
Bob: (interrupting) You used to smoke?
Tom: (at the same time) a lot more than this. But I never inhaled the smoke
通常转录方式:
(1) I used to smoke [ a lot more than this ]
(2) …………………………[ you used to smoke ]
(1) but I never inhaled the smoke
TEI方式之用<timeline>精确计时
<timeline origin=”#TS-t01″ unit=”s”>【从15:33:01开始2.5秒】
<when xml:id=”TS-t01″ absolute=”15:33:01Z”/>
<when xml:id=”TS-t02″ interval=”2.5″
since=”#TS-t01″/>
</timeline>
<u who=”#tom”>I used to smoke
<anchor synch=”#TS-t01″/>a lot more than this【同步时段】
<anchor synch=”#TS-t02″/>but I never inhaled the smoke</u>
<u who=”#bob”>
<anchor synch=”#TS-t01″/>You used to smoke<anchor synch=”#TS-t02″/>【同步时段】
</u>
二、转录声音的来源
需要在标头<teiHeader>的文档描述<fileDesc>的来源描述<sourceDesc>部分,说明声音的来源:
1、标头必备内容:来源描述为必备内容
<teiHeader>
  <fileDesc>
    <titleStmt>……</titleStmt>
    <publicationStmt>……</publicationStmt>
    <sourceDesc>……</sourceDesc>
  </fileDesc>
</teiHeader>
2、<sourceDesc>常用元素与属性
(1)<scriptStmt>文字说明,@xml:id标识号
<bibl>书目(及相关元素,如<title><author><date><time><respStmt>)
例(p.258)
<scriptStmt xml:id=”CNN12″>
<bibl>
<author>CNN Network News</author>
<title>News headlines</title>
<date when=”1991-06-12″>12 Jun 91</date>
</bibl>
</scriptStmt>
(2)<recordingStmt>录制说明
<recording>录制事件,@type录制类型(及相关元素<equipment><broadcast>)
@dur 持续时间
例(p.259)
<recordingStmt>
<recording type=”audio” dur=”P30M”>
<respStmt>
<resp>Location recording by</resp>
<name>Sound Services Ltd.</name>
</respStmt>
<equipment>
<p>Multiple close microphones mixed down to stereo Digital
Audio Tape, standard play, 44.1 KHz sampling frequency</p>
</equipment>
<date>12 Jan 1987</date>
</recording>
</recordingStmt>
(3)<transcriptionDesc>转录描述,@ident编码约定标识号,@version编码约定版本号
不同研究社群定义的转录约定(空格、标点、特殊字符等)。
例(p.261)
<transcriptionDesc ident=”HIAT”
version=”2004″/>