TEI笔记:语音转录

TEI(Text Encoding Initiative,文本编码倡议)用于编码数字形式的文本全文。最新版P5的指导文件对诗歌、剧本、语音转录、词典、手稿(含古籍)5类文本的使用各有一章详加说明。
总体上,TEI对文本进行的编码较少深入到文本内容。对于口语材料的转录,“8 Transcriptions of Speech”说明不是面向语言学家的(如分析话语、语音等),主要是揭示社会交互过程
TEI可以客观转录整个语音过程,包括讲话过程中的停顿、改变语音语调,受干扰、其他背景声音,不同讲话者的插话、同时讲话,讲话过程中展示的书写文字,视频中的身势(如眼神、手势)等。上述非文本信息可以简单表示此种情况的存在,也可以精确表达。当然,语音资料文档本身的信息也能记录。
感觉TEI的标记功能很强大,适合记录演讲、访谈、讨论等富含文字内容的影音资料。
一、专用元素
话语<u>,停顿<pause>,声音<vocal>(不一定是说话声),身势<kinesic>,事件<incident>(影响话语),书写文字<writing>(说话过程中展示),转换<shift>(说话方式变化),同步与重叠(多种表示方式同时说话)。
属性:归属者@who,类型@type、@subtype,时间@start、@end、@dur
1、例(p.262):对话
<u who=”#mar”>you
never <pause/> take this cat for show and tell
<pause/> meow meow</u>【停顿。可说明停顿时间如:<pause dur=”PT20S”/>】
<u who=”#ros”>yeah well I dont want to</u>
<incident>【声音影响谈话】
<desc>toy cat has bell in tail which continues to make a tinkling sound</desc>
</incident>
<vocal who=”#mar”>【学一声猫叫】
<desc>meows</desc>
</vocal>
<u who=”#ros”>because it is so old</u>
<u who=”#mar”>how <choice>【发音有误】
<orig>bout</orig>
<reg>about</reg>
</choice>
<emph>your</emph> cat <pause/>yours is <emph>new</emph>【强调,未具体说明】
<kinesic>【身势】
<desc>shows Father the cat</desc>
</kinesic>
</u>
<!– … –>
<listPerson>【参与者清单】
<person xml:id=”mar”>
<!– … –>
</person>
<person xml:id=”ros”>
<!– … –>
</person>
<person xml:id=”fat”>
<!– … –>
</person>
</listPerson
2、例(p.265):显示书写文字
<u who=”#a”>look at this</u>
<writing who=”#a” type=”newspaper”
gradual=”false”>Government claims economic problems
<soCalled>over by June</soCalled>
</writing>
<u who=”#a”>what nonsense!</u>
3、例(p.271):同步和重叠
<u who=”#jane”>have you read Vanity Fair</u>
<u trans=”overlap” who=”#stig”>yes</u>【同步】
<u xml:id=”utt1″ who=”#jane”>have you read Vanity <anchor synch=”#utt2
#k1″ xml:id=”a1″/> Fair</u>【第1个人说话,更精确地定义同步位置】
<u xml:id=”utt2″ who=”#stig”>yes</u>【第2个人说话点,第1个人说到Vanity时】
<kinesic xml:id=”k1″ who=”#lou”
iterated=”true”>【第3个人身势点,第1个人说到Vanity时点头】
<desc>nods head vertically</desc>
</kinesic>
4、例(p.272):同步和重叠
传统表达方式:
Tom: I used to smoke – –
Bob: (interrupting) You used to smoke?
Tom: (at the same time) a lot more than this. But I never inhaled the smoke
通常转录方式:
(1) I used to smoke [ a lot more than this ]
(2) …………………………[ you used to smoke ]
(1) but I never inhaled the smoke
TEI方式之用<timeline>精确计时
<timeline origin=”#TS-t01″ unit=”s”>【从15:33:01开始2.5秒】
<when xml:id=”TS-t01″ absolute=”15:33:01Z”/>
<when xml:id=”TS-t02″ interval=”2.5″
since=”#TS-t01″/>
</timeline>
<u who=”#tom”>I used to smoke
<anchor synch=”#TS-t01″/>a lot more than this【同步时段】
<anchor synch=”#TS-t02″/>but I never inhaled the smoke</u>
<u who=”#bob”>
<anchor synch=”#TS-t01″/>You used to smoke<anchor synch=”#TS-t02″/>【同步时段】
</u>
二、转录声音的来源
需要在标头<teiHeader>的文档描述<fileDesc>的来源描述<sourceDesc>部分,说明声音的来源:
1、标头必备内容:来源描述为必备内容
<teiHeader>
  <fileDesc>
    <titleStmt>……</titleStmt>
    <publicationStmt>……</publicationStmt>
    <sourceDesc>……</sourceDesc>
  </fileDesc>
</teiHeader>
2、<sourceDesc>常用元素与属性
(1)<scriptStmt>文字说明,@xml:id标识号
<bibl>书目(及相关元素,如<title><author><date><time><respStmt>)
例(p.258)
<scriptStmt xml:id=”CNN12″>
<bibl>
<author>CNN Network News</author>
<title>News headlines</title>
<date when=”1991-06-12″>12 Jun 91</date>
</bibl>
</scriptStmt>
(2)<recordingStmt>录制说明
<recording>录制事件,@type录制类型(及相关元素<equipment><broadcast>)
@dur 持续时间
例(p.259)
<recordingStmt>
<recording type=”audio” dur=”P30M”>
<respStmt>
<resp>Location recording by</resp>
<name>Sound Services Ltd.</name>
</respStmt>
<equipment>
<p>Multiple close microphones mixed down to stereo Digital
Audio Tape, standard play, 44.1 KHz sampling frequency</p>
</equipment>
<date>12 Jan 1987</date>
</recording>
</recordingStmt>
(3)<transcriptionDesc>转录描述,@ident编码约定标识号,@version编码约定版本号
不同研究社群定义的转录约定(空格、标点、特殊字符等)。
例(p.261)
<transcriptionDesc ident=”HIAT”
version=”2004″/>