TEI中的书目描述及其他

最近在看TEI(Text Encoding Initiative),这是对文本进行数字化编码、添加机读语义标识的标准。
最新版指南《TEI P5:电子文本编码与交换指南》(3.3.0版,2018.1.31更新),长达1841页:
幸好有台湾出版的中文版,主要内容是轻量版(TEI Lite选录版)手册和完全版指南第2章标头的翻译:
TEI 使用指南:運用TEI處理中文文獻 / 魯‧伯納、麥克‧蘇寶麥昆、馬德偉 著; 謝筱琳、黃韋寧 譯.
看完中文版指南,再以样例为主浏览完全版指南,只了解个大概。
感觉TEI具有相当大的灵活性,很大的努力在于保持文本的原有状态:一是元素标识位置放置自由(随文本而定),二是可以用不同元素表达相同含意(适应不同文本表达);同时根据分析需要,对相同文本可采用侧重、深度各不相同的元素标识。相形之下,编目标准有时不免有削足适履之感。
TEI文件由标头<teiHeader>和文本<text>组成:标头由文件描述(必备)、编码描述、配置描述和修订描述4部分组成;文本由文前、正文(必备)和文后3部分组成。
其中文件描述<fileDesc>(2.2),是完全按照信息源,对书目信息进行客观描述,与书目记录的著录部分很相似。并且TEI的这部分也是参照编目界的标准,特别是ISBD,因为目的是“确保编目记录所需的资讯能够从TEI文件标头中取回复原”(中文版p.227)。<fileDesc>的7个部分与ISBD8大项很接近:
<titleStmt> 题名说明(含责任说明)
<editionStmt> 版本说明
<extent> 数量
<publicationStmt> 出版说明(含发行)
<seriesStmt> 丛编说明
<notesStmt> 附注说明
<sourceDesc> 来源描述(电子文本所依据的来源的书目描述)
另外,正文或文后可能有书目引用和参考文献(3.11),也与书目信息有关,揭示项目与方法接近文后参考文献标准。
试着依据TEI P5指南本身,做一下标头部分的“文件描述”。特点是可以完全按题名页原顺序转录(数量例外),文字间以TEI元素分隔:
<fileDesc>
 <titleStmt>【1题名和责任说明】
  <title type=”main”>TEI P5:</title>【正题名】
  <title type=”sub”>Guidelines for Electronic Text Encoding and Interchange</title>【副题名】
  <respStmt>【责任说明1】
   <resp>by </resp> <orgName>the TEI Consortium</orgName>
   </respStmt>
  <respStmt>【责任说明2】
   <resp>Originally edited by</resp> <persName>C.M. Sperberg-McQueen</persName> and <persName>Lou Burnard</persName> for the <orgName>ACH-ALLC-ACL Text Encoding Initiative</orgName>
   </respStmt>
   <respStmt>【责任说明3】
    <resp>Now entirely revised and expanded under the supervision
of the</resp> <orgName>Technical Council of the TEI Consortium</orgName>
   </respStmt>
 </titleStmt>
 <editionStmt>【2版本说明】
  <respStmt>【版本责任说明】
    <orgName>The TEI Consortium</orgName>
  </respStmt>
   <edition n=”V3.3.0″>Version 3.3.0. Last updated on <date>31st January 2018</date>, revision
f4d8439</edition>【版本】
 </editionStmt>
 <extent>【3数量】
  <measure unit=”MB” quantity=39>39MB</measure>
  <measure unit=”pages” quantity=”1841″>1841 pages</measure>
 </extent>
 <publicationStmt>【4出版说明】
  <publisher>Text Encoding Initiative Consortium</publisher>【出版者】
  <date>2018</date>【出版日期】
 </publicationStmt>
</fileDesc>
文件描述<fileDesc>属于客观描述。在文本<text>部分,文前<front>或文后<back>也可以对题名页等进行描述,此时可以考虑字体、字号、颜色,甚至可以完美揭示排版样式。
同样的内容,如果在正文<body>部分,可以根据文本分析的需要,以不同方式揭示语言文字的内涵。TEI不是规定一种做法,而是提供多种灵活表达。如对于名称,在可以有多种灵活表达方式。专有名称,可以使用通用的<name>,也可以使用更专指的揭示方式,如作为团体名称,以下3种方式专指度相同:
<orgName>【专指元素】
<name type=”org”>【专有名称+type属性】
<rs type=”org”>【通用名称+type属性】
各种缩写,也可根据需要予以说明(或者不做说明)。如机构名the TEI Consortium中含有首字母缩略词TEI,可以表示为:
<name type=”org”>the TEI Consortium</name>
<rs type=”org”>the <abbr type=”acronym”>TEI</abbr> Consortium</rs>
甚至在名称中提供TEI的全拼形式:
<orgName>the
 <choice>
  <abbr type=”acronym”>TEI</abbr> Consortium
  <expan>Text Encoding Initiative</expan>
 </choice> Consortium
</orgName>

RDA测试版常见问题(2018年7月)

RDA指导委员会员(RSC)2018年元旦在官网发布“3R计划常见问题”(参见:RDA重构计划常见问题,2018-1-4)。7月此FAQ更新,在原4个部分前加了一个部分“测试版工具包”,解答6月上线的RDA工具包测试版相关问题。

共11个问题,摘译如下(编号为本人所加):

1 什么是测试版工具包 [新版预备版]
2 如何找到、是否任何人可访问 [帐号登录;可申请30天试用帐号]
3 目标用户是谁 [编目员、编目和元数据机构、培训者]
4 应该现在就在日常编目工作中应用测试版工具包条款吗 [否。条款开发中,可能不经说明修改]
5 如何对内容及功能提供反馈 [网页表单;各RSC地区机构]

6 未来开发时间表是什么
[开发到2018年底,由2018.10 RSC年会决定。完成需经RSC和ALA出版社同意,再由RDA理事会批准]

7 为什么有那么多选项
根据政策声明、其他应用纲要信息和编目员的判断,工具包用户可以自行决定是否遵循在测试版工具包中标记为选项的条款。原工具包中部分暗示了这一点,其中没有元素是强制性的,但有些被标记为“核心”,以反映LRM前英美及相关国际编目传统中对政策的潜在一致性。新工具包更加明确,以便允许更加一致、清晰和连贯的方法来使用RDA满足在全球环境中运营本地应用和社区的需求。LRM的影响,RDA记录方法的扩展,以及为国际、文化遗产和关联数据社区开发RDA的策略,都意味着为更广泛的应用定制RDA的更多选择。

8 条款的主要变化 [主要由于LRM]
(1)合集和连续出版物
(2)非人类角色,包括虚构实体、动物、传奇人物
(3)名称、题名和检索点
(4)转录和记录数据
(5)[与命名、地点、时间段有关的]属性元素现为关系元素

9 什么是应用纲要/应用配置文件,和测试版有什么关系
应用纲要是指示满足特定应用需求的RDA元素的文档。 纲要还将确定哪些元素是可重复的或不可重复的、首选的记录方法以及诸如词汇编码方案的值的首选来源。
新的工具包支持更广泛的应用,因此某些形式的应用纲要对于确保任何特定应用的数据维护的一致性和相干性至关重要。
测试工具包提供用户生成书签、工作流程和内部文档,以实现应用纲要。3R项目正在开发将外部文档链接到条款的方法,并正在研究允许特定应用“继承”更广泛的应用纲要的方法。

10 什么是可视化浏览器,何时加到测试版工具包
[完整RDA实体和元素关系层次结构的图形界面;2018年底或2019年初添加到新工具包]

11 什么时候接受正式修改建议,要遵循什么过程
[2019年初新工具包的内容稳定后,在RDA新治理结构内]

参见:
RDA工具包测试版网站上线及初步印象(2018-6-14)
RDA已经发生和有待发生的变化(2018年6月3R计划成果)(2018-6-21)
IFLA-LRM的连续性资源模型对RDA修订的影响(2018-6-29)
RDA工具包测试网站的“应用纲要”(2018-7-5)
RDA条款编号声明(2018-7-6)(2018-7-16)
RDA工具包条款标识(2018-7-30)
3R计划对MARC21的影响:继续修订?(2018-7-28)

RDA工具包条款标识(2018-7-30)

新RDA的条款编号问题仍待解决。7月初RSC在工具包博客上发布了《RDA条款编号声明》(参见2018-7-16博文),表明并非RSC没有想到这个问题,而是实在想不出满足要求的解决办法。声明提出了编号方案需满足的5个前提条件,希望大家在几周内提供方案。8天后在RDA-L邮件组中有人回应,共提出了2个方案(也涉及网站设计改进):(1)年份.流水号,或:年份.指引/元素.流水号;(2)URI-流水号。在我看来这2个方案没什么吸引力。
参见此贴下回复:[RDA-L] Statement on Numbering / James Hennelly. 2018-7-9

现在7月底,RSC又在官网发布文件《RDA工具包条款标识》,进一步解释条款编号问题,包括原条款号导致的3大问题、条款号的5种用例及新工具包对应方法、RSC否决的5种编号设想及理由,并继续征求解决方案(前提条件不变)。文中提到“作为在新工具包中实施IFLA LRM的一部分,RSC决定,所有实体和元素需要平等呈现,避免暗含优先或重要”,这也是条款号设计的一个前提。

看前述声明时曾想到,RSC设定的前提条件是否完全有必要,或许也不是无需质疑的。看此新文件,仍有此感。编译文件如下【个人感想附后】。

《RDA工具包条款标识》(RDA Toolkit Instruction Identification. RSC/Papers/1, 2018-7-30)

【一、原条款号导致的问题】
原工具包的静态和等级条款编号,在2012-2017年的每次更新中导致若干问题:
[1] 增、删、重排条款要求大量重新编号工作,影响条款本身、所有后续条款,以及整个RDA中的参引 【以前只看到条款号变了,没进一步想到其他部分的参引——确实是很可怕的工作量,且极易出错(编制国标《资源描述》时有过更换序号体验)】
[2] 变更条款编号的连锁反应,要求更新政策声明、培训文档
[3] 精细嵌套条款可能深至6层,影响文本显示,并使得精确的子条款难以记住并且正确引用……【涉及排版退格,到深层一行显示不了多少内容】
由于上述第1个原因,2015年4月引入占位文本,说明条款已被取代([This instruction has been deleted as a revision to RDA… ])【查了下,现有75个条款有此文本】。此方法不可持续……

【二、条款号用例及新工具包对应方法】
[1] 条款号作为组织结构,包括传达层次结构和逻辑顺序。新工具包中所有实体和元素平等呈现,不再具有层次结构。
[2] 条款号作为视觉速记链接到相关条款。新工具包中指向相关条款的链接仍然可用,但以元素名称而非数字形式显示。【元素名称代替条款号】
[3] 条款号作为编目员关联政策声明与具体条款的手段之一。新工具包中政策声明将显示在上下文中,与其应用的特定条款或选项相邻。【如此设想优于原来的链接方式,但测试版似乎尚未实现】
[4] 条款号作为编目员口头或印刷参引特定条款的速记参考。新工具包中使用元素名称就足够了,因为它们是唯一的;注意美国编目员多年来一直将“规范检索点”称为“AAP”。【意指可以用缩写;但关于某个元素,可能有很多规定,并不是提及名称就足以定位具体规定】
[5] 条款号在RDA相关专著、RDA教学和RDA补充文档中,用于精确识别条款或子条款。新工具包提供创建书签、添加注释或创建链接到条款特定部分的功能。【能定位到条款特定部分很重要】
RSC认为前3个用例,在新工具包中提供的方法完全满足;后2个用例,没有某种速记形式说明比较困难。

【三、被否决的5种编号设想及理由】
[1] RDA注册的元素IRI的一部分
-只适用于元素,不适用于指引章节【元素和指引完全可以采用不同编号方式,即对指引规定另一套编号方法】
-有近1800个元素,至少需要8位字符串【这也能作为理由?】
-没有说明如何标识一个元素条款中的特定选项【所有单引元素的方法均如此】
-给选项编号隐含顺序,这是RSC想要避免的【有如此要求则确实无解】
[2] 创建一个标识模板:{元素名}{记录方法}{选项组}{选项“标识符”}
-会造成与原来编号相同的问题【选项没有名称,如何确定标识?】
-某些选项可能会重新定位到其他页面,而其他选项将被折叠。随着RDA的不断发展,可能还需要更多选择。【为什么某个元素的选项会移到其他元素下?】
[3] 采用类似IFLA LRM所用体系,如LRM-E3-A6……
-此编号体系根植于英语(E=实体,A=属性),RSC寻找方案不系于特定语言文字……【此前提属于自缚手脚,有点走火入魔,美国人的“政治正确”】
[4] 使用与工具包页面不同部分关联的URL,或者使用基于机器的标签标识符
-这是为机器而非人类设计的,因此太笨重
[5] 依赖给定页面的机器生成编号,加上微软Word行编号的行数
……【不用看解释了,完全充数的解决方案,联系上Word页面肯定比原来的编号更不可用】

【四、继续探索解决方案】
RSC相信,元素标签在RDA内是唯一的,具有足够精度用于识别条款,这使得通常不需要进一步编号。但是,一些元素页面有冗长的文本,会受益于在元素页面中识别特定条款。RSC正在审查这些页面,以尽可能收紧和澄清语言。【给有冗长条款的元素设置内部标识吗?】
RSC正在与工具包出版商联络,探索在工具包基础设施中自动生成简短的“随机”识别码,以解决这些问题。为了避免这种标识符暗示特定顺序,它们不会按顺序分配。
欢迎编目员提供有关如何设计人类可读系统的建议,以便将用户引导到新工具包中的RDA指令的不连续部分,且能避免前述陷阱。必须满足的条件见7月6日RDA工具包博客上的《条款编号声明》。