TEI中的书目描述及其他

最近在看TEI(Text Encoding Initiative),这是对文本进行数字化编码、添加机读语义标识的标准。
最新版指南《TEI P5:电子文本编码与交换指南》(3.3.0版,2018.1.31更新),长达1841页:
幸好有台湾出版的中文版,主要内容是轻量版(TEI Lite选录版)手册和完全版指南第2章标头的翻译:
TEI 使用指南:運用TEI處理中文文獻 / 魯‧伯納、麥克‧蘇寶麥昆、馬德偉 著; 謝筱琳、黃韋寧 譯.
看完中文版指南,再以样例为主浏览完全版指南,只了解个大概。
感觉TEI具有相当大的灵活性,很大的努力在于保持文本的原有状态:一是元素标识位置放置自由(随文本而定),二是可以用不同元素表达相同含意(适应不同文本表达);同时根据分析需要,对相同文本可采用侧重、深度各不相同的元素标识。相形之下,编目标准有时不免有削足适履之感。
TEI文件由标头<teiHeader>和文本<text>组成:标头由文件描述(必备)、编码描述、配置描述和修订描述4部分组成;文本由文前、正文(必备)和文后3部分组成。
其中文件描述<fileDesc>(2.2),是完全按照信息源,对书目信息进行客观描述,与书目记录的著录部分很相似。并且TEI的这部分也是参照编目界的标准,特别是ISBD,因为目的是“确保编目记录所需的资讯能够从TEI文件标头中取回复原”(中文版p.227)。<fileDesc>的7个部分与ISBD8大项很接近:
<titleStmt> 题名说明(含责任说明)
<editionStmt> 版本说明
<extent> 数量
<publicationStmt> 出版说明(含发行)
<seriesStmt> 丛编说明
<notesStmt> 附注说明
<sourceDesc> 来源描述(电子文本所依据的来源的书目描述)
另外,正文或文后可能有书目引用和参考文献(3.11),也与书目信息有关,揭示项目与方法接近文后参考文献标准。
试着依据TEI P5指南本身,做一下标头部分的“文件描述”。特点是可以完全按题名页原顺序转录(数量例外),文字间以TEI元素分隔:
<fileDesc>
 <titleStmt>【1题名和责任说明】
  <title type=”main”>TEI P5:</title>【正题名】
  <title type=”sub”>Guidelines for Electronic Text Encoding and Interchange</title>【副题名】
  <respStmt>【责任说明1】
   <resp>by </resp> <orgName>the TEI Consortium</orgName>
   </respStmt>
  <respStmt>【责任说明2】
   <resp>Originally edited by</resp> <persName>C.M. Sperberg-McQueen</persName> and <persName>Lou Burnard</persName> for the <orgName>ACH-ALLC-ACL Text Encoding Initiative</orgName>
   </respStmt>
   <respStmt>【责任说明3】
    <resp>Now entirely revised and expanded under the supervision
of the</resp> <orgName>Technical Council of the TEI Consortium</orgName>
   </respStmt>
 </titleStmt>
 <editionStmt>【2版本说明】
  <respStmt>【版本责任说明】
    <orgName>The TEI Consortium</orgName>
  </respStmt>
   <edition n=”V3.3.0″>Version 3.3.0. Last updated on <date>31st January 2018</date>, revision
f4d8439</edition>【版本】
 </editionStmt>
 <extent>【3数量】
  <measure unit=”MB” quantity=39>39MB</measure>
  <measure unit=”pages” quantity=”1841″>1841 pages</measure>
 </extent>
 <publicationStmt>【4出版说明】
  <publisher>Text Encoding Initiative Consortium</publisher>【出版者】
  <date>2018</date>【出版日期】
 </publicationStmt>
</fileDesc>
文件描述<fileDesc>属于客观描述。在文本<text>部分,文前<front>或文后<back>也可以对题名页等进行描述,此时可以考虑字体、字号、颜色,甚至可以完美揭示排版样式。
同样的内容,如果在正文<body>部分,可以根据文本分析的需要,以不同方式揭示语言文字的内涵。TEI不是规定一种做法,而是提供多种灵活表达。如对于名称,在可以有多种灵活表达方式。专有名称,可以使用通用的<name>,也可以使用更专指的揭示方式,如作为团体名称,以下3种方式专指度相同:
<orgName>【专指元素】
<name type=”org”>【专有名称+type属性】
<rs type=”org”>【通用名称+type属性】
各种缩写,也可根据需要予以说明(或者不做说明)。如机构名the TEI Consortium中含有首字母缩略词TEI,可以表示为:
<name type=”org”>the TEI Consortium</name>
<rs type=”org”>the <abbr type=”acronym”>TEI</abbr> Consortium</rs>
甚至在名称中提供TEI的全拼形式:
<orgName>the
 <choice>
  <abbr type=”acronym”>TEI</abbr> Consortium
  <expan>Text Encoding Initiative</expan>
 </choice> Consortium
</orgName>

2018 NISO战略方向:识别未来标准工作的新兴趋势

NISO上月发布《2018 NISO战略方向》
NISO Strategic Directions, 2018 (2018-3-26). ISBN: 978-1-937522-80-3

via NISO 2018 Strategic Directions Document Identifies Emerging Trends for Future Standards Work (2018-4-9)

美国国家信息标准组织(NISO)是美国乃至全世界图情领域标准的引领者。2007年NISO提出《NISO标准框架》The NISO Framework for Understanding Standards, April 2007),作为框架的一部分,成立了直属董事会(NISO Board of Directors)的架构委员会(Architecture Committee),其下设3个专题委员会(Topic Committee),即:发现到传递、内容与馆藏管理、商务信息。经过2016-2017年的公众调查,3个专题委员会于2017年夏改名,从名称变化可以了解相关术语及重点的变化:
(2007-2017年) -> 2017年
(商务信息Business Information) -> 信息政策与分析Information Policy & Analysis (IPA)
(内容与馆藏管理Content & Collections Management) -> 信息创建与保管Information Creation & Curation (ICC) [curation成功取代collection management]
(发现到传递Discovery to Delivery) -> 信息发现与交换Information Discovery & Interchange (IDI) [单向的delivery已成过去时,为双向的interchange取代]
专题委员会改名,但并不影响现有项目,并且项目可以跨委员会,比如语义网活动可能涉及信息创建与保管(词表开发与支持)、信息发现与交换(关联数据行动)。

在新发布的《2018 NISO战略方向》中,3个专题委员会分别提出了各自领域的趋势和新兴议题或工作领域。16页的文件,满满的干货,想要概括内容而不可得。以下仅做些许摘录:

-信息创建和管理(ICC)专题委员会
范围:侧重于有关元数据创建和管理、编目和描述、词汇和本体管理、发布模式和规范、保存和数据管理以及存储库等问题。
趋势和新兴主题:与ICC相关的信息社区中最重要的当前趋势是内容类型的种类增多,由于数字内容的大量增加导致资料的可查找性,购买和访问信息资产的粒度水平提高,转向关联数据书目框架,以及数字保管和保存的难题。

-信息发现和交换(IDI)专题委员会
范围:着重讨论有关数据的发现和交换的问题、以优化信息和资料的发现和使用。具体主题包括发现系统、数据传输、用户体验、Web服务等。
趋势和新兴主题以及一般工作领域:发现开放获取和免费资源,发现的透明度(有开放发现行动指导委员会),发现非传统内容形式(研究数据、教学资料、数字和音像资料),数据质量、发布与交换(关联用户到全文、标识符),系统互操作(使用REST交换JSON编码资源)、认证(单点登录)和API,强化用户体验(关联数据/语义网、相关资源、个性化、可视化、注释)

-信息政策与分析(IPA)专题委员会
范围:重点关注与采访、许可、购买和信息分析有关的管理结构问题。具体领域包括:隐私,许可证表达,在线使用数据,访问管理,馆藏和研究分析和评估,绩效评估以及其他统计数据。
趋势和新兴主题:标识符系统,资源发现与内容管理元数据的无缝集成,出版物粒度变化(替代计量),开放出版和研究共享系统

新发布国家标准《地方志索引编制规则》

近来正关注着方志,昨天去上师大参加中国索引学会上海工作站成立会,得知新发布了地方志索引编制的国家标准,便找来学习。

GB/T 36070-2018 地方志索引编制规则
2018-03-15 发布;2018-10-01 实施
全国信息与文献标准化技术委员会(SAC/TC 4)提出
起草单位:中国索引学会、佛山科学技术学院、复旦大学、北京印刷学院
主要起草人:衡中青、杨光辉、王彥祥、王有朋、温国强、王雅戈、康艳、郭丽芳、赵月南

本标准共15页,在国家标准全文公开系统(http://www.gb688.cn/bzgk/gb/)中可以在线浏览。摘编主要内容如下【加本人附注】。

1 范围
新编地方志

2 术语和定义
地方志 local chronicles :记载一定地区(或行政区划)自然和社会各方面历史和现状的综合性著述和资料性文献
注:1949年……以后编纂的地方志称为新编地方志,包括地方志书地方综合年鉴

6 地方志索引范围
具有实质检索意义的表达人、事、物的名称,文献表格题名与内容,图照题名与说明文字,以及主题事物和主题概念等;地方综合年鉴的条目、特载、专文以及年鉴其他内容中包含实质检索意义的语词。
不包括:序跋、目录、凡例、参考文献等。

7 地方志标引
7.1 人名标引【没有对人名进行规范的要求,也未说明对各种异名各自立目、并作参见处理】
不包括:没有检索价值的帝王年号,法律法规文件和讲话文章中不符合索引主题要求的人名,纪念物中的人名,以人名命名的路、街、村、屯中的人名【作为地名】,机构名称中的人名【作为机构】,人物传、略、录、表中重复出现的本传传主人名,地方志条目的撰稿人,参考文献的编著者等。

7.2 地名标引【题外:感觉应当要求方志编纂时为地名标上经纬度】
包括:行政区划名称,地形地貌名称,自然形成的居民地的省、市、县、州、村、屯、街、路、坟、里弄、胡同等名称,具有地名含义的交通、水电设施名称,名胜古迹及建筑物名称等。【竟然未明确说明“区”】
例如:“上海市徐汇区天平街道”“珠穆朗玛峰”“上海市邯郸路”“江湾立交桥”“贵阳孔学堂”等。

7.3 机构标引
包括:确指的、独立存在的各类机构、团体、企事业单位等名称;
不包括:虚拟的各级标题中的机构、团体、企事业单位名称,例如:“县处级以上领导机构群众路线教育实践活动”中的“县处级以上领导机关”、“在沪央企发展巡礼”中的“在沪央企”。【“虚拟”?宜称:泛指或非特指名称】

7.4 会议、展览、活动标引
包括:会议、展览、活动名称及其主题事物和主题概念等。
名称过长的,取其简称或自拟主题词;合并举办的,分拆标引、各自立目。

7.5 事件标引
事件名称及其主题事物和主题概念等。
可以直接抽取主题词作为标目,也可根据事件人物、时间、地点等要素自拟主题词。

7.6 物产标引
特产名称,包含正式名称和异名别称等。
容易产生歧义的加限义词界定。示例:竹叶青(蛇),竹叶青(酒)竹叶青(茶叶)【规范控制】

7.7 名胜、古迹标引【与7.2地名交叉】
如自然景观、人文景观及特色藏品等。
容易产生歧义的加限义词界定。示例:扬州八怪纪念馆(扬州),扬州八怪纪念馆(镇江)【规范控制】

7.8 文献题名标引【非指参考文献】
前后加有书名号的文献题名直接从文献中抽取,照录;文献名过长的,加自拟文献题名作为参照款目,自拟文献题名不加书名号。
有正、副书名的应分拆标引,各自立目。【很有意思的规定】
同书异名、各自立目,互为参照。
异书同名的加著者或出版机构等加以区分。【规范控制】

7.9 表格标引
表格题名或内容信息。
直接抽取表格题名或内容信息作为标目,表格题名过长的自拟主题词作为标目。
表格题名不能明确揭示表格类型的加“(表)”字。【规范控制】

7.10 图照标引
图片、照片题名或说明文字。包括:以图照形式存在的各类题词、书法作品、书影,计算机制作的图形等。
抽取图照题名作为标目,题名过长的自拟主题词作为标目。
图照没有题名的,对说明文字进行主题分析,自拟主题词作为标目。
题名如不能明确表达“图片”“照片”这种记述形式的,应在其后加“(图)”字样。【规范控制】

7.11 主题标引
主题事物或主题概念。
以自由标引为主,受控标引为辅。