TEI中的书目描述及其他

最近在看TEI(Text Encoding Initiative),这是对文本进行数字化编码、添加机读语义标识的标准。
最新版指南《TEI P5:电子文本编码与交换指南》(3.3.0版,2018.1.31更新),长达1841页:
幸好有台湾出版的中文版,主要内容是轻量版(TEI Lite选录版)手册和完全版指南第2章标头的翻译:
TEI 使用指南:運用TEI處理中文文獻 / 魯‧伯納、麥克‧蘇寶麥昆、馬德偉 著; 謝筱琳、黃韋寧 譯.
看完中文版指南,再以样例为主浏览完全版指南,只了解个大概。
感觉TEI具有相当大的灵活性,很大的努力在于保持文本的原有状态:一是元素标识位置放置自由(随文本而定),二是可以用不同元素表达相同含意(适应不同文本表达);同时根据分析需要,对相同文本可采用侧重、深度各不相同的元素标识。相形之下,编目标准有时不免有削足适履之感。
TEI文件由标头<teiHeader>和文本<text>组成:标头由文件描述(必备)、编码描述、配置描述和修订描述4部分组成;文本由文前、正文(必备)和文后3部分组成。
其中文件描述<fileDesc>(2.2),是完全按照信息源,对书目信息进行客观描述,与书目记录的著录部分很相似。并且TEI的这部分也是参照编目界的标准,特别是ISBD,因为目的是“确保编目记录所需的资讯能够从TEI文件标头中取回复原”(中文版p.227)。<fileDesc>的7个部分与ISBD8大项很接近:
<titleStmt> 题名说明(含责任说明)
<editionStmt> 版本说明
<extent> 数量
<publicationStmt> 出版说明(含发行)
<seriesStmt> 丛编说明
<notesStmt> 附注说明
<sourceDesc> 来源描述(电子文本所依据的来源的书目描述)
另外,正文或文后可能有书目引用和参考文献(3.11),也与书目信息有关,揭示项目与方法接近文后参考文献标准。
试着依据TEI P5指南本身,做一下标头部分的“文件描述”。特点是可以完全按题名页原顺序转录(数量例外),文字间以TEI元素分隔:
<fileDesc>
 <titleStmt>【1题名和责任说明】
  <title type=”main”>TEI P5:</title>【正题名】
  <title type=”sub”>Guidelines for Electronic Text Encoding and Interchange</title>【副题名】
  <respStmt>【责任说明1】
   <resp>by </resp> <orgName>the TEI Consortium</orgName>
   </respStmt>
  <respStmt>【责任说明2】
   <resp>Originally edited by</resp> <persName>C.M. Sperberg-McQueen</persName> and <persName>Lou Burnard</persName> for the <orgName>ACH-ALLC-ACL Text Encoding Initiative</orgName>
   </respStmt>
   <respStmt>【责任说明3】
    <resp>Now entirely revised and expanded under the supervision
of the</resp> <orgName>Technical Council of the TEI Consortium</orgName>
   </respStmt>
 </titleStmt>
 <editionStmt>【2版本说明】
  <respStmt>【版本责任说明】
    <orgName>The TEI Consortium</orgName>
  </respStmt>
   <edition n=”V3.3.0″>Version 3.3.0. Last updated on <date>31st January 2018</date>, revision
f4d8439</edition>【版本】
 </editionStmt>
 <extent>【3数量】
  <measure unit=”MB” quantity=39>39MB</measure>
  <measure unit=”pages” quantity=”1841″>1841 pages</measure>
 </extent>
 <publicationStmt>【4出版说明】
  <publisher>Text Encoding Initiative Consortium</publisher>【出版者】
  <date>2018</date>【出版日期】
 </publicationStmt>
</fileDesc>
文件描述<fileDesc>属于客观描述。在文本<text>部分,文前<front>或文后<back>也可以对题名页等进行描述,此时可以考虑字体、字号、颜色,甚至可以完美揭示排版样式。
同样的内容,如果在正文<body>部分,可以根据文本分析的需要,以不同方式揭示语言文字的内涵。TEI不是规定一种做法,而是提供多种灵活表达。如对于名称,在可以有多种灵活表达方式。专有名称,可以使用通用的<name>,也可以使用更专指的揭示方式,如作为团体名称,以下3种方式专指度相同:
<orgName>【专指元素】
<name type=”org”>【专有名称+type属性】
<rs type=”org”>【通用名称+type属性】
各种缩写,也可根据需要予以说明(或者不做说明)。如机构名the TEI Consortium中含有首字母缩略词TEI,可以表示为:
<name type=”org”>the TEI Consortium</name>
<rs type=”org”>the <abbr type=”acronym”>TEI</abbr> Consortium</rs>
甚至在名称中提供TEI的全拼形式:
<orgName>the
 <choice>
  <abbr type=”acronym”>TEI</abbr> Consortium
  <expan>Text Encoding Initiative</expan>
 </choice> Consortium
</orgName>

高校图书馆作为学术出版社:书目及概述

一索即得的数字时代,Charles W. Bailey仍在孜孜不倦地做书目,在“数字学术”网站。值得专门做书目的,可以认为是热门话题,或者体现某种潮流。该网站始于1989年,现设置3个版块:数字学术概述数字监护/数字保存作品开放获取作品,每个包含数量不等的不同专题书目。如果要做相关研究,不妨浏览下。
本博中介绍过的有:
数据监护书目(Data Curation:数据监护?数据保管?2011-5-22)
替代计量学书目(替代计量学(Altmetrics)备记,2014-6-1)
研究数据管理书目(研究数据管理书目(2009-2017),2018-4-19;数据监护书目第9版)

最新发布的是《高校图书馆作为学术出版社书目》(2018),归在“开放获取”版块:
Academic Library as Scholarly Publisher Bibliography / Charles W. Bailey, Jr. (7/25/2018)
书目导言是对此主题的概述。看完才知道,“数字学术”网站就出自图书馆出版的最初践行机构——休斯顿大学图书馆。
via [DIGLIB] Academic Library as Scholarly Publisher Bibliography / Digital Scholarship (2017-7-25)

下月在马来西亚首都吉隆坡召开的IFLA 2018年会上,将有一个图书馆出版分会场,正是此书目对应的主题。通知称会议将讨论开发一个提交给IFLA的行动计划(Action Plan),探讨成立一个特殊兴趣小组(Library Publishing SIG)——足以说明这是一个“快速成长的实践领域”。
via [IFLA-L] Please Join Us! 2018 WLIC – Formation of IFA’s Library Publishing SIG / Ann Okerson (2018-7-26)

翻译《高校图书馆作为学术出版社书目》导言附后,了解一下英语国家现状——最后关于大学出版社的,离我们实在太过遥远。当然,北京大学期刊网是个很好的样版。
[说明:university libraries=大学图书馆;academic libraries=高校图书馆]

—–《高校图书馆作为学术出版社书目》导言—–
《高校图书馆作为学术出版社书目》包括超过125种精选英文文章、书籍和技术报告,这些文章有助于理解自1980年代后期以来高校图书馆的数字学术出版活动,特别是他们的开放获取图书和期刊出版活动。参考书目涵盖以下子主题:1980年代和1990年代开创性的高校图书馆出版项目,图书馆员(不同于图书馆)出版的早期数字期刊和连续出版物,自布达佩斯开放获取倡议以来基于图书馆的学术出版,技术出版基础设施,以及图书馆和大学出版社合并/合作伙伴关系和其他相关工作。

这是图书馆出版联盟(Library Publishing Coalition, LPC)对图书馆出版的定义
LPC将图书馆出版定义为由大学和大学图书馆领导的一系列活动,以支持学术、创意和/或教育作品的创作、传播和保管。
通常,图书馆出版需要一个制作过程,提供以前没有提供的原创作品,并对发布的内容应用一定程度的认证,无论是通过同行评审还是通过机构品牌的扩展。
基于核心图书馆的价值观,并以图书馆员的传统技能为基础,它与其他出版领域的区别在于偏好开放获取传播,以及愿意接受非正式和实验形式的学术交流并挑战现状。

从1980年代末开始,大学图书馆是互联网上数字学术期刊的首批出版社之一。在休斯顿大学图书馆馆长Robin N. Downes的批准和支持下,开放获取期刊《公共访问计算机系统评论》(The Public-Access Computer Systems Review)于1989年8月启动,第一期于1990年1月出版。1991年,弗吉尼亚理工大学图书馆出版了第一期《国际酒店研究学院期刊》(Journal of the International Academy of Hospitality Research)。在《2018年图书馆出版目录》中,弗吉尼亚理工大学图书馆列名出版五个“基于校园的学生驱动的期刊”和六个“根据外部团体合同/谅解备忘录生产期刊”。斯坦福大学图书馆于1995年建立了HighWire出版社,出版了《生物化学杂志》(Journal of Biological Chemistry)作为其第一份期刊。截至2015年3月,HighWire Press总共发表760万篇文章,其中240多万篇为开放获取文章。经过Downes的批准,休斯顿大学图书馆于1996年10月开始出版《学术电子出版书目》,这是一本开放存取的书籍。这本数字图书在1996年至2006年期间更新了64次。
1990年代由大学图书馆参与的数字期刊出版项目包括:欧几里德项目(Project Euclid,康奈尔大学图书馆和杜克大学出版社),BioOne项目(堪萨斯大学,Big 12 Plus图书馆联盟和其他合作伙伴),缪斯项目(Project Muse,约翰霍普金斯大学出版社和米尔顿艾森豪威尔图书馆)。
图书馆员出版的早期数字期刊和连续出版物包括:……【略】
在1990年代,大学图书馆也是主要学术出版社风险投资的重要数字期刊出版测验场,如CORE项目、红色Sage项目、SuperJournal项目和TULIP项目。……【略】
过去的16年中,学术和其他图书馆一直在不断出版图书、期刊和其他作品。这种复苏活动是由开放获取运动推动的,通常被视为从2002年布达佩斯开放获取倡议开始。高校图书馆建立了组织和技术基础设施来支持这一运动,通常使用为了推进它而创建的开源软件。对OA运动的越来越多的承诺引发了图书馆的重要文化变革,导致了由他们支持的机构知识库、学术交流部门和研究数据支持部门的激增。
“公共知识项目”(Public Knowledge Project)中的开源软件,如开源期刊系统(Open Journal Systems),经常用于基于图书馆的出版项目,不过也使用各种软件工具。有希望的新开源出版项目正在兴起,如Fulcrum、Hypothesis、Janeway、Manifold、PubPub、PubSweet、Scalar和Vega,但在本书目所涵盖的作品类型中没有很好地表现出来。
大学出版社正处于变革和重组的时期。他们越来越多地受到大学图书馆的行政控制。此外,正在建立全新的全数字开放获取大学出版社,通常是在大学图书馆的指导下或与之合作。

Voyant:在线文本分析及可视化工具(另有服务器版)

王涛老师的直播“手把手带你再现一项完整的数字人文研究”大纲中有用 Voyant 进行文本挖掘内容(参见:可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)),但直播时由于时间关系没有涉及。接着Gephi略作探索:

网站:Voyant(法语,先见者)http://voyant-tools.org
Voyant Tools 是一个基于网络的数字文本阅读和分析环境。
简言之,可输入网址、粘贴文字或上传文件作为语料库,自动作文本分析、生成可视化图形,包括词云、词频……,可导出分析处理后的数据,还可分享分析数据(提供可嵌入网页的分享链接)。
以下是奥斯汀小说语料库分享实例:

(由于系统原因嵌入网页无法呈现,只能链接前往)

Voyant 目前可选十种文字界面,不含中文,但支持对汉字进行处理。
要分析的语料,有3种提交方式:1、上传文件;2、提供网页的网址;3、直接粘贴文本。
也可以打开系统中已有的2个语料库(莎士比亚戏剧37部、奥斯汀小说8部),探索Voyant的功能。

Voyant 目前有20个工具,带图示的工具介绍见 Tools index
完整的使用介绍见:Voyant Tools Documentation

进入语料库后默认界面会有:高频词云(可作为标签云工具)、高频词趋势曲线、语料库概要等5个部分(见上图)。每个部分都可切换各种工具进行探索。比如可根据语种选择停用词,也可自定义停用词表。比较不解的是中文的标点符号也被当成字符且无法停用。

Voyant还提供服务器版(VOYANT SERVER),可下载到本机安装,数据不必提交给 Voyant Tool 网站,还可离线操作,可处理更大数据。