中文文献全文版式XML规范 及 知识挖掘应用

最近在看《国家数字图书馆工程标准规范成果》丛书,其中有描述文本版式的XML规范:
中文文献全文版式还原与全文输入XML规范和应用指南 / 蒋贤春, 翟喜奎主编. 北京 : 国家图书馆出版社, 2010.
本标准规范由国家图书馆委托北京中易中标电子信息技术有限公司研制。后记中说明,国家图书馆于2006年4月成立项目组,2007年12月完成技术需求书,2008年经竞争性谈判签订研制合同,2009年到2010年1月通过各级验收完成。
本规范选择某些类型文献,对其进行数字化描述(规范 1 范围,对原表述有修改):
*中文文献(重点是古籍):将记录在纸介质(或通过扫描形成的图像)上的汉字、符号、表格、图形、图像数字化,目的是还原其排版格式。
*文献(知识挖掘):为获取特定知识而对文献进行数字化,目的是自动获取和分类文献中的特定知识。
*辞书(编纂):将词条结构化,目的是自动分析和统计相关内容和数据
*家谱:文献内容及其世系关系。

不知道本规范目前应用状况如何,国家图书馆是否在用?是否有其他机构使用?
感觉对国图而言,辞书编纂需求有点出乎意料。发现有GB/T 23829-2009《辞书条目XML格式》,采用ISO 1951:2007(本规范前言中未提到此标准),归口单位全国术语与语言内容资源标准化技术委员会。国家标准全文公开系统 不可看全文,道客巴巴上有全文。

从 4.3总体结构 看,包括:头文件、页文件、表格、文本行、纯内容文件和世系。
前面各项都是描述排版形式,只有“世系”涉及可挖掘的内容。5.4 世系标签(元素)及属性
(1)世系 lineage:文献名 title
(2)人物 person:标识 id,父标识 father_id,世代 generation,名谱 info,姓 surname,名 firstname,字 zi,号 hao,讳 hui,别称 alias,出入嗣 stepchild,堂号 heraldry,性别 sex,生日 birthday,卒日 death_date,出生地 homeplace,死亡地 death_place,墓地 tomb_place,结婚日期 wedding_date,配偶 spouse,配偶生日 spouse_birth,配偶卒日 spouse_death,配偶出嫁地 spouse_place,配偶出生地 spouse_homeplace,配偶墓地 spouse_tomb,职官 zhiguan,事实 story,迁移 transplant,支派 branch,产 possession,考 textual
(3)子女 issue:性别 sex,排行 birth_order,子女名 given_name
(4)原图位置标签 location:对应图标识 relate_id,页中位置 region

再看其他 5标签及属性,标签(元素)的属性基本都是有关版式的,但有些定义了“意义”(signification)属性,其取值在附录C“标签属性值”列出,“字型”部分、“词装饰”全部,具有内容意义:
字标签中的意义属性值
字型 font【形式类别】:文献名、标题1……、图像标题、表格标题、正文……、索引标题、索引1……、表格文字……、目录1……、批注主题、批注、页脚、页眉、中缝、参考文献、例句、句子1……、短语、谚语、成语、习惯用语、词……、字……、二行小字……、插入字……、其他……
不占位字 not_occupy【标点符号】:句号、感叹号、……、前方头括号、后方头括号、上标、下标、文字修改、文字删除符、批注、其他
错位字 inaccuracy【标点符号】:句号、感叹号、……、前方头括号、后方头括号、
词标签中的意义属性值
词装饰 decoration :人名、地名、事件名、附批注、其他

古籍文献中对某些字词会有各种修饰,如人名加外框,地名旁加竖线(下划线),事件名旁加波浪线,加着重点等,可以用词标签中“词装饰”(decoration)属性“意义”(signification)予以揭示,以此获取书中所有人名、地名、事件名、引用图书等。附录1 版式还原数字化与知识挖掘,介绍属性“意义”(signification)和“认同字”(异体字 variant)的用法,可用于知识挖掘。

<text>
    <decoration signification=”地名”>屯田</decoration>
<text>

参见:
TEI笔记:数字化文本的文字转录(2018-8-30)
TEI笔记:人物、机构、地点相关信息的标识(2018-9-13)

亚洲地区RDA实施情况调研结果

中国国家图书馆顾犇在2018年成为RDA理事会亚洲代表(任期为2018-2020)。参见:RDA治理图(附RSC宣布候任主席Kathy Glenna)(2017-12-24,2018-1-18更新)

来自国家图书馆微信公众号“扁木园儿”的信息:“为更好履行作为RDA亚洲地区国家机构代表的职责,推动RDA在亚洲地区的普及与实践,密切亚洲各书目单位与国际RAD管理机构的联系,中国国家图书馆在亚洲范围内以调查问卷的形式开展了一次有关RDA研究与实践情况调研。”
扁木园儿:RDA研究与实践情况调研(2018-7-24)

根据 “亚洲地区RDA实施情况调研”,摘录如下信息[方括号内为个人附注]:
调查对象 [经查亚洲有48个国家和地区,是响应不积极,还是没有广泛发问卷?]
8个国家、20所图书馆。包括国家图书馆7个、公共图书馆5个、大学图书馆3个、专业图书馆2个、其他3个[如CALIS这样的联编中心?]
编目规则
中、日、韩对本国语言资源和外国语言资源大多采用不同编目规则,东南亚、中亚多采用相同编目规则。
采用1种规则的有4个机构,因文献语种和类型不同而采用2种的有6个机构,3种的有8个机构,超过3种的有2个机构。
实施机构 [总共20个机构,如能提供清单更好]
15个机构已实施RDA,4个未实施,1个未实施但已有计划。
实施机构中,11个有本地政策;7个对所有资源实施RDA编目
实施准备
日本国会图书馆计划制订本地政策
日本庆应大学馆准备编写本地RDA手册
韩国国会图书馆在修改本馆编目手册
越南国家图书馆正翻译RDA为越南语
马来西亚国家图书馆已制订本地政策声明、出版RDA手册
RDA编目数据较多的机构 [香港众多高校紧跟英美,看来调查未涉及香港地区]
CALIS、上海图书馆、澳门大学图书馆、台北汉学研究中心
韩国中央图书馆、日本国会图书馆、印尼国家图书馆、沙特阿卜杜勒阿齐兹国王图书馆与阿拉伯联合编目中心
本次调研使RDA理事会准确掌握了亚洲各国对RDA的态度和实施进展,获得了高度评价。

中国国家图书馆RDA政策声明笔记

2017年11月全国编目会上得知国图RDA政策声明将会出版,一直很期待看到。春节前收到罗翀、蔡丹赠送国家图书馆在2017年底出版的2种图书《RDA百日通》和《国家图书馆外文文献资源RDA本地政策声明暨书目记录操作细则政策声明》。收到后先大致浏览,有“国图外文编目培训资料大揭秘”的感觉:百日通为RDA分类题解,政策声明“兼具规则解释和政策声明双重职能”,正文配合附录1主要外文资源书目记录工作流程,很适合用来对编目员做系统培训。
春节前花3天时间比较仔细地看完了政策声明一书,然后就是过节,今天年过得差不多了,整理阅读笔记如下。

国家图书馆编目工作委员会编. 国家图书馆外文文献资源RDA本地政策声明暨书目记录操作细则政策声明. 国家图书馆出版社, 2017.12. 312页

与通常的政策声明仅针对若干RDA条款、尤其是有交替或可选的条款不同,国图政策声明包含较为完整的正文内容(书目部分、尤其是核心元素),按编制原则说法是“兼具规则解释和政策声明双重职能”。本书更像是RDA中文简化版或中文手册,其中嵌有国图政策声明或“中国国家图书馆做法”,样例部分多以MARC 21表达。从结构和形式上,可以看到对台湾《RDA中文手册》和LC-PCC PS的借鉴。

实用性强是最大特点,与作者2015年《RDA全视角解读》一脉相承(参见:可作为编目手册的《RDA全视角解读》)。
内容上,针对RDA第2-7章,各节或相关节首先列表总结元素的核心情况及与MARC21的映射,加上各元素下大量MARC样例,几乎可视为MARC21的RDA编目简明手册
编排上,在依照RDA顺序的基础上又具有灵活性,如把编目时一同考虑的6.9内容类型从第6章移到第3章3.2媒介类型/3.3载体类型前。
另外,在相关元素后插入6个“专题说明”,对编目员具有很强的指导性:
专题说明1,资源类型的判断与书目记录结构的确定(1.1术语 后)
专题说明2,多文种记录的处理(1.4语言和文字 后)
专题说明3,多部分专著和有多个信息源的汇编文件的处理(1.5著录类型 后)
专题说明4,复本的处理(1.6 需要一种新著录的变化 后)
专题说明5,汇编资源的处理(2.3.2正题名 后)
专题说明6,构建代表作品的规范检索点(19与作品相关的个人、家族和团体 后)

关于中国国家图书馆做法
国图已在2017年底对所有外文资源均采用RDA编目,相信这一巨大进步是受邀作为亚洲代表进入RDA理事会的理由(Board Members: Asia (To serve 2018-2020): Ben Gu, National Library of China, China)。对于内容、媒介、载体3种类型,附录I和J关系说明语,所有外文资源均采用英语受控术语,其它术语则采用各自的编目语言(附录有相应的日、俄语术语表)。
根据现在的通行做法,增加不少本地核心或条件核心元素,如书目和索引(7.16补编内容)。
对原始编目和套录编目做出不同规定,体现灵活性与经济性(效率)。原始编目通常简化、省略;套录编目通常规定对更多信息“核对无误后保留套录信息”,少数例外,如260字段均需改用264字段,或者不足信息需补足如19.2创作者的关系说明语。
没有逐一比较国图与CALIS联编中心做法上的差异,看到的已经有不少。感觉如先前说过的,有必要仿照LC-PCC PS的模式,做一个NLC-CALIS PS,把两者的差异显式化。当然,双方首先应该讨论沟通、求同,消除不一定有多大意义的差异。但必要的差异还是会有的,特别是单馆目录与联合目录的差异,如国图做法:3.4.5.16多册不完整资源:对于尚不完整的资源(未全部到馆或尚未发行完毕),记录已到馆册的编号,中间有逗号分隔并置于尖括号中;又如:22与单件相关的个人、家族和团体:捐赠人做700字段。作为联合目录,自然难以使用以上2种做法,但可以建议各成员馆在本地记录中采用国图做法。

RDA内容自2010年发布以来,历经太多修订,能了解所有变化的人估计为数不多。本书也有未及跟进之处,以下几处本人正巧以前注意过:1、发行说明、生产说明和版权年已非条件核心元素(这也可以解释为什么LC记录在没有出版年只有版权年时,通常只用264字段指示符1推测出版年而不用指示符4版权年);2、连续出版物需要创建新著录的条件之二,“媒介类型”发生变化已改为“载体特征”发生变化,增加同为计算机媒介的实体资源与联机资源之间的变化;3、关系说明语 editor of compilation 已停用,直接用 editor。
最后,对包括国图政策声明在内的最大挑战,是今年年中“3R计划”完成后,RDA在编排形式及引用上将会发生的巨大变化。这可能意味着很多工作都要再来一遍。