中文文献全文版式XML规范 及 知识挖掘应用

最近在看《国家数字图书馆工程标准规范成果》丛书,其中有描述文本版式的XML规范:
中文文献全文版式还原与全文输入XML规范和应用指南 / 蒋贤春, 翟喜奎主编. 北京 : 国家图书馆出版社, 2010.
本标准规范由国家图书馆委托北京中易中标电子信息技术有限公司研制。后记中说明,国家图书馆于2006年4月成立项目组,2007年12月完成技术需求书,2008年经竞争性谈判签订研制合同,2009年到2010年1月通过各级验收完成。
本规范选择某些类型文献,对其进行数字化描述(规范 1 范围,对原表述有修改):
*中文文献(重点是古籍):将记录在纸介质(或通过扫描形成的图像)上的汉字、符号、表格、图形、图像数字化,目的是还原其排版格式。
*文献(知识挖掘):为获取特定知识而对文献进行数字化,目的是自动获取和分类文献中的特定知识。
*辞书(编纂):将词条结构化,目的是自动分析和统计相关内容和数据
*家谱:文献内容及其世系关系。

不知道本规范目前应用状况如何,国家图书馆是否在用?是否有其他机构使用?
感觉对国图而言,辞书编纂需求有点出乎意料。发现有GB/T 23829-2009《辞书条目XML格式》,采用ISO 1951:2007(本规范前言中未提到此标准),归口单位全国术语与语言内容资源标准化技术委员会。国家标准全文公开系统 不可看全文,道客巴巴上有全文。

从 4.3总体结构 看,包括:头文件、页文件、表格、文本行、纯内容文件和世系。
前面各项都是描述排版形式,只有“世系”涉及可挖掘的内容。5.4 世系标签(元素)及属性
(1)世系 lineage:文献名 title
(2)人物 person:标识 id,父标识 father_id,世代 generation,名谱 info,姓 surname,名 firstname,字 zi,号 hao,讳 hui,别称 alias,出入嗣 stepchild,堂号 heraldry,性别 sex,生日 birthday,卒日 death_date,出生地 homeplace,死亡地 death_place,墓地 tomb_place,结婚日期 wedding_date,配偶 spouse,配偶生日 spouse_birth,配偶卒日 spouse_death,配偶出嫁地 spouse_place,配偶出生地 spouse_homeplace,配偶墓地 spouse_tomb,职官 zhiguan,事实 story,迁移 transplant,支派 branch,产 possession,考 textual
(3)子女 issue:性别 sex,排行 birth_order,子女名 given_name
(4)原图位置标签 location:对应图标识 relate_id,页中位置 region

再看其他 5标签及属性,标签(元素)的属性基本都是有关版式的,但有些定义了“意义”(signification)属性,其取值在附录C“标签属性值”列出,“字型”部分、“词装饰”全部,具有内容意义:
字标签中的意义属性值
字型 font【形式类别】:文献名、标题1……、图像标题、表格标题、正文……、索引标题、索引1……、表格文字……、目录1……、批注主题、批注、页脚、页眉、中缝、参考文献、例句、句子1……、短语、谚语、成语、习惯用语、词……、字……、二行小字……、插入字……、其他……
不占位字 not_occupy【标点符号】:句号、感叹号、……、前方头括号、后方头括号、上标、下标、文字修改、文字删除符、批注、其他
错位字 inaccuracy【标点符号】:句号、感叹号、……、前方头括号、后方头括号、
词标签中的意义属性值
词装饰 decoration :人名、地名、事件名、附批注、其他

古籍文献中对某些字词会有各种修饰,如人名加外框,地名旁加竖线(下划线),事件名旁加波浪线,加着重点等,可以用词标签中“词装饰”(decoration)属性“意义”(signification)予以揭示,以此获取书中所有人名、地名、事件名、引用图书等。附录1 版式还原数字化与知识挖掘,介绍属性“意义”(signification)和“认同字”(异体字 variant)的用法,可用于知识挖掘。

<text>
    <decoration signification=”地名”>屯田</decoration>
<text>

参见:
TEI笔记:数字化文本的文字转录(2018-8-30)
TEI笔记:人物、机构、地点相关信息的标识(2018-9-13)

发表评论

电子邮件地址不会被公开。 必填项已用*标注


*