中文文献全文版式XML规范 及 知识挖掘应用

最近在看《国家数字图书馆工程标准规范成果》丛书,其中有描述文本版式的XML规范:
中文文献全文版式还原与全文输入XML规范和应用指南 / 蒋贤春, 翟喜奎主编. 北京 : 国家图书馆出版社, 2010.
本标准规范由国家图书馆委托北京中易中标电子信息技术有限公司研制。后记中说明,国家图书馆于2006年4月成立项目组,2007年12月完成技术需求书,2008年经竞争性谈判签订研制合同,2009年到2010年1月通过各级验收完成。
本规范选择某些类型文献,对其进行数字化描述(规范 1 范围,对原表述有修改):
*中文文献(重点是古籍):将记录在纸介质(或通过扫描形成的图像)上的汉字、符号、表格、图形、图像数字化,目的是还原其排版格式。
*文献(知识挖掘):为获取特定知识而对文献进行数字化,目的是自动获取和分类文献中的特定知识。
*辞书(编纂):将词条结构化,目的是自动分析和统计相关内容和数据
*家谱:文献内容及其世系关系。

不知道本规范目前应用状况如何,国家图书馆是否在用?是否有其他机构使用?
感觉对国图而言,辞书编纂需求有点出乎意料。发现有GB/T 23829-2009《辞书条目XML格式》,采用ISO 1951:2007(本规范前言中未提到此标准),归口单位全国术语与语言内容资源标准化技术委员会。国家标准全文公开系统 不可看全文,道客巴巴上有全文。

从 4.3总体结构 看,包括:头文件、页文件、表格、文本行、纯内容文件和世系。
前面各项都是描述排版形式,只有“世系”涉及可挖掘的内容。5.4 世系标签(元素)及属性
(1)世系 lineage:文献名 title
(2)人物 person:标识 id,父标识 father_id,世代 generation,名谱 info,姓 surname,名 firstname,字 zi,号 hao,讳 hui,别称 alias,出入嗣 stepchild,堂号 heraldry,性别 sex,生日 birthday,卒日 death_date,出生地 homeplace,死亡地 death_place,墓地 tomb_place,结婚日期 wedding_date,配偶 spouse,配偶生日 spouse_birth,配偶卒日 spouse_death,配偶出嫁地 spouse_place,配偶出生地 spouse_homeplace,配偶墓地 spouse_tomb,职官 zhiguan,事实 story,迁移 transplant,支派 branch,产 possession,考 textual
(3)子女 issue:性别 sex,排行 birth_order,子女名 given_name
(4)原图位置标签 location:对应图标识 relate_id,页中位置 region

再看其他 5标签及属性,标签(元素)的属性基本都是有关版式的,但有些定义了“意义”(signification)属性,其取值在附录C“标签属性值”列出,“字型”部分、“词装饰”全部,具有内容意义:
字标签中的意义属性值
字型 font【形式类别】:文献名、标题1……、图像标题、表格标题、正文……、索引标题、索引1……、表格文字……、目录1……、批注主题、批注、页脚、页眉、中缝、参考文献、例句、句子1……、短语、谚语、成语、习惯用语、词……、字……、二行小字……、插入字……、其他……
不占位字 not_occupy【标点符号】:句号、感叹号、……、前方头括号、后方头括号、上标、下标、文字修改、文字删除符、批注、其他
错位字 inaccuracy【标点符号】:句号、感叹号、……、前方头括号、后方头括号、
词标签中的意义属性值
词装饰 decoration :人名、地名、事件名、附批注、其他

古籍文献中对某些字词会有各种修饰,如人名加外框,地名旁加竖线(下划线),事件名旁加波浪线,加着重点等,可以用词标签中“词装饰”(decoration)属性“意义”(signification)予以揭示,以此获取书中所有人名、地名、事件名、引用图书等。附录1 版式还原数字化与知识挖掘,介绍属性“意义”(signification)和“认同字”(异体字 variant)的用法,可用于知识挖掘。

<text>
    <decoration signification=”地名”>屯田</decoration>
<text>

参见:
TEI笔记:数字化文本的文字转录(2018-8-30)
TEI笔记:人物、机构、地点相关信息的标识(2018-9-13)

LC书目记录转换工具

远洋留言,介绍OCLC的xISBN和LC的书目记录转换工具。xISBN以前关注过,LC的这个工具却是闻所未闻:

Search LC Catalog by Standard ID
http://lcweb2.loc.gov/diglib/tools/html/searchStdNum.html
[update 2008-9-20网址改为:http://lcweb2.loc.gov:8081/cocoon/test/html/searchStdNum.html]

输入LC控制号(LCCN)、ISBN或ISSN,选择格式,即可返回相应格式的书目信息,繁简各不相同:

[owc] OpenWorldCat View (OCLC的Open WorldCat显示格式)
[marctags] MARC Tags View (MARC字段名格式)
[english] English Tags View (MARC文字说明格式)
[ser2dig] Ser2Dig MiniBib View (不明,似乎是LC所用Voyager系统的馆员用表格形式)
[srwdc] SRW Dublin Core XML Record (SRW DC XML记录)
[mods] MODS XML Record (MODS XML记录)
[none] SRU Result Set with MARC XML Record (MARC XML记录的SRU结果集,这种格式可以是多记录的)
[rss] RSS View (RSS格式,最简单的信息加链接,这种格式可以是多记录的)
[mods2rdf] RDF MODS XML Record (SIMILE version) (RDF格式的MODS记录,SIMILE版)

逐一试过,看来它是用不同的样式表来显示不同的格式(上段方括号中即样式表名称),基本句法是:
http://lcweb2.loc.gov:8081/diglib/admin/test/sru.xml?stdID=[LCCN/ISBN/ISSN]&stylesheet=[样式表名称]
(在没有样式表名称,或样式表名称有误时,显示[none]格式)

如“Information circular”一书的RSS格式(此书较旧,没有ISBN,用其LCCN号86655102):
http://lcweb2.loc.gov:8081/diglib/admin/test/sru.xml?stdID=86655102&stylesheet=rss

这应该是一种Web服务了,可以适应不同的格式要求。看URL,试验中,也没查到有关该工具的说明信息。未来会开放到什么程度?
远洋2007/11听LC书目控制未来工作组报告,第一感想是“Users不光是人,还有applications”。这就是LC面向机器用户的一个试验吧。
不过,编目员也是可用的,在没有Z39.50客户端的时候,此法查书目比用LC联机目录速度会快很多,只不知道数据是不是完整。

附:
远洋留言(发表于2008-01-23 01:08:47)
Thought you would be interested to know another tool:
It is a record conversion tool that have been developed at LC. : http://lcweb2.loc.gov/diglib/tools/html/searchStdNum.html
By typing an ISBN you would be able to see several formats for the item, including all popular ones related to MARC and MODS, as well as DC, RSS, RDF/MODS, etc.
Hope you can access it.

SIMILE: Semantic Interoperability of Metadata and Information in unLike Environments
http://simile.mit.edu/
SIMILE is focused on developing robust, open source tools that empower users to access, manage, visualize and reuse digital assets. Learn more about the SIMILE project.