国家数字图书馆标准规范建设

    《数字图书馆论坛》2008年第8期,是为配合9月9日国家图书馆建馆99年、国家图书馆二期暨国家数字图书馆开馆而出的“国家数字图书馆工程专刊”,十篇文章都是宏大叙事。自己感兴趣的是“国家数字图书馆标准规范建设”(赵悦、申晓娟,p.37-42)。

    在做数字化相关工作前,除了都柏林核心,对相关标准几乎一无所知。后来先看网上的“中国数字图书馆标准与规范建设”,再看厚厚一大本的《中国高等教育数字图书馆技术标准与规范》,最后看CADAL的技术规范。基本上到哪个山头唱哪个歌,跟着参与项目的要求走。现在要出现第四个重量级的标准规范了,今后可以挑先前几个项目中没有的规范跟着走了。

3 国家数字图书馆工程标准规范建设规划
3.1 建设目标
(2)立足于国内外已有标准规范成果,为国内其他数字图书馆系统建设提供指导性、示范性规范,并力争使国家数字图书馆工程中采用或研制的成熟标准规范转化为国家标准,从而促进全国数字图书馆建设的标准化进程。
3.2 建设原则
(1)优先选择成熟标准
(2)开放建设原则:全部采用公开招标;成果广泛征求机构及专家意见
(3)核心建设原则
(4)注重应用原则
3.3 建设类型
(1)遵循标准类:ISO 10646(Unicode),GB18030《信息交换用汉字编码字符集基本集的扩充》,OAI-PMH,ISO 15836(DC),MARC等
(2)参考标准类:ISO 14721(OAIS)
(3)待建标准类
(4)修订标准类

4.2 标准规范建设核心内容 / 表1 国家数字图书馆工程标准规范建设项目一览表
项目:汉字处理规范
  汉字属性字典(委托中华书局研制)
  中文文献全文版式还原与全文输入XML规范(委托中易公司研制)
  古籍用字规范(计算机用字标准)(委托中华书局研制)
  计算机中文信息处理规范(委托中易公司研制)
  生僻字、避讳字处理规范(委托中华书局研制)
项目:唯一标识符
  国家图书馆数字资源唯一标识符规范(委托中科院文献情报中心研制)
项目:对象数据
  国家图书馆数字资源对象管理规范
  文本、图像、音频、视频数据加工标准与工作规范
项目:元数据总则
  国家图书馆元数据应用规范
  国家图书馆核心元数据标准
  国家图书馆专门元数据设计规范
  CNMARC XML [期待这个]
  CNMARC-DC-国家图书馆核心元数据集的对照转换  [上图早在2001年就做了CNMARC-DC的对照转换]
  MARC21-DC-国家图书馆核心元数据集的对照转换
项目:专门元数据规范──古文献
  专门元数据标准与著录规范──拓片、舆图、甲骨、古籍、家谱
项目:专门元数据规范──电子书刊
  专门元数据标准与著录规范──电子图书、电子连续性资源、学位论文、期刊论文
项目:专门元数据规范──网络及多媒体资源
  专门元数据标准与著录规范──网络资源、音频、视频、图像
项目:管理元数据
  国家图书馆管理元数据规范
项目:知识组织
  知识组织规范
项目:资源统计
  数字资源统计标准
项目:长期保存
  国家图书馆数字资源长期保存规范

    对于国图标准规范建设的某些方面,CDLS显然有异议。其官方网站首页有2008年5月26日的“《我国数字图书馆标准与规范建设》成果应用要求”,看着耐人寻味:“任何机构在研究或应用中利用本项目成果时,必须保护国家对于本项目成果的完整权利,必须保证不以任何形式将国家拥有和开放获取的本项目成果转移为任何机构或个人专属的成果,必须保证利用本项目成果生成的新成果中所包含的本项目成果内容的国家权属和开放获取,必须保证项目组和项目成果完成作者的合法权益(包括但不限于署名权)。参加本项目研究的任何机构或个人也都无权将本项目成果转让给任何第三方。”

相关链接:
国家图书馆:中国数字图书馆工程(China Digital Library Project)
    [update 2008-10-27] 国家数字图书馆工程标准规范规范质询
《我国数字图书馆标准与规范建设》项目(Chinese Digital Library Standards, CDLS)

 
 
[update 2008-10-27]
国家图书馆数字资源唯一标识符规范公开质询
公开质询时间:2008年10月25日——11月7日
公开质询内容:1.国家图书馆唯一标识符规范
                   2.国家图书馆唯一标识符规范应用指南
国家数字图书馆工程标准规范项目成果公开质询征求意见单

 

《末日审判书》的末日

    1986年,英国广播公司(BBC)花了250万英镑为《末日审判书》制造了一个多媒体的计算机软件复制品。《末日审判书》是11世纪诺曼僧侣编制的英国统计资料。电子《末日审判书》内容超过了真本,包括了25万个地名,2.5万张地图,5万张图片,3000套资料,60分钟电影,外加几十份《英国生活》的说明。参加这个工程的超过100万人。资料储存在12英寸的光盘上,只有BBC的特殊计算机才能显示处理。16年过去了,2002年3月,有人想用同样的计算机来阅读光盘上的资料,却没有成功。接着又试了许多办法,没有一个是完全成功的。兰德公司的杰夫·罗森贝格(Jeff Rothenberg)是资料保存的世界级专家,被请去协助解决问题。他说:“当前还没有明显有效的技术解决问题。然而,如果问题不能解决,我们日益增加的数码资产就有丧失的严重危险。”相比之下,《末日审判书》的原件已经有1000千寿命了,它写在纸上,保存在丘市(Kew)的公共档案局里,状况良好,完全适于阅读。
    2004年11月,美国国家档案记录局电子档案处的处长公开承认,将电子资料保存10年以上(更不用说永远保存),“仍然是全球性难题。各大国政府,大公司,以至个人都解决不了。” [出处:Katie Hafner, "Memories on Computers May Be Lost to Time", in The International Herald Tribune (Paris, 28 Nov. 2004)]

──《夜晚的书斋》(p.68-71)

    对“数字黑洞”已经不像当初那样战战惊惊,但看到实例,还是想记下来。虽然书中所说参加工程人数超过100万似乎不太可信(人均工资2.5英镑?),但主要事实应该没有疑问。

全球数字图书馆(百万册图书项目)中国站点

    外出一周,今天回家。看博文留言,重又看到了去年12月19日ZZ在“百万图书”项目(CADAL)相关信息下的留言:“整个UDL项目现在是又153万册左右数字图书,其中中国100多万,印度33万,还有埃及的几万。大部分英文图书还没有解决版权问题。中国古籍已经解决。CADAL, ULIB.cn等的关系是, CADAL位于浙大,主要负责中文图书数字化,是ULIB中国南方技术中心,www.cadal.edu.cn也是一个提供比较完整的检索和发布平台,是真的可以实用化的,从这一点讲,CMU的主站都做不到;但CADAL站点主要只有中文图书。而www.ulib.org.cn经过多次改版,已经提供了所有153册图书的镜像检索,涵盖了所有数据,并拥有北方中心15万册英文图书的全文检索系统、插图检索系统和知识网络系统,ulib.org.cn现在可提供所有版权允许的图书的访问。”
    去年11月本馆网站改版后向所有读者介绍CADAL的民国电子书,偶有访问不了的情况发生时,读者比较着急,并且在教育网外,CADAL访问速度极慢,所以想看看介绍中的百万册图书的UDL中国网站,或可与CADAL交替使用。[update: 来自CADAL的消息:因民国文献还有部分处于版权保护期,应作者或权利继承人要求,自2008.7.16起,民国文献全文不对公共网开放服务]

    全球数字图书馆中国站点(http://www.ulib.org.cn/zh-CN/)由中国科学院研究生院主办,看来知者不多。版权日期2003-2008,但至今日的网站访问统计数仅为:
首页访问: 1531
浏览次数: 5850
网站访问: 1101

    首页下有“百万册图书搜索:实验系统”,包括三种检索方式:
· IQuery 2.0 BETA:一种新颖的电子图书检索系统,支持多粒度电子图书检索与多侧面导航。
搜索范围可选择全文、章节、主题、题名或多粒度(all的专业术语?)。
搜索中栏为带图书封面的书目信息摘要;
左栏显示多层主题分面(含命中数):
  Composite subject 主题
  General subfield 一般子类
  People 人物
  Time 时代
  Place 地点
  Form of reservation 体裁
  Source of topic words 主题词来源
  Other subject 其他主题
右栏显示可扩展检索词(按相关度?),且可按可视化方式显示(更改浏览器安全设置后仍没有安装成功)。
· Illustrator:拥有870万张插图超大数据集的语义插图检索系统。
查询速度很快,可惜访问结果都是HTTP Status 404,图像说明都是not available。
· Knowmap:一个基于主题词网络的电子图书可视化导航与检索系统。需要Java插件。

    以上都是研究成果展示(网页下有研发者姓名)。不过因为自己太菜,需要的插件都没有安装成功,所以可视化的部分看不到。不过这没关系,现阶段我只需要最基本的检索功能(ULIB检索),因为我最关心的是能不能看全文,可否以此作为CADAL网站的备用──可惜,好象也不行。
    在帮助页,提示要显示DjVu图像,需从lizardtech下载免费插件 exview_setup.exe(7.9MB);在下载页给出的是其本地提供的DJVU浏览器(DjVuWebBrowserPlugin.exe)。后者与CADAL网站上的一样,本机原已安装,但看不到内容显示;安装前者后,仍看不到页面内容。我使用IE 7.0和Firefox 2.0。
    FAQ中说,如果需要整本下载,可以把书名告知help@ulib.org,然后会得到一个带下载说明的图书链接。这对很多读者来说是个不错的解决方案──不知道是不是真管用?现在假期中,开学后记得一试。