日志标签 ‘乱花迷眼’

国家数字图书馆标准规范建设

2008年9月26日
    《数字图书馆论坛》2008年第8期,是为配合9月9日国家图书馆建馆99年、国家图书馆二期暨国家数字图书馆开馆而出的“国家数字图书馆工程专刊”,十篇文章都是宏大叙事。自己感兴趣的是“国家数字图书馆标准规范建设”(赵悦、申晓娟,p.37-42)。

    在做数字化相关工作前,除了都柏林核心,对相关标准几乎一无所知。后来先看网上的“中国数字图书馆标准与规范建设”,再看厚厚一大本的《中国高等教育数字图书馆技术标准与规范》,最后看CADAL的技术规范。基本上到哪个山头唱哪个歌,跟着参与项目的要求走。现在要出现第四个重量级的标准规范了,今后可以挑先前几个项目中没有的规范跟着走了。

3 国家数字图书馆工程标准规范建设规划
3.1 建设目标
(2)立足于国内外已有标准规范成果,为国内其他数字图书馆系统建设提供指导性、示范性规范,并力争使国家数字图书馆工程中采用或研制的成熟标准规范转化为国家标准,从而促进全国数字图书馆建设的标准化进程。
3.2 建设原则
(1)优先选择成熟标准
(2)开放建设原则:全部采用公开招标;成果广泛征求机构及专家意见
(3)核心建设原则
(4)注重应用原则
3.3 建设类型
(1)遵循标准类:ISO 10646(Unicode),GB18030《信息交换用汉字编码字符集基本集的扩充》,OAI-PMH,ISO 15836(DC),MARC等
(2)参考标准类:ISO 14721(OAIS)
(3)待建标准类
(4)修订标准类

4.2 标准规范建设核心内容 / 表1 国家数字图书馆工程标准规范建设项目一览表
项目:汉字处理规范
  汉字属性字典(委托中华书局研制)
  中文文献全文版式还原与全文输入XML规范(委托中易公司研制)
  古籍用字规范(计算机用字标准)(委托中华书局研制)
  计算机中文信息处理规范(委托中易公司研制)
  生僻字、避讳字处理规范(委托中华书局研制)
项目:唯一标识符
  国家图书馆数字资源唯一标识符规范(委托中科院文献情报中心研制)
项目:对象数据
  国家图书馆数字资源对象管理规范
  文本、图像、音频、视频数据加工标准与工作规范
项目:元数据总则
  国家图书馆元数据应用规范
  国家图书馆核心元数据标准
  国家图书馆专门元数据设计规范
  CNMARC XML [期待这个]
  CNMARC-DC-国家图书馆核心元数据集的对照转换  [上图早在2001年就做了CNMARC-DC的对照转换]
  MARC21-DC-国家图书馆核心元数据集的对照转换
项目:专门元数据规范──古文献
  专门元数据标准与著录规范──拓片、舆图、甲骨、古籍、家谱
项目:专门元数据规范──电子书刊
  专门元数据标准与著录规范──电子图书、电子连续性资源、学位论文、期刊论文
项目:专门元数据规范──网络及多媒体资源
  专门元数据标准与著录规范──网络资源、音频、视频、图像
项目:管理元数据
  国家图书馆管理元数据规范
项目:知识组织
  知识组织规范
项目:资源统计
  数字资源统计标准
项目:长期保存
  国家图书馆数字资源长期保存规范

    对于国图标准规范建设的某些方面,CDLS显然有异议。其官方网站首页有2008年5月26日的“《我国数字图书馆标准与规范建设》成果应用要求”,看着耐人寻味:“任何机构在研究或应用中利用本项目成果时,必须保护国家对于本项目成果的完整权利,必须保证不以任何形式将国家拥有和开放获取的本项目成果转移为任何机构或个人专属的成果,必须保证利用本项目成果生成的新成果中所包含的本项目成果内容的国家权属和开放获取,必须保证项目组和项目成果完成作者的合法权益(包括但不限于署名权)。参加本项目研究的任何机构或个人也都无权将本项目成果转让给任何第三方。”

相关链接:
国家图书馆:中国数字图书馆工程(China Digital Library Project)
    [update 2008-10-27] 国家数字图书馆工程标准规范规范质询
《我国数字图书馆标准与规范建设》项目(Chinese Digital Library Standards, CDLS)

 
 
[update 2008-10-27]
国家图书馆数字资源唯一标识符规范公开质询
公开质询时间:2008年10月25日——11月7日
公开质询内容:1.国家图书馆唯一标识符规范
                   2.国家图书馆唯一标识符规范应用指南
国家数字图书馆工程标准规范项目成果公开质询征求意见单

 

《末日审判书》的末日

2008年9月21日

    1986年,英国广播公司(BBC)花了250万英镑为《末日审判书》制造了一个多媒体的计算机软件复制品。《末日审判书》是11世纪诺曼僧侣编制的英国统计资料。电子《末日审判书》内容超过了真本,包括了25万个地名,2.5万张地图,5万张图片,3000套资料,60分钟电影,外加几十份《英国生活》的说明。参加这个工程的超过100万人。资料储存在12英寸的光盘上,只有BBC的特殊计算机才能显示处理。16年过去了,2002年3月,有人想用同样的计算机来阅读光盘上的资料,却没有成功。接着又试了许多办法,没有一个是完全成功的。兰德公司的杰夫·罗森贝格(Jeff Rothenberg)是资料保存的世界级专家,被请去协助解决问题。他说:“当前还没有明显有效的技术解决问题。然而,如果问题不能解决,我们日益增加的数码资产就有丧失的严重危险。”相比之下,《末日审判书》的原件已经有1000千寿命了,它写在纸上,保存在丘市(Kew)的公共档案局里,状况良好,完全适于阅读。
    2004年11月,美国国家档案记录局电子档案处的处长公开承认,将电子资料保存10年以上(更不用说永远保存),“仍然是全球性难题。各大国政府,大公司,以至个人都解决不了。” [出处:Katie Hafner, "Memories on Computers May Be Lost to Time", in The International Herald Tribune (Paris, 28 Nov. 2004)]

──《夜晚的书斋》(p.68-71)

    对“数字黑洞”已经不像当初那样战战惊惊,但看到实例,还是想记下来。虽然书中所说参加工程人数超过100万似乎不太可信(人均工资2.5英镑?),但主要事实应该没有疑问。

图书扫描机器人(续)

2008年8月12日

    IT小兵留言说,Google用的扫描机器人有汽车那么大。很想找来看看是什么样的,但没有找到。倒是找到了曾为微软图书扫描计划所用的Kirtas公司的图书扫描仪,据称也可达每小时2400页(Kirtas Book Scanner)。使用这种扫描仪,才有可能出现传说中的手指印,或许Google所用的也与之差不多吧。

Kirtas Book Scanner

    从视频看,是模拟手工翻页方式。逐页翻开后双页扫描,书页打开约120度。 

 

    另一款RAE-1 Automatic Book Scanner,不知是佐治亚理工学院做的还是用的 。以模拟手工方式逐页翻开,用数码相机抓取页面,书页打开约150度。翻页噪声较大、扫描速度相对较慢(每小时360页)。优点是价格比较便宜。

 
update: 2008-8-13 感谢IT小兵提供信息,Google所用乃瑞士4DigitalBooks公司产品。现在其网站声称最快每小时可达3000页,真是世界之最(World Top Productivity)了。看它如何翻页(据称用气垫air cushion),似乎不容放手啊:

这是Digitizing Line系列中最快的DL-3000,外观尺寸长、宽、高为3.1 x 1.5 x 2.2 m,还真是辆小轿车,更高些:

图书扫描机器人

2008年8月11日

    早就听说Google大规模数字化图书馆图书用的是自动翻页的扫描仪,对图书的损害小,但不知道自动翻页如何实现。此次在ImageWare公司看到德国奥地利Treventus公司的图书扫描机器人(Bookscanner ScanRobot)视频,才算弄清其机理──将扫描头插入书页中,采用吸的方法,同时扫描相对的两页,完成后翻页。

    这是在YouTube上找到的当时的演示视频。书只需打开到60度,而对于软封面图书,需要加硬板特别固定。

    在YouTube用Scanrobot查,还找到三个视频。下面这个在Treventus公司网站上也有,可以根据厚度调节书脊宽度,据称最高扫描速度可达每小时2400页。

    Treventus公司网站上还有介绍及若干照片。以下是其中之一。
ScanRobot
 
update 2008-8-12: ScanRobot [TM] 已出现多年,最早获奖是2005年12月的Genius Innovation Award 2005 第一名(见自公司宣传资料)。

WalkUp自助扫描站

2008年8月11日

    Ted曾经介绍过一款自助扫描器,即Digital Library Systems Group的KIC II,读者可以在扫描后,把文件存入U盘、发送电子邮件、打印或者通过FTP发送等。这款产品采用的扫描仪是德国ImageWare公司Bookeye。
    前些日子去ImageWare公司访问,得知KIC II是Image Access公司在美国销售Bookeye时包装推出的产品,而ImageWare公司自己推出的自助扫描站称为Bookeye 2 WalkUp Scan Station

        设备:Bookeye 2扫描仪(A2幅面,面板上有USB接口)、触摸屏,可以另配读卡器(用于自助服务收费)
        输出功能:USB、电子邮件、Web服务器发布、网络传送、打印
        软件:WalkUp,是其原来的扫描软件BCS-2的触摸屏简化版
        输出文件格式:PDF、JPEG、TIFF
    扫描仪有灰度和彩色两种选项。实际上Bookeye扫描仪都有彩色扫描功能,由软件控制是否能够输出彩色图像。所以如果先买了灰度的,以后觉得需要彩色的,可以再花钱升级软件。

    从ImageWare公司提供的资料上看,自助扫描站在2006年已有实例。柏林Free University的语言学图书馆(Philological Library)在新馆4层共配备了8台扫描站(Bookeye Scanstation),供读者使用,通过读卡器,可以直接打印,也可发送邮件。自助扫描站是灰度扫描仪,另有一台彩色扫描站在服务点(由馆员操作吧)(见:Information Wissenschaft und Praxis (ISSN 1434-4653) Juli/August 2006)。
    从资料照片看,当时用的软件就是BCS-2,可见一般配置的Bookeye也可以用于自助扫描。据说华南师大买了两台Bookeye 3彩色扫描仪(A1幅面),也就是让读者自助扫描用的。

    自助扫描站代替自助复印,大致优点有:扫描速度快、方便(不必将书正面向下)、节省纸墨(不一定需要打印)、可做后续图像处理(尤其对需要彩色图片的读者)。
    价格,就不好说了。尤其现在自助复印可以采用租用方式,而自助扫描尚无此种商业模式。