IFLA的“数字对象元数据工作组”

    为应对日益增加的数字出版物的编目工作,国际图联编目组在2005年成立了“数字文本文献书目标准工作组”(Working Group on a Bibliographic Standard for Digital Text Documents),2006年该工作组改名“数字文本文献书目建议工作组”(Working Group on Bibliographic Recommendations for Digital Text Documents),2007年再次改为“数字对象元数据工作组”(Working Group on Metadata for Digital Objects)。工作组计划在2008年IFLA加拿大魁北克年会前提交最终报告,作为编目指导委员会在年会上的一项活动。
    名称的不断更改,体现着工作组应对形势变化而对工作目标的改变:1、从文本型数字对象扩大到任意数字对象;2,从狭义的书目扩大到广义的元数据(也从图书馆扩大到了更广阔的领域);3、从强势的标准转为较温和的建议、指南。真是一年一个样,三年大变样。

工作组主要任务(Charge)
    为需要创建、共享与管理元数据者推荐一份指南,包括元素、工具、格式、协议。
基于以下原则开展工作:该指南是高层次的指南,意即[方括号后为本人理解]:
* 应当作为语义映射的轴心(a pivot for semantic mapping),也即作为一部数据元素词典,不同的社区可以映射他们自己的书目数据集
* 应当作为关于如何在文本文件中处理书目数据的指南[应当是纯文本数据]
* 不应当预设任何特定的标记系统[MARC也罢、XML也罢],但
* 应当作为一个针对可能采用的不同标记系统的模型,并且
* 应当适用于最通用的文本编辑程序
* 应当定义一个属性集,包括如语言、字体、大写规则等(language, script, capitalisation practice)[?],以方便进一步处理

    小组已经召开了三次会议,但没有关于这份指南的更详细信息,可能要到2008年3月第四次会议以后,才能看到草案。

    目前小组成员均来自欧洲:丹麦(主席)、法国、瑞典、荷兰、挪威。2006年时还有一位代表IT组的中国人(张智雄),据称由于未提出任何建议而不再作为成员。

参见:
IFLA. Cataloguing Section. Working Group on Metadata for Digital Objects

第一次会议:2006/8/23,韩国首尔第72届IFLA年会期间(会议报告
第二次会议:2007/2,丹麦哥本哈根(?)
第三次会议:2007/8,南非德班第73届IFLA年会期间(会议报告
第四次会议:2008/3/17-19,法国巴黎

26个俄文字母

    作家林希在《中华读书报》上撰文《“文盲”逛书展》,介绍莫斯科书展。文首道,“只认识26个俄文字母,一句俄国话不会说,居然大摇大摆地逛了莫斯科第20届书展,说起来也是有些荒唐了。”
    书展收录了林希的一篇小说,别人指给他看俄文拼音的作者名字,他看出来了。后来又去看经典作品展台,以他“仅有的俄文水平,看明白封面上印着艾赫玛拖夫,帕斯捷尔那克和俄罗斯古典文学作家的名字”。

    嗯,看来“文盲”是自谦了。只是,他不认识的是哪几个字母呢?


原文见:“文盲”逛书展 / 林希 《中华读书报》2007年10月17日 第7版

[update 2009-10-3] 完整的俄文字母表参见:/posts/20091003202356.html

国家图书馆民国期刊全文下载方法

几个月前,一位网友在“电子版民国图书和期刊”下留言,询问如何使用FlashGet下载国图民国期刊。在解答了 FlashGet 问题之后,通过与之多次e-mail交流,又解决了文件格式问题,并且由此了解到了下载链接、最佳阅读软件,掌握了全文下载的各个环节。应该说,我固然帮ta解决了问题,但我从ta那儿获得的更多。

事情完后,我并没有打算把下载方法写成博文。因为对我来说,那似乎是个禁忌──自己也做这个行当,知道图书馆在多种选项中确定逐页浏览的目的就是不希望全文下载。就我而言,主要是担心下载后电子书的去向不可预知,因为中国的互联网最不缺的就是强盗小偷。
自然也明白,自己不过是一只鸵鸟,把头埋进沙堆,好象问题就不存在了。其实在图书馆之外的社区,有很多检索高手,他们可以解决惯用高价数据库的图书馆人难以想像的问题──以前bujai就曾多次谈起,而此次我得以掌握下载方法,也全赖网友提供的相关信息。

但事情并没有就这样过去。前两天,又一位网友来信,询问如何批量下载国图民国期刊。思之良久,决定把详细步骤告诉他以后,写成此文,广而告之。一方面,需要下载民国期刊的人,绝大部分都是些研究者,为他们提供方便,对图书馆也是天经地义的事。另一方面,所谓道高一尺、魔高一丈,如果国图方面认为这是个需要弥补的漏洞,也好让他们知道大门早已洞开,赶紧想法堵上吧!

(update 2007-12-1:
请慎用此法。反精灵留言:“您这是害人呵!国图有防恶意下载的措施,凡是恶意下载,会被封ID的。”)

(update 2008-9-12:
国家图书馆二期开馆,网站改版,民国专栏的图书、期刊、法律文献一律改用PDF方式阅读,以下方法失效!)

国图民国期刊整册下载方法

先在国家图书馆民国期刊网站下载专用阅读器NLCReader后安装,然后“检索”到自己所需期刊。接下来的全文下载步骤如下:

1、先获取各页面的URL
使用阅读器打开所需卷期(单册),点击菜单"章节"后,侧栏会出现章节目录。任意选择一个,用鼠标右键获取页面链接(复制快捷方式)。以《通商海关华洋贸易全年总册》为例,第一册“1905年1904卷”的某个链接为:
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4001400
则此册首页的链接为:
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4000100
阅读器右下角有总页数22,据此,末页链接为:
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id=00J0027650001&section=Data&pid=4002200

2、用网际快车软件(flashget)批量下载
运行FLASHGET,在"任务"菜单中"添加成批任务",按示例做。以上面的链接为例,在URL部分输入:
http://res1.nlc.gov.cn:9080/dob/servlet/getPart?id= 00J0027650001&section=Data&pid=400(*)00
然后设定从01到22,通配符长度为2(2位数字),然后按"确定"就OK了。如果总页数为3位数(如125),则最后部分改为40(*)00,然后设定从001到125,通配符长度为3。

3、使用XNview浏览、打印
下载后的页面是JBG格式的文件。下载后文件名为getpart(*)(*为数字),没有扩展名,需要将文件扩展名改为.jbg。
有几种软件可以浏览JBG格式的文件。如果采用XNview,可以只改第一个文件后缀,然后采用前后翻页的方法看各页并打印。
由于各页文件名都是getpart,批量下载时以下载完成先后加后续数字,所以实际上浏览时的顺序与原刊不同。如果看打印稿,可以在打印后,按页面标示的页码重新理一下顺序;如果看电子稿,可根据实际顺序重新命名文件。如果不幸碰到一册中多段标页的情况(在民国期刊中也不少见),就没有办法了。要保证准确,或许只能逐页核对(那与非整册下载也没多大差别了)。

参见:
卓虎学术:绝对可用的中国数字图书馆入口及其下载方法