平等获取信息的自由——关于《里昂宣言》

联合国千年发展目标将于2015年到期,现正开启2015年后进程。IFLA在2014年会上发布《信息获取和发展里昂宣言》,希望联合国在协商制定制订2016-2030年新的发展议程和需要实现的新目标中,能包括图书馆在各项目标中的作用,从而使图书馆发展继续得到支持。
The Lyon Declaration: On Access to Information and Development
参见建中读书:关于《里昂宣言》 (2014-08-20)。其中说“到目前为止国内还没有一家在宣言上签名”,那是八月。

12月4日联合国秘书长向会员国提交了关于2015年后日程的非正式预览版报告《到2030年通往尊严的道路》(正式报告将于12月31日以6种官方语言发行),其中包含访问信息和开放互联网。IFLA于12月10日发布了回应,并为各国图书馆组织提供了一个专门的《工具套件: 图书馆与 “联合国后2015 发展议程”》,指导图书馆组织如何在此问题上去跟负责联合国事务的政府部门沟通,以期在国家发展计划中加入图书馆信息获取战略。
The “Road to Dignity by 2030” includes access to information and an open Internet (11 December 2014)
Toolkit: Libraries and the UN post-2015 development agenda

《里昂宣言》征求图书馆签名,4个月时间签名馆[及机构]已有近500家,不过似乎仍然是“到目前为止国内还没有一家在宣言上签名”[update 刚发现宣言网址需架梯]。这个新的工具套件,在我国应该是为中图学会或者高校图工委准备的,估计我们也用不上。
中文为IFLA官方语言之一,上述IFLA文件都有中文版。很好奇翻译者是不是来自大陆。

———-《信息获取和发展里昂宣言》———-
大致看了《里昂宣言》的内容,比较敏感的大概是“基于人权的框架下”的第4条:
d) 推动和保障平等获取信息、言论自由、结社和集会自由及隐私等权利,并视之为保障公民个人独立的关键。

查了下我国现行宪法
第三十五条 中华人民共和国公民有言论、出版、集会、结社、游行、示威的自由。

相当猛的“自由”都有,还真就没有“平等获取信息”的自由。
或可以此解释为什么国内没有图书馆机构在《里昂宣言》上签字?

———-关于IFLA/FAIFE的掌故———-
2005年,IFLA的“自由获取信息和自由表达委员会”(FAIFE)曾对中国信息获取受限提出指责,引来若干国内图林大佬在IFLA-L邮件组中为现状辩护。刚查了下,相关内容在博客网上还有留存,不妨一看(IFLA-L邮件组存档中也可按篇搜索找到):
cnlibs:IFLA/FAIFE关于中国因特网信息过滤的对话(2005-07-27)

顺便暴露下自己当时的想法:听上图馆长吴建中报告(2006年4月12日)

如何快速录入古籍繁体汉字(附:推荐“汉典”)

这里所称的录入“古籍繁体汉字”,是指按古籍上的繁体汉字录入。Word有简繁转换功能,可以录入简体字后整体转换,不过不适合录入古籍汉字。因为古籍汉字异体字多,批量转换后需逐字检查对照,完全没有效率。

【输入法】目前大多数汉字输入法都带繁体字功能,录入基本繁体字不是问题(但不能录入所有):
– 拼音输入:只要在同音字中选择繁体字即可。
– 五笔输入:选择“繁体”+“大字符集”,可以输简出繁,按原来熟悉的键码录入。当然也可以按繁体拆字录入。

【异体字】录入古籍繁体汉字,最大的问题是异体字多。简体字偶然也有异体字,但大多数情况下差一笔就是不同的字,而繁体字中异体字则非常普遍。常见的异体字形式有:
字形相同或相似,笔画数不同,可能多一个构件。如:“寛”和“寬”(后者多一点),“為”和“爲”。更多可见“榨”的异体字。http://www.zdic.net/z/1c/js/69A8.htm
构件相同、字型不同。最常见的是左右型变为上下型(或反之)。比如草字头、火字底的字,如:“勳(勋)”现为左右型,古籍中更常见的是火在下面形成上下型“勲”;同样如“樵”,偶见火在下面形成上下型(U+236D1);“启”则二种字型都很常见:“啟”和“啓”。
原来是异体字,现在是不同字:“间(間)”和“闲(閒)”。
避讳字。比如清朝皇帝名,产生了一系列少笔画、少部件的避讳字,比如康熙“玄烨”,不但导致“玄”少了最后一点(U+248E5),连带着含“玄”部件的字如“弦”、“铉”、“炫”等一起少一点;嘉庆“顒琰”导致“琰”空出“炎”下面的“火”或者用“又”代替(U+2494E),因为“火(上)又(下)”(U+2418C)是“炎”的异体字;等等。

【相同字判断】古籍中还有些汉字在目前的字库中根本没有,相比空着不录入(或用拆分部件表示),以字形相近的异体字代替或许是更好的方式——好的检索系统应该能够同时检出各种异体字。只是古籍中异体字多,兼之笔画常很随意,还因为避讳刻意减少、增加笔画。如此种种,要判断到底是不同字、还是异体字,对于没有很深古文根底的人,实在是件相当困难的事。

【组合输入】如何在不认字的情况下录入繁体字?以下方法组合,可以快速达成:
1、常用输入法
1-1、五笔输入:对录入繁体字而言,五笔最大的优势除了重码少,还有可以不认字,只要照样拆字即可录入,速度有相当的保证。只是目前收录的字不够多,很多字打不出来。
1-2、部首录入(搜狗拼音):不会五笔时,用拆字法,即“u”+部件拼音。只是当拆分部件不知如何读音,就无法录入了。同时此法击键数较多,影响速度。
2、手写输入
搜狗拼音有此扩展功能,识别能力很强,可用于录入绝大多数繁体字,当然速度与键盘录入无法相提并论。当常用输入法打不出字时,可用此法作为补充。
3、汉典(详见以下“附”)
最近发现的强大网站,可以大大提高录入质量。每个字都会显示异体字等。通过“汉字拆分”及其中的部首、构件查询等,与前述手写输入结合,可以快速准确录入绝大部分汉字。
– 当笔画多或录入不易时,在此查字比手写输入速度快。
– 凡在此查不到的,可认为不存在(Unicode未收录),只能用拆分部件表示。
– 更重要的是:通过此网站,可以查到目前尚不可录入的汉字(就用不着在手写输入中反复尝试了)。如“(上)閒(下)”(U+7C21),查出有此字,但不可录入。其为“簡”的异体字,可以考虑代替录入。
– 用此网站,才知道有些看上去很相似的字,其实是不同的字。比如:“各(左)+隹(右)”=“雒”,“名(左)+隹(右)”=(U+28FC5)。后者无法录入,且没有异体字,只能用拆分部件表示(或者用Unicode码)。

【认字】关于录入,最后但其实是最重要的:认识繁体汉字,无疑可以大大加快录入速度。比如“蠶繭”,笔画多、手写输入有点慢,构件查找数笔画也难。但如果你知道就是“蚕茧”,瞬间录入有没有?至少五笔如此。

———-附:汉典———-
汉典 http://www.zdic.net:协作编写的在线汉语辞典,有汉语字典、词典等。目的:推广汉语学习,规范汉字使用。
【字典】有传统的部首索引、笔画索引等。不过最快速的查字方式则是“汉字拆分”:由部首、构件查询汉字。
汉字拆分有12种字形,如上下、左右、包围等;部首、构件查询不限所在位置,按笔画列出,相当灵活。
网站做得相当好,可以由查询结果链接到该字。每个汉字列有拼音、异体字、统一码(unicode)等,以及基本解释(含字义、广韵、方言等)、详细解释、康熙字典、说文解字、字源字形、网友讨论(论坛)。
基本用法:
1、通过查询快速找到复杂繁体字
– 选择“汉字拆分”,按字形,通过汉字构件拼合查询(如:各+隹)。
– 在“汉字拆分”中,选择(或输入)部首(或构件)查询后,会按笔画数显示所有含该部首(或构件)的字,尤其适用于字形复杂、某些构件无法录入、因而不能通过“汉字拆分”查找的情况。
2、验证是否可以录入该字。有些字可以查到,但只有图形,无法录入,或可用标示的“统一码”代替。
3、无法录入时,或可以根据找到的汉字,在列出的异体字中,用构造相近的字代替。
4、查不到的汉字,只能通过拆分部件表示。

1923年前外文期刊:免费访问、批量下载、文本挖掘

关于JSTOR早期期刊内容(Early Journal Content, EJC

——包括美国1923年前、其他国家1870年前出版的期刊,于2011年9月6日开始提供世界范围的免费访问,并随着数字化的完成不断增加。
学科包括艺术人文、经济政治、数学和其他科学。
这批数据占JSTOR内容的6%。

——最近,JSTOR把这批350种期刊共45万篇文章提供给了互联网档案(IA),现在也可以通过IA访问

——这批数据共2T,还可以通过JSTOR或IA批量下载、收割
JSTOR:EJC介绍
IA:Downloading in bulk using wget

——JSTOR同时提供全文OCR及文章元数据的批量下载,供文本挖掘和分析研究使用。
目前压缩数据1.7GB,解压后7.5GB。
EJC数据集:Early Journal Content Data Bundle

via Internet Archive Blogs: 450,000 Early Journal Articles Now Available (2013-4-11)

P.S. 联想或感想二则:
1、一月去世的Aaron Swartz,为IA工作,另因批量下载JSTOR数据而面临牢狱之灾。这是它们之间的一种和解么?
2、老外做研究条件就是好,大量免费数据可用,阅读、使用之外,还可以挖掘、研究。