联合国教科文组织数字档案馆

联合国教科文组织(UNESCO)数字档案馆,题为“数字化我们共同的UNESCO历史”(DIGITIZING OUR SHARED UNESCO HISTORY),如副标题“守护和促进教科文组织文献遗产的项目”(Project for safeguarding and promoting UNESCO’s documentary heritage),是对未收录于UNESDOC数字图书馆的UNESCO早年文献进行数字化保存并提供访问的项目。早年文献原以纸质文档、录像带、录音带、照片等物理方式保存。目前有5个馆藏:

一、IICI档案(国际智力合作研究所档案):4,661件(772,800图片)

  • IICI是国际联盟(国联,1920-1946年间与联合国相当的国际组织)国际智力合作委员会的常设秘书处,旨在促进科学家、研究人员、教师、艺术家和其他知识分子之间的国际文化/知识交流。IICI档案是两次世界大战之间主要知识分子国际合作的宝贵知识来源,其中包括爱因斯坦、居里夫人、姉崎正治、加夫列拉·米斯特拉尔、塔哈·侯赛因、泰戈尔和托马斯·曼。该研究所的档案资料于2017年列入联合国教科文组织世界记忆名录(Memory of the World Register)。
  • 1946年,其财产与档案由UNESCO继承。UNESCO档案馆AtoM目录中有规范记录,包括IICI的详细信息。

二、管理文档(教科文组织大会和执行局文件):目前14,571件(占全部560,000图片的57%)

  • 1940年代后期和1950年代教科文组织大会和执行局的文件,之后文档在:UNESDOC数字图书馆

三、电影和录像:206件

  • 16毫米胶卷电影,涵盖1940年代末期到1970年代联合国教科文组织的广泛活动,其中包括《所有可能学到的东西》(1949年)、《你与人权》(1950年)、《努比亚的宝藏》(1960年)和《地球的太阳》(1971年)。
  • UMATIC盒式磁带录像,1980年代开始的30小时的视频节目,包括“和平小提琴”、“只有一个地球”、“沙漠人”和“联合国教科文组织世界公共新闻”。估计还有2000个视频未处理。

四、录音:6,909件,8000小时

  • 历史录音集,包括1940年代末至1980年代UNESCO广播电台的报道,及其他独特的节目、访谈和录音,涵盖UNESCO活动的主要领域,被翻译成多种语言,并以“人民对人民说话”的口号向世界广播。

五、照片:5,048件(含照片说明,共10,177图片)

  • 展示1945年至今教科文组织活动的丰富和广度。记录联合国教科文组织分水岭时刻的精彩照片,例如“保护威尼斯市运动”和“保存努比亚古迹运动”为首次在网上发布。主题包括基础教育、青年、新闻、太空探索、海洋学以及其他反映联合国教科文组织机构记忆的内容。
  • 馆藏估计有170,000张照片,包括印刷品、底片和幻灯片。目前的5000多张照片是平衡了地理、文化和时间顺序多样性、并确保覆盖所有主要计划领域为标准,从印刷品子集中精选出来的。

近期新上线的是5000多件录音。从上述说明可知,管理文档、录像、照片都还有很多未数字化。

值得注意的是,在录音介绍中特别加上了“文化敏感性免责声明”,反映二战以来存在的用语变化:网站上可能存在包含文字和描述的内容和元数据,可能具有文化敏感性,在某些公共或社区环境中通常不可用。反映作者的态度或创建项目的时期的术语和注释在今天可能被认为是不合适的。

如需使用数字档案馆中资源,须特别注意其使用条款,在每条元数据的最后有链接。概而言之是三条:一复制内容需要书面许可,二不得保存内容及元数据到数字资产管理系统或数据库,三有法定豁免或合理使用。

—— 元数据 ——

看元数据,过于简单,且不同类型馆藏的类似字段名各异。大多只有题名、日期(IICI档案、录音称Date,视频称Year),有些有主题、描述(录音/录像称Themes/series、Description,电影称ID Theme、Subtheme、Country)。

几个馆藏的说明中提到了元数据问题:是从纸质清单和旧数据库中提取的,在某些情况下会丢失重要信息如日期等。照片背面的说明等在数字化图片中可以看到。

元数据最下面有反馈按钮(Add reaction)可以提供反馈。他们还将对照片启动一个众包子项目,目的是转录字幕,并丰富和标准化照片元数据。这将为照片添加背景,并使搜索更加轻松。

附:又一次发现自己手黑,竟然随便点一个查找结果(China),就发现了元数据错误:ONLY ONE EARTH – CHENGING FACE OF CHINA。显然应该是“Changing …”,于是使用了一次反馈功能。

这是一个1980年代四川农村制衣小企业的故事,业主李广铭[音]本身是个川剧丑旦。片中3次出现费孝通讲话,关于个体户经营,分别在8’56”-9’35″、16’10”-16’45″和23’14”-23’59″。元数据如果能揭示出这些信息,视频的有用性将大大提升——目前本条元数据对内容的揭示只有:ID Theme EN:Social Sciences;Subtheme EN:Nature;Country EN:China(以下英语主题,另有相应法语主题)。视频本身有部分字幕,应该可以用技术方法提取。

电子资源的开放知识库:GOKb和KB+

这里的“知识库”特指电子资源数据库中包含的title list,含各title的基本信息(如起讫时间、访问网址)。title可以是期刊(不含刊载的论文),也可以是图书。由于数据库商可能在不同国家为不同机构提供定制(如英国的JISC、国内的DRAA),因而同一厂商的同一数据库,会有很多大同小异的包,甚至有可能title的访问网址也不相同。

知识库是电子资源一站式查询、跨库检索或发现系统的基础。为避免重复工作,英美有机构提供统一维护或开放的知识库。以下GOKb和KB+均以CC0许可提供数据库包信息下载,这意味着可以不加引用地任意使用。

GOKb : Global Open Knowledgebase 全球开放知识库
由社区维护的开放数据平台,持续更新中。目前收录title超过179万、442数据包,可通过API使用,或者免费注册后浏览与下载。下载格式 TSV 或 KBART。未来打算发布为关联数据,通过SPARQL使用。

KB+ : KnowledgeBase +
KB+向 UK Access Management Federation 成员提供在线服务。知识库由JISC员工集中维护,向机构提供订购电子资源管理相关的数据。KB+中很多数据以CC0许可提供公开下载。现有1445个收录资源不等的包,下载格式 CSV、XML、JSON 或 KBART II。

这两个项目的背后,都由Knowledge Integration Ltd(知识集成公司)提供软件开发支持。公司网站对GOKb的介绍称其2012年上线,由Kuali OLE 和 Jisc 共同承担,得到安德鲁梅隆基金部分资助,北卡州立大学领导。

附:中科院文献情报中心 联合目录集成服务系统:电子资源知识库(2009年)
电子资源知识库获中国科学院文献情报中心项目支持,2008年5月启动,2009年4月投入使用。联合目录数据库建立的电子资源知识库是基于联合目录,针对联盟图书馆和多分馆系统的知识库,支持成员馆电子资源的集成、动态更新和动态发布。由于电子资源知识库的支持,联合目录集成服务系统通过独特的情景敏感链接和印本资源、电子资源的集成揭示,可以使用户方便地获取许可电子资源的全文,同时了解中国科学院所属图书馆关于该资源印本和电子的收藏情况,及国内400余家图书馆关于该资源印本的收藏情况。
目前电子资源知识库存储着来自300余家出版社的9,000余种电子期刊的描述信息和链接信息,近60万条电子期刊馆藏信息(包括年卷期);150余个数据库(包括Elsevier、Springer、Wiley-Blackwell、IEL、ACS等重要的全文数据库和文摘数据库、工具型数据库、数值/事实/指标数据库、多媒体/数字音乐数据库等)的描述信息和链接信息;开放获取数据库和期刊的描述信息和链接信息。联合目录数据库将集成院外电子资源,电子资源知识库中存储的数据还将进一步增加。

《晚清期刊全文库(1833-1910)》试用记

前些日子走过图书馆大厅,看到《晚清期刊全文库(1833-1910)》的广告,很有兴趣,《全国报刊索引》终于推出全文数据库了。
今天得知镜像版安装完成,马上试用,界面就是《全国报刊索引》电子版。
1、检索条件:完全沿用《全国报刊索引》,所以部分字段(如作者单位、基金项目、主题词)完全虚设。可以全字段检索。没有全文检索。
摘要:能查出相当多的结果,由于检索结果细览中没有显示摘要,所以不清楚摘要与全文间的关系──晚清期刊中应该不会包括文摘吧?难道是人工标引的?
分类号:从检索结果看,大多数文章都没有分类号,实际检索的是期刊的分类号(部分期刊入多个类),对文章而言没有检索价值。
2、检索方式:除“在结果中检索”外,还有“在结果中添加”、“在结果中去除”,尤其是后者,在精确检索中会很有用。
3、检索结果一览:检索词高亮显示,题名、作者、刊名有超链接,进一步检索很方便。可勾选“添加到导出列表”,便于保存检索结果。可直接下载PDF全文[扫描图像],这是比较赞的设计。
4、检索结果侧栏分面:文献来源、年份,有分布饼图。缺省显示10个,可扩展至最多30个。便于缩检。
5、检索结果细览:不显示“摘要”字段,甚至信息都没有结果一览多,不足以做参考文献引用。这是最大的败笔。
以“绍介:最新科学读本初编”为例:
结果一览显示:1904年 [第一卷 第3期](无页码信息)
细览显示:年,卷(期).页码:  1904(无卷、期、页)
PDF全文显示:第三期 三十七[页]
6、文献来源导航:应该是《全国报刊索引》的期刊一览表,换言之,没有独立的《晚清期刊全文库》收录期刊表。
———-收录期刊与文章的分割线———-
“《晚清期刊全文数据库》共收录了1833年到1910年间三百余种期刊,涵盖了晚清包括鸦片战争、洋务运动、戊戌变法和辛亥革命等重要时期出版的所有刊物,拥有众多的期刊之最!”“二十五万余篇的珍贵史料,便捷的检索方式,用户可通过题名、著者、刊名、年份、期号等各种方式迅速检索、定位、浏览和全文下载。”
经查,收录文章总数252960,如何得到?自己试一下就有了。
究竟有哪些期刊(应该是报刊)呢?通过检索“分类号”+文献来源分面(最多30种),去重后得到170种(大概只有一半)。按文章数量排序,文章量占总数1%以上的有20种报刊,累计55%,《益闻录》又占其中的1/3。
刊名(文章数) 文章百分比 累计百分比
益闻录(43636) 17.3% 17.3%
广益丛报(10819) 4.3% 21.5%
大同报(上海)(10788) 4.3% 25.8%
东方杂志(7500) 3.0% 28.8%
四川官报(6779) 2.7% 31.4%
外交报(6594) 2.6% 34.0%
通问报:耶稣教家庭新闻(5808) 2.3% 36.3%
新民丛报(5659) 2.2% 38.6%
鹭江报(5179) 2.0% 40.6%
大陆(上海1902)(4431) 1.8% 42.4%
知新报(4337) 1.7% 44.1%
国粹学报(3951) 1.6% 45.7%
政艺通报(3484) 1.4% 47.0%
清议报(3078) 1.2% 48.2%
圣心报(3067) 1.2% 49.5%
通学报(3005) 1.2% 50.6%
集成报(2998) 1.2% 51.8%
振华五日大事记(2726) 1.1% 52.9%
湖北商务报(2628) 1.0% 53.9%
中国教会新报(2562) 1.0% 55.0%