联合国教科文组织数字档案馆

联合国教科文组织(UNESCO)数字档案馆,题为“数字化我们共同的UNESCO历史”(DIGITIZING OUR SHARED UNESCO HISTORY),如副标题“守护和促进教科文组织文献遗产的项目”(Project for safeguarding and promoting UNESCO’s documentary heritage),是对未收录于UNESDOC数字图书馆的UNESCO早年文献进行数字化保存并提供访问的项目。早年文献原以纸质文档、录像带、录音带、照片等物理方式保存。目前有5个馆藏:

一、IICI档案(国际智力合作研究所档案):4,661件(772,800图片)

  • IICI是国际联盟(国联,1920-1946年间与联合国相当的国际组织)国际智力合作委员会的常设秘书处,旨在促进科学家、研究人员、教师、艺术家和其他知识分子之间的国际文化/知识交流。IICI档案是两次世界大战之间主要知识分子国际合作的宝贵知识来源,其中包括爱因斯坦、居里夫人、姉崎正治、加夫列拉·米斯特拉尔、塔哈·侯赛因、泰戈尔和托马斯·曼。该研究所的档案资料于2017年列入联合国教科文组织世界记忆名录(Memory of the World Register)。
  • 1946年,其财产与档案由UNESCO继承。UNESCO档案馆AtoM目录中有规范记录,包括IICI的详细信息。

二、管理文档(教科文组织大会和执行局文件):目前14,571件(占全部560,000图片的57%)

  • 1940年代后期和1950年代教科文组织大会和执行局的文件,之后文档在:UNESDOC数字图书馆

三、电影和录像:206件

  • 16毫米胶卷电影,涵盖1940年代末期到1970年代联合国教科文组织的广泛活动,其中包括《所有可能学到的东西》(1949年)、《你与人权》(1950年)、《努比亚的宝藏》(1960年)和《地球的太阳》(1971年)。
  • UMATIC盒式磁带录像,1980年代开始的30小时的视频节目,包括“和平小提琴”、“只有一个地球”、“沙漠人”和“联合国教科文组织世界公共新闻”。估计还有2000个视频未处理。

四、录音:6,909件,8000小时

  • 历史录音集,包括1940年代末至1980年代UNESCO广播电台的报道,及其他独特的节目、访谈和录音,涵盖UNESCO活动的主要领域,被翻译成多种语言,并以“人民对人民说话”的口号向世界广播。

五、照片:5,048件(含照片说明,共10,177图片)

  • 展示1945年至今教科文组织活动的丰富和广度。记录联合国教科文组织分水岭时刻的精彩照片,例如“保护威尼斯市运动”和“保存努比亚古迹运动”为首次在网上发布。主题包括基础教育、青年、新闻、太空探索、海洋学以及其他反映联合国教科文组织机构记忆的内容。
  • 馆藏估计有170,000张照片,包括印刷品、底片和幻灯片。目前的5000多张照片是平衡了地理、文化和时间顺序多样性、并确保覆盖所有主要计划领域为标准,从印刷品子集中精选出来的。

近期新上线的是5000多件录音。从上述说明可知,管理文档、录像、照片都还有很多未数字化。

值得注意的是,在录音介绍中特别加上了“文化敏感性免责声明”,反映二战以来存在的用语变化:网站上可能存在包含文字和描述的内容和元数据,可能具有文化敏感性,在某些公共或社区环境中通常不可用。反映作者的态度或创建项目的时期的术语和注释在今天可能被认为是不合适的。

如需使用数字档案馆中资源,须特别注意其使用条款,在每条元数据的最后有链接。概而言之是三条:一复制内容需要书面许可,二不得保存内容及元数据到数字资产管理系统或数据库,三有法定豁免或合理使用。

—— 元数据 ——

看元数据,过于简单,且不同类型馆藏的类似字段名各异。大多只有题名、日期(IICI档案、录音称Date,视频称Year),有些有主题、描述(录音/录像称Themes/series、Description,电影称ID Theme、Subtheme、Country)。

几个馆藏的说明中提到了元数据问题:是从纸质清单和旧数据库中提取的,在某些情况下会丢失重要信息如日期等。照片背面的说明等在数字化图片中可以看到。

元数据最下面有反馈按钮(Add reaction)可以提供反馈。他们还将对照片启动一个众包子项目,目的是转录字幕,并丰富和标准化照片元数据。这将为照片添加背景,并使搜索更加轻松。

附:又一次发现自己手黑,竟然随便点一个查找结果(China),就发现了元数据错误:ONLY ONE EARTH – CHENGING FACE OF CHINA。显然应该是“Changing …”,于是使用了一次反馈功能。

这是一个1980年代四川农村制衣小企业的故事,业主李广铭[音]本身是个川剧丑旦。片中3次出现费孝通讲话,关于个体户经营,分别在8’56”-9’35″、16’10”-16’45″和23’14”-23’59″。元数据如果能揭示出这些信息,视频的有用性将大大提升——目前本条元数据对内容的揭示只有:ID Theme EN:Social Sciences;Subtheme EN:Nature;Country EN:China(以下英语主题,另有相应法语主题)。视频本身有部分字幕,应该可以用技术方法提取。

信息技术:元数据及其注册国际标准

ISO/IEC JTC1(国际标准化组织与国际电工委员会联合技术委员会)是信息技术国际标准的制订机构,也是制订ISO标准最多的技术委员会。旗下数据管理和交换部(Data management and interchange)有元数据工作组(ISO/IEC JTC1 SC32 WG2),负责制订元数据及其注册的国际标准。2019年发布的标准有3项:

  • ISO/IEC 11179-2:2019 Information technology — Metadata registries (MDR) — Part 2: Classification【第3版】
  • ISO/IEC 11179-7:2019 Information technology — Metadata registries (MDR) — Part 7: Metamodel for data set registration【第1版】
  • ISO/IEC 19583-1:2019 Information technology — Concepts and usage of metadata — Part 1: Metadata concepts【第1版】
  • ISO/IEC 19583-2(Part 2: Metadata usage)同样在2015年提出,目前仍停留在初始状态(10.99)

元数据工作组有网站http://metadata-standards.org/,主页左侧导航栏有开发维护标准清单(标题与标准不尽相同),各标准页面汇聚从开发到发布各阶段的文档,包括标准最终文本——只要接受 ISO Customer Licence Agreement,即可下载正式发布标准。不过2014年后该网站仅更新项目状态,新内容移到ISO技术委员会(ISOTC)的统一网站,文档大多只能在ISO网站付费下载。ISOTC网站除了有技术委员会结构图,详细列出下属二级的部门(SC)和工作组(WG),对普通用户来说几乎没有其他可用内容。ISO官网有部门(SC)页面(如数据管理和交换部),包罗工作组开发的ISO标准,但没有标出相应的工作组。要了解元数据工作组的工作,还是需要到其原网站。以下为其名下ISO标准一览(*有多部分):

11179-* Metadata registry (MDR)
· Part 1: Framework【1999第1版,2004第2版,2015第3版】
· Part 2: Classification【2000第1版,2005第2版,2019第3版】
· Part 3: Registry metamodel and basic attributes【1994第1版,2003第2版,2013第3版】
· Part 4: Formulation of data definitions【1995第1版,2004第2版/通过2015评审】
· Part 5: Naming and identification principles【1995第1版,2005第2版,2015第3版】
· Part 6: Registration【1997第1版,2005第2版,2015第3版】
· Part 7: Metamodel for data set registration【2019第1版】
14957  Representation of data element values — Notation of the format【1996第1版,2010第2版/通过2016评审】
19583-* Concepts and usage of metadata
· Part 1: Metadata concepts【2019第1版】
· Part 2: Metadata usage【2020开发中】
19763-* Metamodel Framework for Interoperability (MFI)
· Part 1: Reference model【2007第1版,2015第2版】
· Part 3: Metamodel for ontology registration【2007第1版,2010第2版】
· Part 5: Metamodel for process model registration【2015第1版】
· Part 6: Registry Summary【2015第1版】
· Part 7: Metamodel for service registration【2015第1版】
· Part 8: Metamodel for role and goal registration【2015第1版】
· Part 9: (Technical Report) On Demand Model Selection (ODMS) 【2015第1版】
· Part 10: Core model and basic mapping【2014第1版】
· Part 12: Metamodel for information model registration【2015第1版】
· Part 13: Metamodel for forms registration【2016第1版】
19773  Metadata registries (MDR) Modules【2011第1版/通过2019评审】
20943-* Procedures for Achieving Metadata Registry Content Consistency
· Part 1: Data Elements【2003第1版】
· Part 2: XML Structured Data【搁置】
· Part 3: Value Domains【2004第1版】
· Part 4: Overview【搁置】
· Part 5: Metadata Mapping Procedure【2013第1版】
· Part 6: Framework for generating ontologies【2013第1版】
20944-* Metadata Registry Interoperability & Binding (MDR-IB)
· Part 1: Framework, common vocabulary, and common provisions for conformance【2013第1版】
· Part 2: Coding Bindings【2013第1版】
· Part 3: API Bindings【2013第1版】
· Part 4: Protocol Bindings【2013第1版】
· Part 5: Profiles Bindings【2013第1版】
24706  Metadata for technical standards and specifications documents【项目无进展而取消】
· Part 1: Document description elements
· Part 2: URI naming and resolution techniques
24707  Common logic (CL) — A framework for a family of logic-based languages【2007第1版,2018第2版】 

孔夫子旧书网的元数据

前些天看胡文辉︱陈垣早年的两件尴尬事(2019-05-25),文中说到作者朋友宋希於在孔夫子旧书网上,查到陈垣科举替考那位的图书《甄祝三先生荣寿特刊》,“此系仅见的冷门文献,标价甚昂,实亦无关于学术史。考虑到事涉史学大家,毕竟想其人的结局,犹豫之下,终购得之”。出于好奇去孔夫子查了下,此书在2019-04-22以800元完成交易,确实有点贵。从网页照片,书中多位名人题字可以看个大概。

自2018年末开始的半年里,自己一直在查名人资料,当时就发现孔夫子(包括旧书网拍卖网)是个很有料的地方,尤多名人信札、手稿、题赠图书等。它最大的优点是已拍卖结束资料的信息全都保留着。虽然没法获取原物,但不少物品信息中包含原物的多幅照片,还是能获取不少有价值的信息。比如钱谷融先生在2011年处理家中藏书,这批书不久即大量出现在孔夫子旧书网,其中包含1979-2011年间钱先生收到的赠书,大多为作者签名本。现在孔夫子上可查到的有四五百册,题赠页文字等信息都比较清晰。以下是钱谷融藏书签名本赠送者云图(使用WordArt生成)。

钱谷融藏书-赠书者

为体现物品价值,孔夫子上的数据标注还是挺细致的,涉及名人的除在标题中注明外,还专门有人物介绍。但从元数据设计角度,还是过于粗泛,没有考虑到不同文献的特殊性。如名人信札、题赠图书,涉及发送者与接受者,还有相应的时间、地点等因素,如分别标注,以孔夫子上已经累积的大量实物数据,无疑能呈现丰富的人际关系网络,这是分别对单个人物进行研究时无法实现的。
孔夫子网站上的数据想来是提交拍品者自己提供的,自然不能过于复杂。但可以对提交数据做一些自然语言处理、进行自动填充,比如图书拍品标题文字中有如“签名”“签赠”等,可选择相应前后文字填为赠送人,供提交数据者确认,如此等等。只要对元数据方案稍加改进,孔夫子完全可以在实现拍卖交易的同时,本身成为从实物交往角度反映当代中国名人间关系的数字人文网站,对学术研究也会有更大的价值,或许还能对拍品收藏起到一定的推动作用。

以上图片来自:钱谷融先生的朋友圈(2019-5-22)