中国图像志索引典:博物馆藏品的标引与查找工具

在数字人文微信群中潜水,常看到各种新鲜内容。最近看到这个:

“典藏”微信公众号文:V&A出品——“中国图像志索引典”/ 林逸欣【原载《典藏·古美术》中国版2019年10月刊。原题:搜词寻像·以图证史:V&A 博物馆“中国图像志索引典”项目】
中国图像志索引典是“受到英国政府数字、文化、传媒和体育部(DCMS)赞助的CIT项目,是在该馆(英国维多利亚与艾伯特博物馆)亚洲部内执行,始于2016年,为期三年,主持总监为馆方中国艺术资深研究员张弘星,成员目前包括高瑾和林逸欣。CIT项目汇集汉学、艺术史与信息研究,是欧美学界首次针对中国艺术进行图像志主题分类的方案。其旨在创建一套标注准则,为博物馆、图书馆与文献库的专业人士提供标准词汇,从而提升馆藏文物编目的质量和准确性,并促进数字图像跨收藏的信息获取及相互操作。同时,一个使用CIT 索引典标注的精品图像库,也将会对外公开展示。”“此数据库是一种动态且开放的研究工具,集合跨机构图像检索平台、图像志辞典及图像志标引规范的综合特色,让广大用户群体能在各个艺术品间探索内容与联系。作为开放存取的数据内容,CIT项目将于2019年秋季上线,可供民众浏览和检索。”

中国图像志索引典 Chinese Iconography Thesaurus (CIT) 

图像志(Iconography)对我来说是新概念,查得大意为:对图像进行描述、分类——可以认为是图像层面与文献层面的编目(描述与标引)对应的概念。而索引典(Thesaurus)即叙词表——也就是用于图像(主题)标引的受控词表了。
网站已经上线,分为两个部分:

其一,检索并浏览中国图像志索引典(CIT),为分层浏览的受控词表,包括7大类:自然界、人类、社会与文化、宗教、神话与传说、历史与地理、文学作品。当前收录词汇约11000个。收录词显示对应的英语,以及义类词(同义/近义)。
看大类没什么感觉,浏览到下层能体会到“中国特色”(据介绍多至9层)。比如“人类”下有魂魄,欲望(其下兴趣,下分:真趣、清兴、逸兴、野兴、静趣、景趣),学行(下分:雅、逸、坚贞、高节、高洁、恩惠、感谢、守拙、制宜),人物品类(下分:圣人、贤人、名人、君子、高士、英雄、侠女、列女)。
中国特色而外,图像特征也很突出。比如人类——人体——姿势——手与臂——执持(下分:提灯、杖策、秉烛、持帚、持矛、执笔、持卷)。一般词表恐怕不会收录这类词。图像标引这些词,确实有助于研究与查找。

其二,搜索示例图像和收藏机构。目前包含三家收藏机构英国维多利亚与艾伯特博物馆、纽约大都会艺术博物馆与台北故宫博物院的精选藏品,图档2672个。作品以绘画为主,也包括少量具有纹饰图案的陶瓷、雕塑和织品。
查找图像可以按索引典“浏览”,也可以输入关键词搜索(如“萱草”,“女子+坐”),然后再按侧栏提示的“标引词”缩小查找范围,相当好用。
不过图少词多,有些词汇没有结果(如“魂”“魄”),只能期待收录更多藏品。
侧栏“检索内容”显示当前检索条件,多个条件可以构成逻辑表达式(保留、必含、包括、去除),精确查找。
详细结果页有图像,可进行一定操作(放大缩小、转向、全屏),没有详细的元数据。由“原始出处”按钮可到三家收藏机构网站看详细信息。
对于博物馆、美术馆的海量藏品来说,适用的词表重要,对这些藏品根据词表进行深度标引更重要。期望更多藏品应用“图像志”方法,以方便多角度查找利用与分析。
PS,发现的中国图像志索引典网站问题:
搜索的“参考链接”(无效,显示:Alas, nothing found. Try changing your query;感觉是汉字编码问题)
图片的“永久链接”(无效,显示:The item you tried to access was not found;需要在URL后面加上“/cit”) 

抗日战争与近代中日关系文献数据平台“纠错”5则

大型数据库,错误是免不了的。众包纠错可以充分利用用户的智力资源。本平台的纠错功能做得不错:

1、在需要纠错的页面按钮适时出现。点击后先选择“纠错类型”(目录、基本信息、其他),再选择出错位置/字段,然后修改。

2、有“修改历史”,保留历次“纠错字段、纠错时间、原内容、纠错内容”。

3、或为防恶意修改,设定“在线时间未满24小时无法纠错”。

4、纠错后有审核环节(不知多久审核完成、实际更新数据)。

5、自己所做纠错集中在“个人中心”的“我的纠错”,个人中心也有纠错等统计。

需注意的是,由于数据均为动态生成,网络不畅或者访问者太多时,修改字段呈现常会滞后(显示“无数据”),要耐心等待或者另择时间。

对于纠错或者说错误内容的查找,也是有技巧的。平台的“导航”即限定检索或筛选功能是个利器,可以从提示条目中看出一些错误,尤其是“出版时间”。

本人由于想了解平台的收录内容,注册那天多做了一些浏览,加之一贯手黑,不多久就发现错误若干。刚使用时本来最有热情,无奈系统要求“在线”24小时才能纠错,只好先记下,然后连着几天登录后开着页面耗时间,以求在线时长达到24小时,可以完成纠错——既是编目员本性难易,也是对开放资源的一种支持。挂着时又不免试用,继续发现错误,一并记录待改。

以下为纠错5则:

1、红色文献中看到叶以群《新人的故事》(上海:当今出版社,1943年9月)。1943年的上海是日占区,怎么会出版“红色文献”?看原书,书后版权页位置有发行所地址,林森路蹇家巷三号,但没有所在城市。经查此地当在重庆,与历史合。改之:基本信息、出版地、重庆

2、图书有出版时间“1040-1049”,猜想当为1940-1949。点击进入是季灏《两宋词人小传》(上海:民治出版社,1047年12月),属于“1047年出版文献” ,当为1947年无疑。虽然“该文献暂未上传资源”,看不到原文,还是可以放心大胆地纠错:基本信息、出版时间、1947年12月。另查孔夫子旧书网上有此书,版本页图像文字为“中华民国三十六年十二月初版”,确证。

3、《云南教育公报》目录显示:第一卷第一期(102106)、第一卷第二期(192107)、第一卷第三期(192108)……,显然第一期年代标识有误,102106当为192106。果然标在了“1021年出版文献”,改之。由于没有合适的修改类别,选择“其他”,纠错内容:年代有误:第一卷第一期(192106)。

4、《清议报》目录显示:第一册(19081111)、第二册(18981121)、第三册(18981201)……,显然第一期年代标识有误,19081111当为18981111。看原文,光绪二十四年十一月十一日,虽然此“十一月十一日”当非公元11月11日,但其后各册日期当也非所标日期。同上改为:年代有误:第一册(18981111)。

5、另一条《清议报》,封面图片显示打印的“清议报全编”,看各册无封面,逐页题名均为“清议报全编”。改:基本信息、题名、清议报全编

  • 旁证:平台另完整收录本刊影印版:台湾文海出版社《近代中国史料丛刊三编第十五辑》,题名《清议报全编》。
  • 顺带发现不一致:《清议报全编》影印版,各卷题名多用《近代中国史料丛刊三编第十五辑 清议报全编 第X卷》,仅《清议报全编 第十五卷至第十六卷》不同。自然应该统一、且应统一为后者,即以《近代中国史料丛刊》为丛编题名、沈云龙改为丛编责任者而非主要责任者……。其他各册的基本信息都应该按此修改,只是涉及面略大,不便擅改——《近代中国史料丛刊》共57条,需要修改的有40条。
  • 类似丛刊应该还有,实际上都宜统一。

“抗日战争与近代中日关系文献数据平台”使用体验

2017年“抗日战争与近代中日关系文献数据平台”上线,免费提供图书、报纸、期刊、档案、图片、舆图等各类文献200万页(参见:“史料控”的福利:抗日战争与近代中日关系文献数据平台上线.澎湃新闻,2017-10-23)。当时浏览过,以报纸为多,有《申报》、《大公报》及解放区报纸等共20种,但有些数据还在建设中。比如暂未上传《申报》全文,档案部分还没有资料等。两年过去,看到平台微信说报纸已过千种(【国庆特辑】抗战文献数据平台报纸类文献数量突破1000种,2019-9-24),决定注册试用。

平台介绍:抗日战争与近代中日关系文献数据平台

  • 本平台是国家社科基金“抗日战争研究专项工程”的阶段性成果,由中国社会科学院、国家图书馆、国家档案局牵头,中国社会科学院近代史研究所百度云承办。平台坚持“共享、公益、合作共赢”的理念,致力于汇集所有和抗日战争及近代中日关系有关的文献数据,借助开放、便捷的互联网技术向全球学术界、教育界以及民众提供永久免费服务。
  • 目前平台收录1949年以前的各类文献,“汇多库于一”的特点,使平台囊括档案、图书、期刊、报纸、图片、音频、视频等多种形式。平台内容还在不断丰富之中,2018年底已达到1300万页。平台所有文献均可免费检索与阅览。个人免费注册账号之后,可获得免费下载权限,每月下载量可达2000页。

—— 收录文献类型及数量(2019-9-25访问)——

  • 档案(3):英国外交部 34份/1937.1.1-1938.12.31;美国国务院 267份/1960.1.21-1962.8.31;远东国际军事法庭:东京审判-庭审记录 51013份/1946.4.29-1948.11.12。
  • 图书(33218,其中240红色文献),单位:册。多卷书依单卷。
  • 报纸(1028,其中31红色文献),单位:种。也有分拆的,如《申报》有4条,除汉口版、香港版外,另2条分别是1872.4.30-1937.12.15和1938.10.10-1949.5.27,但任选1条目录显示均包含2个时段。
  • 期刊(2275,其中97红色文献),单位:种
  • 红色文献(368):从书、刊、报中抽出突出显示的类别,定义不明。除民国时期共产党文献、作者为无产阶级革命家等情况,还看到1913年同盟会的《民强报》。
  • 视频(0)
  • 音频(8):均为江定仙、陈田鹤作品。
  • 图片(1):(美国)哈里森·福尔曼摄影集(中国部分)7160张/1930-1959(看说明来自美国威斯康星大学密尔沃基分校图书馆Harrison Forman Collection
  • 舆图(?)
  • 研究性论著(显示82、实际10),单位:册。《冀中人民抗日斗争文集》10卷——图书中抽出?

—— 试用体验 ——

注册后即时收到确认邮件,然后试查得些感性认识。界面清爽、使用顺手,总的体验不错。

  • 1、搜索
  • 全部字段:可选择:题名、关键词、责任者、出版者。从搜索结果看,全部字段不限于上述4个途径,还包含:目录条目。
  • 高级搜索条件:题名、主要责任者、出版人、出版社、语种(下拉选7种:汉、英、日、俄、德、法、意)、出版时间(按年、月、日、时间段)。
  • 2、检索结果
  • 结果一览显示命中文献元数据及其目录前5个条目(含命中条目),在结果中检索词以暗红色字体显示。
  • 直接点击条目,即在新窗口显示相应页面;如点击“开始阅读”按钮,则在新窗口开始整本阅读;如点击“查看详情”按钮,则在新窗口显示完整目录(期刊为列表)。
  • 需注意的是,目录条目仅显示前十余字,过长部分隐藏,鼠标移到“…”部分才会完整显示。技巧:如目录条目未见暗红色检索词显示,需逐条查看末尾“…”的条目。如用检索词“月饼”查到《北平指南》(李安民编校,中华印字馆,1929年),目录无暗红色结果,最后一个条目为“醵金会 醵斤会之通用语 单刀会 …”,后面隐藏“双刀会 写会 抓会 红事会 老人会 月饼会 蜜供会 漫首会”。
  • 看此全文意外发现:老北京月饼会的月饼并非中秋食用,而是作为年终供品,供佛或灶王。
  • 3、全文阅读与下载
  • 阅读体验不错。缩放(鼠标滚动)、移动(保持鼠标滑动)方便,也可全屏。
  • 下载:图书可选择按页或按章节,期刊可选择单篇或整期,报纸可选择按月或按日期。下载的是逐页jpg图片的压缩文件。[update]屏幕显示时有平台logo水印,下载图像有注册用户名和日期水印(不影响阅读)。
  • 还有返回目录、收藏、纠错、导出信息、打印等功能,实用而贴心。
  • 打印不能调整大小,略为不便(如期刊原页面略大,会打印为2张A4纸)。
  • 4、导航
  • 左侧“导航”提示检索结果特征,也可用于缩小检索范围,包括:关键词、类型、主要责任者、出版者、出版地、语种、出版时间。
  • 大部分按数量显示前若干条,而“出版时间”则按时间顺序全部显示(估计即时生成,有时显示会有延时)。

5、不足

(1)没有全文搜索。有待大规模文字识别。这也就决定了尽管它已经收录期刊超千种,但无法取代收录清后期及民国文献的商业数据库。或许是特意的差异化吧。

(2)尚未发现命中结果超过5个时,是否有简单方法得到第6个及以后的结果列表。图书可以在目录页用浏览器“查找”功能直接搜索(同样需注意上述第2点条目过长文字隐藏问题)。期刊由于按种检索,众多卷期超过5个结果的可能性更大。而期刊首先显示结果列表、点击后再显示逐期目录,在卷期很多时,如果只能用浏览器查找,几不可用。

(3)目录条目显示不全(见上),影响命中条目的识别。

(4)数据有重复。查“月饼”,前2条结果都是《上海妇女》第一卷第1-4期,1条彩色封面、1382页,1条黑白封面、1374页。不可能是孤例吧?

(5)收录范围不明。时间上也包括1949年以后,对于重印、重版的旧时文献是合理的,如《大事史料长编草稿·一九二三年七月》(1960年)、《实业公报》(1996年)。但也有似乎并不合适的,如1960-1964年《江苏师院学报》,教学版、物理版……与抗战、中日关系搭不上吧?