“抗日战争与近代中日关系文献数据平台”使用体验

2017年“抗日战争与近代中日关系文献数据平台”上线,免费提供图书、报纸、期刊、档案、图片、舆图等各类文献200万页(参见:“史料控”的福利:抗日战争与近代中日关系文献数据平台上线.澎湃新闻,2017-10-23)。当时浏览过,以报纸为多,有《申报》、《大公报》及解放区报纸等共20种,但有些数据还在建设中。比如暂未上传《申报》全文,档案部分还没有资料等。两年过去,看到平台微信说报纸已过千种(【国庆特辑】抗战文献数据平台报纸类文献数量突破1000种,2019-9-24),决定注册试用。

平台介绍:抗日战争与近代中日关系文献数据平台

  • 本平台是国家社科基金“抗日战争研究专项工程”的阶段性成果,由中国社会科学院、国家图书馆、国家档案局牵头,中国社会科学院近代史研究所百度云承办。平台坚持“共享、公益、合作共赢”的理念,致力于汇集所有和抗日战争及近代中日关系有关的文献数据,借助开放、便捷的互联网技术向全球学术界、教育界以及民众提供永久免费服务。
  • 目前平台收录1949年以前的各类文献,“汇多库于一”的特点,使平台囊括档案、图书、期刊、报纸、图片、音频、视频等多种形式。平台内容还在不断丰富之中,2018年底已达到1300万页。平台所有文献均可免费检索与阅览。个人免费注册账号之后,可获得免费下载权限,每月下载量可达2000页。

—— 收录文献类型及数量(2019-9-25访问)——

  • 档案(3):英国外交部 34份/1937.1.1-1938.12.31;美国国务院 267份/1960.1.21-1962.8.31;远东国际军事法庭:东京审判-庭审记录 51013份/1946.4.29-1948.11.12。
  • 图书(33218,其中240红色文献),单位:册。多卷书依单卷。
  • 报纸(1028,其中31红色文献),单位:种。也有分拆的,如《申报》有4条,除汉口版、香港版外,另2条分别是1872.4.30-1937.12.15和1938.10.10-1949.5.27,但任选1条目录显示均包含2个时段。
  • 期刊(2275,其中97红色文献),单位:种
  • 红色文献(368):从书、刊、报中抽出突出显示的类别,定义不明。除民国时期共产党文献、作者为无产阶级革命家等情况,还看到1913年同盟会的《民强报》。
  • 视频(0)
  • 音频(8):均为江定仙、陈田鹤作品。
  • 图片(1):(美国)哈里森·福尔曼摄影集(中国部分)7160张/1930-1959(看说明来自美国威斯康星大学密尔沃基分校图书馆Harrison Forman Collection
  • 舆图(?)
  • 研究性论著(显示82、实际10),单位:册。《冀中人民抗日斗争文集》10卷——图书中抽出?

—— 试用体验 ——

注册后即时收到确认邮件,然后试查得些感性认识。界面清爽、使用顺手,总的体验不错。

  • 1、搜索
  • 全部字段:可选择:题名、关键词、责任者、出版者。从搜索结果看,全部字段不限于上述4个途径,还包含:目录条目。
  • 高级搜索条件:题名、主要责任者、出版人、出版社、语种(下拉选7种:汉、英、日、俄、德、法、意)、出版时间(按年、月、日、时间段)。
  • 2、检索结果
  • 结果一览显示命中文献元数据及其目录前5个条目(含命中条目),在结果中检索词以暗红色字体显示。
  • 直接点击条目,即在新窗口显示相应页面;如点击“开始阅读”按钮,则在新窗口开始整本阅读;如点击“查看详情”按钮,则在新窗口显示完整目录(期刊为列表)。
  • 需注意的是,目录条目仅显示前十余字,过长部分隐藏,鼠标移到“…”部分才会完整显示。技巧:如目录条目未见暗红色检索词显示,需逐条查看末尾“…”的条目。如用检索词“月饼”查到《北平指南》(李安民编校,中华印字馆,1929年),目录无暗红色结果,最后一个条目为“醵金会 醵斤会之通用语 单刀会 …”,后面隐藏“双刀会 写会 抓会 红事会 老人会 月饼会 蜜供会 漫首会”。
  • 看此全文意外发现:老北京月饼会的月饼并非中秋食用,而是作为年终供品,供佛或灶王。
  • 3、全文阅读与下载
  • 阅读体验不错。缩放(鼠标滚动)、移动(保持鼠标滑动)方便,也可全屏。
  • 下载:图书可选择按页或按章节,期刊可选择单篇或整期,报纸可选择按月或按日期。下载的是逐页jpg图片的压缩文件。[update]屏幕显示时有平台logo水印,下载图像有注册用户名和日期水印(不影响阅读)。
  • 还有返回目录、收藏、纠错、导出信息、打印等功能,实用而贴心。
  • 打印不能调整大小,略为不便(如期刊原页面略大,会打印为2张A4纸)。
  • 4、导航
  • 左侧“导航”提示检索结果特征,也可用于缩小检索范围,包括:关键词、类型、主要责任者、出版者、出版地、语种、出版时间。
  • 大部分按数量显示前若干条,而“出版时间”则按时间顺序全部显示(估计即时生成,有时显示会有延时)。

5、不足

(1)没有全文搜索。有待大规模文字识别。这也就决定了尽管它已经收录期刊超千种,但无法取代收录清后期及民国文献的商业数据库。或许是特意的差异化吧。

(2)尚未发现命中结果超过5个时,是否有简单方法得到第6个及以后的结果列表。图书可以在目录页用浏览器“查找”功能直接搜索(同样需注意上述第2点条目过长文字隐藏问题)。期刊由于按种检索,众多卷期超过5个结果的可能性更大。而期刊首先显示结果列表、点击后再显示逐期目录,在卷期很多时,如果只能用浏览器查找,几不可用。

(3)目录条目显示不全(见上),影响命中条目的识别。

(4)数据有重复。查“月饼”,前2条结果都是《上海妇女》第一卷第1-4期,1条彩色封面、1382页,1条黑白封面、1374页。不可能是孤例吧?

(5)收录范围不明。时间上也包括1949年以后,对于重印、重版的旧时文献是合理的,如《大事史料长编草稿·一九二三年七月》(1960年)、《实业公报》(1996年)。但也有似乎并不合适的,如1960-1964年《江苏师院学报》,教学版、物理版……与抗战、中日关系搭不上吧?