学术报告“另一个视界”与上图数字人文项目

出于对可视化的兴趣,周五(2017.8.11)去上海图书馆听学术报告。感谢上图开放学术资源让大家共享。

另一个视界:清华大学美术学院向帆副教授和朱舜山工程师学术讲座

会议通知中推荐的报告人微信公众号文章:
《数据追问-全国美展油画作品视觉化解读》
《我是不是有点皇亲国戚?》

报告安排在下午。可惜我在开讲没多久,就因收到私事信息急需处理,差不多一半时间在边听边开小差上网中。所幸前一晚先做了点功课,看过两位报告人的网站Z Lab,特别是其中的 Projects 板块,还能勉强跟上所讲内容。Z Lab网站共有11个项目(没有上述利用CBDB数据的家谱图),看过感觉一是可视化效果很酷炫(如微博地点钟的24小时);二是可视化设计也被作为一种实用的研究辅助工具(如热带森林数据可视化)。
本次报告涉及了Z Lab网站半数以上项目,听现场讲述比看介绍生动很多,尤其对“为什么会这么做”的解释,光看介绍是获取不到的。向帆老师把她的项目定位为现代艺术作品,而不是数字人文(或其他),至于被其他人用作分析工具,也被她视为作品的一部分,全国美展获奖作品分析就是一个典型例子。我的感觉,比如在CBDB家族谱系图、热带森林数据等,可视化应该更多是作为工具。当然由于向老师的美术背景,或许在设计时是作为艺术创作看待的。
问答阶段,向老师提到她也做了不少文本挖掘项目,比如张爱玲、海明威……,数字人文无疑。
听完比较“失望”的是,那些酷炫的效果,大多是朱舜山老师用代码写出来的,没有利用太多工具。视觉设计不易,实现也不具有可复制性。因此,只能是艺术品?两位老师珠联璧合,看得出在性格上也属互补型的。

——— 上海图书馆数字人文项目介绍 ———
当天上午是内部的上海图书馆数字人文项目介绍,希望请两位老师帮助改善可视化界面设计。
刘炜副馆长开场,夏翠娟做总体介绍,上图目前共有7个相关项目:1中国家谱总目(华人家谱总目——上海图书馆家谱知识服务平台),2盛宣怀档案,3名人手稿(上海图书馆名人手稿),4中文古籍联合目录及循证平台,5规范库(含人名、中国历史纪年、地理名词表、收藏机构名录等),6书目库,7上海历史文化时空再造——武康路。其中1、3、4、7后续由各自项目主管(抱歉没听清姓名)做详细演示,尤其是可视化部分。
向老师在看到名人手稿部分时指出:一般的可视化(饼图柱图之类),掩盖了最最让人感动的部分。——话说得没错,只不过图书馆是整理资料的,就像朱老师在整理全国美展获奖作品基础资料时所说的somebody:Somebody has to do the dirty work. 面对海量文献中充满个性化的内容,要当作艺术作品来创作,真的会使项目没有截止期的。
向老师问得最多的问题是:应用场景,用户需求。——或者说用例、故事,确实是需要首先考虑,也是当前图书馆做项目需要强调的,比如最近LD4社群“调和与实体解析工作组”正在征求用例(关联数据的“调和”与“解析”) 。
与邻座tsingove交换意见,作为基础设施的话,有时可能并不针对特定场景(当然那也是场景),提供数据就好,至于怎么用,留给第三方来开发。上图接连两年举办的关联数据竞赛,就是这种设想的体现。夏MM也解释,如古籍系统的某些预设应用,也是咨询过馆内领域专家的,是作为示范,让研究者了解数据可能怎么用,进而提出更多应用场景。
上午会议结束时,Keven总结数字人文项目中三方的角色:图书馆员作为领域专家与计算机开发者之间的桥梁。朱老师补充:要加上第四方设计师,了解用户体验。

台湾中研院“中华文明之时空基础架构”(CCTS)

微博@陆浑戎 老师推介台湾中研院“中华文明之时空基础架构”(CCTS),看名称就是融合地理信息的数字人文项目。大致看了一下,项目于2003年由面向本单位的《中国历史文化地图系統》改称后公开,聚合了很丰富的中国历史地理内容。除查询使用外,还可通过授权使用基础GIS及其他数据,进行数字人文研究。备记如下。

– 计画简介
“本系统起源于跨领域的学术研究应用需求,期望建构以中国为空间范围,并以原始社会迄今的中国历史为时间纵深,以中国文明为内涵的整合性资讯应用环境。”
“本系统包含基本空间图资、WebGIS整合应用环境、以及主题化的属性资讯三大部分。……提供上古至清代,上下逾二千年的中国历代基本底图,並辅之以持续整理蒐集之各类历史地图、遥测影像等基础图资。”

– 基础地理信息主要根据以下2种地图整合而成:
1、谭其骧先生主编《中国历史地图集》(8册),经中国社会科学院授权,由中央研究院制成矢量化版本。
2、中国国家测绘局中国国家基础地理信息中心发布1:1,000,000《中国数字地图》(Arc/China)。

– 使用
系统由中研院历史语言研究所和计算机中心主导,蔡元培人文社会科学研究中心统筹办理。
系统开放资料内容包含基底图、主題地图以及特定主题资料库等三部分。
向学术机构提供使用授权,既可以通过IP范围限定联机访问,也可以建立镜像站(主机共置server collocation方式)。目前大陆有2家授权使用单位:中山大学(2008年)和上海交通大学(2013年)。

– 时空架构
“譚其驤中國歷史地圖原始影像瀏覽系統”需登录使用。
另有若干动画展示,包括:历代疆域变迁、历代聚落变迁、历代黄河变迁、历代国都变迁、历代中国变迁、中国古代文化圈。(看看挺长知识的,比如会明白“自古以来就是中国领土”是句多么没有意义的话)

– 研究计划
采用其地图信息的研究项目,包括:黄河泛滥分析、明清江南市镇研究、汉墓分布研究、中央研究院傅斯年图书馆人名权威资料库、苏轼文学地图、郑和航海图、唐代交通图。其中苏轼文学地图和郑和航海图可以链接到详细的项目页面,其他仅各展示静态地图一张。

– 资源整合
中国历史地理相关专题数据库汇总,部分与CCTS地图资料进行整合后的界面需授权访问(传统界面可公开访问)。大致分类:
GIS库:晚明松江地区历史地理信息系统数据库(香港中文大学),汉唐长安之城内郊外规划资料库
事实库:清代粮价资料库、清代人口史研究资料库
全文图像库:中央研究院汉籍电子文献,历史语言研究所藏汉代简牍资料库、佛教石刻造像拓本资料库、汉代石刻画象拓本资料库、中国西南少数民族联合资料库
书目/人名库:中国地方志书目查询系统、历史语言研究所明清档案人名权威资料库

– 查询检索
若干嵌入式检索框,包括:中国历史地名检索(根据资料来源,详细信息可能包括层级、年代、经纬度等)

参见:哈佛大学《中国历代人物传记资料库》(CBDB)(2014年8月3日)

哈佛大学《中国历代人物传记资料库》(CBDB)

网友CJ在“数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)”下留言,提到哈佛大学的CBDB数据库,于是查到这个很强大的《中国历代人物传记资料库》,属于后知后觉。

CBDB据称收录七世纪至十九世纪的中国人传记资料共32.8万,网站首页有与地理信息数据结合的可视化数据呈现。数据库的强大不只在于其数据量,更因为其数据的处理及提供利用方式:
– 不是纯文本的,而是结构化的、带地理位置信息的;
– 不仅可以查,而且提供原始数据下载;
– 有CBDB API,可以通过人物ID或人名(汉字或拼音),返回丰富的结构化人物传记资料(生卒、别名、地理信息,任官、亲属关系、社会关系等)。

资料库简介称:“中國歷代人物傳記資料(或稱數據)庫係線上的關係型資料庫,其遠程目標在於系統性地收入中國歷史上所有重要的傳記資料,並將其內容毫無限制地、免費地公諸學術之用。截至 2013年10月為止,本資料庫共收錄約328,000人的傳記資料,這些人物主要出自七世紀至十九世紀,本資料庫現正致力於增錄更多的明清代人物傳記資料。本資料庫除可作為人物傳記的一種參考資料外,亦冀可敷統計分析與空間分析之用。”
该数据库由创始者郝若贝教授(Robert M. Hartwell,1932-1996)将初版遗赠哈佛燕京学社,后续开发工作由哈佛大学燕京学社、台湾中研院历史语言研究所及北京大学中国古代史研究中心三方合作进行(英文界面说明的合作方中,第一家是费正清中国研究中心)。从历史看,2004年傅君勱开始技术开发,2005年北大加入内容维护,2006年中研院提供经费资助,2007年开放使用。创始与开发、维护可称功德无量。

网站有方法论部分,也可以说其实讲的是数据库中的数据可以如何被利用,包括:
– 群体传记学
– 地理资讯系統(GIS)
介绍利用ArcGIS或MapInfo(甚至Google Earth)等,将CBDB与哈佛的另一个项目中国历史地理信息系統(CHGIS)(update: 2014-8-4:中国编纂处复旦大学历史地理研究中心,多种GIS数据可下载)整合的多个实例。
– 社会网路关系(SNS)
介绍利用免费社会网络分析工具Pajek,对CBDB导出数据做人际关系可视化的实例。

下载了某个版本的数据(ACCESS数据库),看到很多实用的表,比如朝代年号(对照公历年)、古代地名(带地理位置、管辖关系),要做古代数据时,可以用上。于是又仔细下载了网站上的用户指南(下载教学与辅助文件):

《中国历代人物传记资料库:用户指南(中文版)》(2011年4月) / 傅君勱(Michael A. Fuller);北京大学CBDB编辑组译
第三章CBDB的分析工具,介绍设定的了解人物关系的用法,可供古代中国人物研究用。
第二章CBDB的结构,详细给出了数据库表的结构与取值等,就是一套全面的古代中国人物本体

– 实体:
1、人物:基本信息
2、亲属关系:9种基本类别,及更多变化
3、非亲属关系:直接、间接,未来还考虑参加丧事、馈赠礼物关系
4、身份(社会区分)
5、入仕方式
6、职官和除授:序列、年份、地址,未来考虑官僚组织的历史变化
7、地点:名称、地理座标(经纬度)、政区等级(从属关系)
8、传记地点信息:传记中涉及的各种地点
9、文本:与人物有关的著述,包括碑刻等、手稿、印刷品
10、人物参与的重大事件:比如谋反、皇后废立、党争等,相关的人物、时间、地点
11、财产

– 数据库包括5类表格,分别是:
1、基本实体(11个)
2、基本实体间相互关系(16个)
3、关系类型信息(16个)
4、历史信息辅助表(9个)
5、分析辅助表(5个)