数字人文 – 第 5 页 – 编目精灵III

“德里达图书馆”关联数据计划

普林斯顿大学图书馆在ALA 2016仲冬会议的BIBFRAME更新论坛（BIBFRAME Update Forum at ALA Midwinter Meeting 2016）上，介绍了该馆将进行的德里达特藏关联数据计划。PPT备注页有详细解释，因而可以较全面了解：
De-“framing” Derrida: BIBFRAME, inscriptions, and library of Jacques Derrida / Jennifer Baxmeyer

对我来说，印象特别深刻的是他们对特藏揭示的全方位设计。比如图书“折角”也当作一种需要记录的标记；更意想不到的是，使用档案系统，记录每本书在原藏地（德里达家中）的相对位置，可了解哪本书边上放的是哪本书（如果接收图书时没有深思熟虑，随便扎捆打包，就无法复原当时的场景了）。
基本印象：对该特藏的完整揭示更接近“数字人文”而非“书目描述”范畴（首期作者题词部分尚可视为单件层书目描述）。

背景：
普林斯顿大学2015年3月完整购入著名哲学家德里达（1930-2004）个人图书馆计1.6万件藏书及其他单件，是为“德里达图书馆”。
在这些书上，有德里达阅读时留下的大量标记/注释（折角、划重点线、页边标记、报时贴、夹其他文字材料）。这些书有相当部分为原作者在书上题词后送给德里达的（超过6300册），对这些书中提及自己的部分，德里达基本上都作有标记。
所有这些信息（包括相邻放置图书信息），对研究德里达的学者都会是感兴趣的内容。比如目前已统计出题词图书的作者（其中超过10册的有12位），可显示其专业及社交网络。
目前的MARC记录很难确切揭示上述信息；档案标准EAD和EAC-CPF稍好，可以记录更多属性，但不具有链接、跳转功能。也就是说，即使信息都记录下来了，也只是文字（字符串），而没有包含标识符。

计划概述：
希望扩展BIBFRAME的单件层描述，采用并扩展W3C的Web注释以包括珍本书特征，揭示所有标记/注释及题词信息，最终生成机器可操作格式的数据，提供给学者做研究。
– 分担工作：评估BF及与德里达收藏相关的词表，识别需扩展和修订的领域，尤其在：
— 手稿注释/题词的语义
— 原始和转录注释/题词的关系
– 交付产品
— 德里达特藏中包含作者题词的单件子集的BF资源描述（期望2018年3月完成）【更艰巨的标记/注释部分，是否将会通过众包解决？】
— 用于特藏资料的原始资源描述的BF扩展本体

——— 联想的分割线 ———
在图书馆馆藏日益趋同的当下，独一无二的特藏是最能体现专业与学术图书馆价值的部分。
在获得特藏以后如何提供利用，不同图书馆有相当大的差异。
国内最多的是秘藏，近年有通过影印出版方式提供利用。出版还可取得收益，多少可补偿获得时的付出，虽然先前的付出与后来的收益多半是完全不同的两条线。
美国不少图书馆的方式则是直接提供利用，近年有越来越多图书馆开放电子版网上利用，甚至如普林斯顿大学上述工作那样以深度揭示提供利用。拥有特藏本身就已表明图书馆的独特眼光，提供利用则体现图书馆的存在价值，深度揭示更展现图书馆的专业能力，由此而吸引更多的捐赠、资助等投入，从而进一步增强图书馆在业界的地位。
不同的环境，产生不同的结果。

台湾中研院“中华文明之时空基础架构”（CCTS）

微博@陆浑戎老师推介台湾中研院“中华文明之时空基础架构”（CCTS），看名称就是融合地理信息的数字人文项目。大致看了一下，项目于2003年由面向本单位的《中国历史文化地图系統》改称后公开，聚合了很丰富的中国历史地理内容。除查询使用外，还可通过授权使用基础GIS及其他数据，进行数字人文研究。备记如下。

– 计画简介
“本系统起源于跨领域的学术研究应用需求，期望建构以中国为空间范围，并以原始社会迄今的中国历史为时间纵深，以中国文明为内涵的整合性资讯应用环境。”
“本系统包含基本空间图资、WebGIS整合应用环境、以及主题化的属性资讯三大部分。……提供上古至清代，上下逾二千年的中国历代基本底图，並辅之以持续整理蒐集之各类历史地图、遥测影像等基础图资。”

– 基础地理信息主要根据以下2种地图整合而成：
1、谭其骧先生主编《中国历史地图集》（8册），经中国社会科学院授权，由中央研究院制成矢量化版本。
2、中国国家测绘局中国国家基础地理信息中心发布1：1,000,000《中国数字地图》（Arc/China）。

– 使用
系统由中研院历史语言研究所和计算机中心主导，蔡元培人文社会科学研究中心统筹办理。
系统开放资料内容包含基底图、主題地图以及特定主题资料库等三部分。
向学术机构提供使用授权，既可以通过IP范围限定联机访问，也可以建立镜像站（主机共置server collocation方式）。目前大陆有2家授权使用单位：中山大学（2008年）和上海交通大学（2013年）。

– 时空架构
“譚其驤中國歷史地圖原始影像瀏覽系統”需登录使用。
另有若干动画展示，包括：历代疆域变迁、历代聚落变迁、历代黄河变迁、历代国都变迁、历代中国变迁、中国古代文化圈。（看看挺长知识的，比如会明白“自古以来就是中国领土”是句多么没有意义的话）

– 研究计划
采用其地图信息的研究项目，包括：黄河泛滥分析、明清江南市镇研究、汉墓分布研究、中央研究院傅斯年图书馆人名权威资料库、苏轼文学地图、郑和航海图、唐代交通图。其中苏轼文学地图和郑和航海图可以链接到详细的项目页面，其他仅各展示静态地图一张。

– 资源整合
中国历史地理相关专题数据库汇总，部分与CCTS地图资料进行整合后的界面需授权访问（传统界面可公开访问）。大致分类：
GIS库：晚明松江地区历史地理信息系统数据库（香港中文大学），汉唐长安之城内郊外规划资料库
事实库：清代粮价资料库、清代人口史研究资料库
全文图像库：中央研究院汉籍电子文献，历史语言研究所藏汉代简牍资料库、佛教石刻造像拓本资料库、汉代石刻画象拓本资料库、中国西南少数民族联合资料库
书目/人名库：中国地方志书目查询系统、历史语言研究所明清档案人名权威资料库

– 查询检索
若干嵌入式检索框，包括：中国历史地名检索（根据资料来源，详细信息可能包括层级、年代、经纬度等）

参见：哈佛大学《中国历代人物传记资料库》（CBDB）（2014年8月3日）

年终学术：上图学会2014年12月双月讲座

年末会议接二连三，今天上午是上海市图书馆学会2014年12月双月学术讲座。会议通知星期二下午才上网，而且用主持人Keven的说法，年会也才开过，不料人气还是很高，报名人数超过预期的50人，因此换了一个略大的会场——事实上还有没在网上报名直接就来的，所以会场坐得比较满。报告时间每人一小时，可以讲得比较从容。

秦健教授讲《数据与数据服务：图书馆服务的延伸》，认为数据服务已是美国图书馆的新常态。
– 数据服务到底可以做什么？印象中近年谈得较多的就是data curation，国内也有图书馆开始尝试，今年上图学会年会主旨报告之一殷沈琴讲的就是复旦经验《高校科学数据监护的探索与实践》。
本报告的数据服务范围更宽些，涉及服务的变化：从数据管理到数据服务、从呈现到分析、从馆藏（collection）到产品（production）。换言之，让数据“活”起来。作为实例之一，介绍Peter Leonard，耶鲁大学图书馆专职做数字人文研究的图书馆员，利用现有的工具（包括Google的Book Ngram Viewer等），为人文科学挖掘大数据集（原文链接见下）。
– 一直很困惑图书馆未来到底能做什么，如果仍停留在提供馆藏上，在去中介化的趋势下未来真的不乐观。近年逐渐升温的学科馆员、嵌入式服务等等，也是为了应对这种现状。然而，学科馆员定位似乎很尴尬，在能做什么和用户需要什么之间很难找准位置。耶鲁的例子确属于“数字人文”领域，但看起来也是图书馆员（学科馆员）能做的。
当然，要做延伸服务，最重要的是人员，还需要接受培训。就国内而言，不说图书馆领导是不是有这方面的眼光，提供培训者恐怕也难以寻觅。
– 报告谈到数据资源领域一些术语的变化，指出术语变化显示观念改变，比如从数字馆藏（digital collection）到数字数据（digital data）——雪城大学的“数字图书馆”课程已改名“数字数据基础”。如我这般原来看这些术语没有什么感觉的，现在有了另外的视角，或者也可以用Google Book Ngram分析一下这些词的变化趋势——这是有墙的。秦教授每年回国，切身感受“墙”对做研究的损害，报告中另一个例子是纽约时报关联数据，也是有墙的。

戴着Google眼镜的张甲馆长讲《大数据再定义图书馆服务导向》，从他乘坐没有方向盘的Google无人驾驶汽车的体验开始，直观说明大数据分析。
张馆长身为图书信息中心主任，报告例子中不少是高校信息办或者信息网络中心做的数据分析，很有启发。图书馆长有双重身份者还有不少（比如以前的重大、现在的厦大），为图书馆与网络中心合作提供不少方便。报告中也有图书馆的例子——解放军医学图书馆案例。
不过听完报告，对于图书馆有没有大数据，或者对现在能够获取到的数据到底能做什么，还是未能了了（抱歉，悟性不够）。

秦健教授的数据服务，张甲馆长的大数据，针对的都是新形势（或者新常态）下的图书馆服务，对大家比较有吸引力。我的《书目用RDF词表与本体概况》则比较小众，原是为上图设想把CNMARC数据发布为RDF而准备的。虽然针对的是对该主题已经有所了解的人，但自己对这个主题的知识积累不足，原来假定是小范围交流，有些问题是想共同探讨的，没想到变成了公开讲座，要面对那么多人，心里还是有点发毛。最终一个人自说自话讲得还算顺利，希望现场听众也有所收获。
PPT已经上网，请移步上图学会网站“资源”，注册登录后下载。

参见：
耶鲁的例子见今年IFLA年会文章：Peter Leonard. Mining large datasets for the humanities. IFLA WLIC : (2014).
早年黑Google的博文：Google实验室新品Books Ngram Viewer：数据的可靠性（2010年12月18日）