“德里达图书馆”关联数据计划

普林斯顿大学图书馆在ALA 2016仲冬会议的BIBFRAME更新论坛(BIBFRAME Update Forum at ALA Midwinter Meeting 2016)上,介绍了该馆将进行的德里达特藏关联数据计划。PPT备注页有详细解释,因而可以较全面了解:
De-“framing” Derrida: BIBFRAME, inscriptions, and library of Jacques Derrida / Jennifer Baxmeyer

对我来说,印象特别深刻的是他们对特藏揭示的全方位设计。比如图书“折角”也当作一种需要记录的标记;更意想不到的是,使用档案系统,记录每本书在原藏地(德里达家中)的相对位置,可了解哪本书边上放的是哪本书(如果接收图书时没有深思熟虑,随便扎捆打包,就无法复原当时的场景了)。
基本印象:对该特藏的完整揭示更接近“数字人文”而非“书目描述”范畴(首期作者题词部分尚可视为单件层书目描述)。

背景:
普林斯顿大学2015年3月完整购入著名哲学家德里达(1930-2004)个人图书馆计1.6万件藏书及其他单件,是为“德里达图书馆”。
在这些书上,有德里达阅读时留下的大量标记/注释(折角、划重点线、页边标记、报时贴、夹其他文字材料)。这些书有相当部分为原作者在书上题词后送给德里达的(超过6300册),对这些书中提及自己的部分,德里达基本上都作有标记。
所有这些信息(包括相邻放置图书信息),对研究德里达的学者都会是感兴趣的内容。比如目前已统计出题词图书的作者(其中超过10册的有12位),可显示其专业及社交网络。
目前的MARC记录很难确切揭示上述信息;档案标准EAD和EAC-CPF稍好,可以记录更多属性,但不具有链接、跳转功能。也就是说,即使信息都记录下来了,也只是文字(字符串),而没有包含标识符。

计划概述:
希望扩展BIBFRAME的单件层描述,采用并扩展W3C的Web注释以包括珍本书特征,揭示所有标记/注释及题词信息,最终生成机器可操作格式的数据,提供给学者做研究。
分担工作:评估BF及与德里达收藏相关的词表,识别需扩展和修订的领域,尤其在:
— 手稿注释/题词的语义
— 原始和转录注释/题词的关系
交付产品
— 德里达特藏中包含作者题词的单件子集的BF资源描述(期望2018年3月完成)【更艰巨的标记/注释部分,是否将会通过众包解决?】
— 用于特藏资料的原始资源描述的BF扩展本体

——— 联想的分割线 ———
在图书馆馆藏日益趋同的当下,独一无二的特藏是最能体现专业与学术图书馆价值的部分。
在获得特藏以后如何提供利用,不同图书馆有相当大的差异。
国内最多的是秘藏,近年有通过影印出版方式提供利用。出版还可取得收益,多少可补偿获得时的付出,虽然先前的付出与后来的收益多半是完全不同的两条线。
美国不少图书馆的方式则是直接提供利用,近年有越来越多图书馆开放电子版网上利用,甚至如普林斯顿大学上述工作那样以深度揭示提供利用。拥有特藏本身就已表明图书馆的独特眼光,提供利用则体现图书馆的存在价值,深度揭示更展现图书馆的专业能力,由此而吸引更多的捐赠、资助等投入,从而进一步增强图书馆在业界的地位。
不同的环境,产生不同的结果。

台湾中研院“中华文明之时空基础架构”(CCTS)

微博@陆浑戎 老师推介台湾中研院“中华文明之时空基础架构”(CCTS),看名称就是融合地理信息的数字人文项目。大致看了一下,项目于2003年由面向本单位的《中国历史文化地图系統》改称后公开,聚合了很丰富的中国历史地理内容。除查询使用外,还可通过授权使用基础GIS及其他数据,进行数字人文研究。备记如下。

– 计画简介
“本系统起源于跨领域的学术研究应用需求,期望建构以中国为空间范围,并以原始社会迄今的中国历史为时间纵深,以中国文明为内涵的整合性资讯应用环境。”
“本系统包含基本空间图资、WebGIS整合应用环境、以及主题化的属性资讯三大部分。……提供上古至清代,上下逾二千年的中国历代基本底图,並辅之以持续整理蒐集之各类历史地图、遥测影像等基础图资。”

– 基础地理信息主要根据以下2种地图整合而成:
1、谭其骧先生主编《中国历史地图集》(8册),经中国社会科学院授权,由中央研究院制成矢量化版本。
2、中国国家测绘局中国国家基础地理信息中心发布1:1,000,000《中国数字地图》(Arc/China)。

– 使用
系统由中研院历史语言研究所和计算机中心主导,蔡元培人文社会科学研究中心统筹办理。
系统开放资料内容包含基底图、主題地图以及特定主题资料库等三部分。
向学术机构提供使用授权,既可以通过IP范围限定联机访问,也可以建立镜像站(主机共置server collocation方式)。目前大陆有2家授权使用单位:中山大学(2008年)和上海交通大学(2013年)。

– 时空架构
“譚其驤中國歷史地圖原始影像瀏覽系統”需登录使用。
另有若干动画展示,包括:历代疆域变迁、历代聚落变迁、历代黄河变迁、历代国都变迁、历代中国变迁、中国古代文化圈。(看看挺长知识的,比如会明白“自古以来就是中国领土”是句多么没有意义的话)

– 研究计划
采用其地图信息的研究项目,包括:黄河泛滥分析、明清江南市镇研究、汉墓分布研究、中央研究院傅斯年图书馆人名权威资料库、苏轼文学地图、郑和航海图、唐代交通图。其中苏轼文学地图和郑和航海图可以链接到详细的项目页面,其他仅各展示静态地图一张。

– 资源整合
中国历史地理相关专题数据库汇总,部分与CCTS地图资料进行整合后的界面需授权访问(传统界面可公开访问)。大致分类:
GIS库:晚明松江地区历史地理信息系统数据库(香港中文大学),汉唐长安之城内郊外规划资料库
事实库:清代粮价资料库、清代人口史研究资料库
全文图像库:中央研究院汉籍电子文献,历史语言研究所藏汉代简牍资料库、佛教石刻造像拓本资料库、汉代石刻画象拓本资料库、中国西南少数民族联合资料库
书目/人名库:中国地方志书目查询系统、历史语言研究所明清档案人名权威资料库

– 查询检索
若干嵌入式检索框,包括:中国历史地名检索(根据资料来源,详细信息可能包括层级、年代、经纬度等)

参见:哈佛大学《中国历代人物传记资料库》(CBDB)(2014年8月3日)

年终学术:上图学会2014年12月双月讲座

年末会议接二连三,今天上午是上海市图书馆学会2014年12月双月学术讲座。会议通知星期二下午才上网,而且用主持人Keven的说法,年会也才开过,不料人气还是很高,报名人数超过预期的50人,因此换了一个略大的会场——事实上还有没在网上报名直接就来的,所以会场坐得比较满。报告时间每人一小时,可以讲得比较从容。

秦健教授讲《数据与数据服务:图书馆服务的延伸》,认为数据服务已是美国图书馆的新常态。
– 数据服务到底可以做什么?印象中近年谈得较多的就是data curation,国内也有图书馆开始尝试,今年上图学会年会主旨报告之一殷沈琴讲的就是复旦经验《高校科学数据监护的探索与实践》。
本报告的数据服务范围更宽些,涉及服务的变化:从数据管理到数据服务、从呈现到分析、从馆藏(collection)到产品(production)。换言之,让数据“活”起来。作为实例之一,介绍Peter Leonard,耶鲁大学图书馆专职做数字人文研究的图书馆员,利用现有的工具(包括Google的Book Ngram Viewer等),为人文科学挖掘大数据集(原文链接见下)。
– 一直很困惑图书馆未来到底能做什么,如果仍停留在提供馆藏上,在去中介化的趋势下未来真的不乐观。近年逐渐升温的学科馆员、嵌入式服务等等,也是为了应对这种现状。然而,学科馆员定位似乎很尴尬,在能做什么和用户需要什么之间很难找准位置。耶鲁的例子确属于“数字人文”领域,但看起来也是图书馆员(学科馆员)能做的。
当然,要做延伸服务,最重要的是人员,还需要接受培训。就国内而言,不说图书馆领导是不是有这方面的眼光,提供培训者恐怕也难以寻觅。
– 报告谈到数据资源领域一些术语的变化,指出术语变化显示观念改变,比如从数字馆藏(digital collection)到数字数据(digital data)——雪城大学的“数字图书馆”课程已改名“数字数据基础”。如我这般原来看这些术语没有什么感觉的,现在有了另外的视角,或者也可以用Google Book Ngram分析一下这些词的变化趋势——这是有墙的。秦教授每年回国,切身感受“墙”对做研究的损害,报告中另一个例子是纽约时报关联数据,也是有墙的。

戴着Google眼镜的张甲馆长讲《大数据再定义图书馆服务导向》,从他乘坐没有方向盘的Google无人驾驶汽车的体验开始,直观说明大数据分析。
张馆长身为图书信息中心主任,报告例子中不少是高校信息办或者信息网络中心做的数据分析,很有启发。图书馆长有双重身份者还有不少(比如以前的重大、现在的厦大),为图书馆与网络中心合作提供不少方便。报告中也有图书馆的例子——解放军医学图书馆案例。
不过听完报告,对于图书馆有没有大数据,或者对现在能够获取到的数据到底能做什么,还是未能了了(抱歉,悟性不够)。

秦健教授的数据服务,张甲馆长的大数据,针对的都是新形势(或者新常态)下的图书馆服务,对大家比较有吸引力。我的《书目用RDF词表与本体概况》则比较小众,原是为上图设想把CNMARC数据发布为RDF而准备的。虽然针对的是对该主题已经有所了解的人,但自己对这个主题的知识积累不足,原来假定是小范围交流,有些问题是想共同探讨的,没想到变成了公开讲座,要面对那么多人,心里还是有点发毛。最终一个人自说自话讲得还算顺利,希望现场听众也有所收获。
PPT已经上网,请移步上图学会网站“资源”,注册登录后下载

参见:
耶鲁的例子见今年IFLA年会文章:Peter Leonard. Mining large datasets for the humanities. IFLA WLIC : (2014).
早年黑Google的博文:Google实验室新品Books Ngram Viewer:数据的可靠性(2010年12月18日)