台湾中研院“中华文明之时空基础架构”(CCTS)

微博@陆浑戎 老师推介台湾中研院“中华文明之时空基础架构”(CCTS),看名称就是融合地理信息的数字人文项目。大致看了一下,项目于2003年由面向本单位的《中国历史文化地图系統》改称后公开,聚合了很丰富的中国历史地理内容。除查询使用外,还可通过授权使用基础GIS及其他数据,进行数字人文研究。备记如下。

– 计画简介
“本系统起源于跨领域的学术研究应用需求,期望建构以中国为空间范围,并以原始社会迄今的中国历史为时间纵深,以中国文明为内涵的整合性资讯应用环境。”
“本系统包含基本空间图资、WebGIS整合应用环境、以及主题化的属性资讯三大部分。……提供上古至清代,上下逾二千年的中国历代基本底图,並辅之以持续整理蒐集之各类历史地图、遥测影像等基础图资。”

– 基础地理信息主要根据以下2种地图整合而成:
1、谭其骧先生主编《中国历史地图集》(8册),经中国社会科学院授权,由中央研究院制成矢量化版本。
2、中国国家测绘局中国国家基础地理信息中心发布1:1,000,000《中国数字地图》(Arc/China)。

– 使用
系统由中研院历史语言研究所和计算机中心主导,蔡元培人文社会科学研究中心统筹办理。
系统开放资料内容包含基底图、主題地图以及特定主题资料库等三部分。
向学术机构提供使用授权,既可以通过IP范围限定联机访问,也可以建立镜像站(主机共置server collocation方式)。目前大陆有2家授权使用单位:中山大学(2008年)和上海交通大学(2013年)。

– 时空架构
“譚其驤中國歷史地圖原始影像瀏覽系統”需登录使用。
另有若干动画展示,包括:历代疆域变迁、历代聚落变迁、历代黄河变迁、历代国都变迁、历代中国变迁、中国古代文化圈。(看看挺长知识的,比如会明白“自古以来就是中国领土”是句多么没有意义的话)

– 研究计划
采用其地图信息的研究项目,包括:黄河泛滥分析、明清江南市镇研究、汉墓分布研究、中央研究院傅斯年图书馆人名权威资料库、苏轼文学地图、郑和航海图、唐代交通图。其中苏轼文学地图和郑和航海图可以链接到详细的项目页面,其他仅各展示静态地图一张。

– 资源整合
中国历史地理相关专题数据库汇总,部分与CCTS地图资料进行整合后的界面需授权访问(传统界面可公开访问)。大致分类:
GIS库:晚明松江地区历史地理信息系统数据库(香港中文大学),汉唐长安之城内郊外规划资料库
事实库:清代粮价资料库、清代人口史研究资料库
全文图像库:中央研究院汉籍电子文献,历史语言研究所藏汉代简牍资料库、佛教石刻造像拓本资料库、汉代石刻画象拓本资料库、中国西南少数民族联合资料库
书目/人名库:中国地方志书目查询系统、历史语言研究所明清档案人名权威资料库

– 查询检索
若干嵌入式检索框,包括:中国历史地名检索(根据资料来源,详细信息可能包括层级、年代、经纬度等)

参见:哈佛大学《中国历代人物传记资料库》(CBDB)(2014年8月3日)

关于资源同步框架规范(ResourceSync)

OAI (Open Archives Initiative) 致力于“开发与推进有助于内容有效传播的互操作标准。”目前的项目包括鼎鼎大名的OAI-PMH、OAI-ORE,以及最新的ResourceSync。
ResourceSync(资源同步)于2014年4月成为美国国家标准
ANSI/NISO Z39.99-2014, ResourceSync Framework Specification

ResourceSync基于网站地图协议(Sitemap protocol),为web提供一个同步框架,通过Resource List(资源清单)、Resource Dump(资源仓库=打包文件)、Change Lists(变化清单)或Change Dumps(变化仓库)方式,使得第三方系统(或者镜像)可以与服务器不断变化的内容保持同步(增加、更新、删除)。

目前可以查到的中文资料很少,汇总如下:

国家标准文献共享服务平台工作简报 2014年6月 第3期 国外标准化动态(p.20)
美国国家信息标准组织(NISO)和开放档案计划(OAI)发布美国国家标准ResourceSync框架规范——为网络服务器自动资源同步提供方法
(全文pdf 114MB,龟速下载,全文待补[update 2015-1-29 附后])

编目精灵:从NISO工作组看当前技术热点(2013年4月26日)
介绍“Working Group Connection”2013年4月号,NISO三个委员会之一Discovery to Delivery Topic Committee(发现到传递专题委员会)工作之一:
ResourceSync Working Group 资源同步工作组:研究、开发、原型、测试与布署大规模Web资源同步,意在同步对象本身,不仅仅是其元数据,建立在OAI-PMH策略上。核心小组得到斯隆基金资助,也得到包括其他产业及研究伙伴(部分受JISC赞助)的助力;年初发布公示了beta版规范,希望5月底完成最终规范供投票批准;实施规范包括Python和Jave代码库,以及DSpace专用Java实施,正进行中,马上会提供

梁娜, 张晓林. 机构知识库的互操作需求和互操作规范框架. 现代图书情报技术, 2013, 29(9): 1-7
“OAI联盟还提出OAI-RSF[41], 通过Resource List、Change List、Resource Dump和Change Dump的交换来支持不同IR间的内容动态更新。”
[41] Open Archives Initiative-ResourceSync Framework Specification – Beta Draft[EB/OL]. (2013-08-09) . [2013-08-20]. http://www.openarchives.org/rs/0.9.1/resourcesync.

———-国家标准文献共享服务平台工作简报(2014年6月 第3期,p.20-21)———-
美国国家信息标准组织(NISO)和开放档案计划(OAI)发布美国国家标准ResourceSync框架规范——为网络服务器自动资源同步提供方法

美国国家信息标准组织(NISO)和开放档案计划(OAI)宜布出版ResourceSync框架规范(ANSI/NISO Z39.99-2014)——一个新的用于网上详细介绍一台报务器可以执行允许第三方系统,保持其不断发展的资源同步各种功能的美国国家标准。该ResourceSync联合项目由Alfred P. Sloan Foundation和Jisc支持资助,开始制定有关网络资源实时同步的一个新的开放标准。
“越来越多的大型数字馆藏可从多个虚拟主机的位置提供服务,会被缓存在多台服务器上,并通过几个服务系统被利用,”Los Alamos国家实验室科学家、OAI执行总监、以及ResourceSync工作组联席主席Herbert Van de Sompel解释说。“由于网络资源的不断变化,这种内容激增导致利用一个及时和准确的方式,进行不断内容同步的服务器保持服务成为具有挑战性的问题。我们通过两年合作努力制定了该现范,它可以用来满足各种各样使用案例的挑战,通过制定标准规范和已被广泛采用的协议间对接使之变为可能。”
“该OAI协议的元数据收割(PMH)2.0规范,可以用来有效地同步资源的元数据,”康奈尔大学IT应用开发主管Simeon Warner说道,“但同步资源本身从未被指定。虽然有些资源同步方式存在,它们通常是临时性的,涉及个别的安排,并不能得到普遍部署。该新规范填补了这一空白。”
“该ResourceSync规范引入了一系列于实现的功能,一个服务器可能支持启用远程系统与其不断发展的资源保持更紧密的一致,”Old Dominion大学计算机系副教授Michael L. Nelson解释道,“这也描述了一台服务器如何展示它支持的功能。远程系统可以检查这些信息,用以确定如何最好地与不断发展的数据保持一致。所有功能都通过Sitemap协议引入的文件格式基础上得以实现。功能可以被组合用以实现不同的功能级别,从而满足不同地方或社区的需要。”
“我们期待这个新标准将通过同步和更新过程的自动化为知证库管理者节省大量的时间、精力和资源,”NISO执行董事Todd Carpenter说。“最终的结果将是提升网络知识库中内容的普遍可用性和减少由于过时、不准确、以及今天在互联网上存在被替代的内容而产生的各种问题。”
信息源:http://www.niso.org/news/pr/view?item_key=6b81b2cd3a1891acd38682a006772dfa7ecec2ab
(潘薇编辑)

[原标题:NISO and OAI Publish American National Standard on ResourceSync Framework Specification : Provides methods for web servers to automate the synchronization of resources]

年终学术:上图学会2014年12月双月讲座

年末会议接二连三,今天上午是上海市图书馆学会2014年12月双月学术讲座。会议通知星期二下午才上网,而且用主持人Keven的说法,年会也才开过,不料人气还是很高,报名人数超过预期的50人,因此换了一个略大的会场——事实上还有没在网上报名直接就来的,所以会场坐得比较满。报告时间每人一小时,可以讲得比较从容。

秦健教授讲《数据与数据服务:图书馆服务的延伸》,认为数据服务已是美国图书馆的新常态。
– 数据服务到底可以做什么?印象中近年谈得较多的就是data curation,国内也有图书馆开始尝试,今年上图学会年会主旨报告之一殷沈琴讲的就是复旦经验《高校科学数据监护的探索与实践》。
本报告的数据服务范围更宽些,涉及服务的变化:从数据管理到数据服务、从呈现到分析、从馆藏(collection)到产品(production)。换言之,让数据“活”起来。作为实例之一,介绍Peter Leonard,耶鲁大学图书馆专职做数字人文研究的图书馆员,利用现有的工具(包括Google的Book Ngram Viewer等),为人文科学挖掘大数据集(原文链接见下)。
– 一直很困惑图书馆未来到底能做什么,如果仍停留在提供馆藏上,在去中介化的趋势下未来真的不乐观。近年逐渐升温的学科馆员、嵌入式服务等等,也是为了应对这种现状。然而,学科馆员定位似乎很尴尬,在能做什么和用户需要什么之间很难找准位置。耶鲁的例子确属于“数字人文”领域,但看起来也是图书馆员(学科馆员)能做的。
当然,要做延伸服务,最重要的是人员,还需要接受培训。就国内而言,不说图书馆领导是不是有这方面的眼光,提供培训者恐怕也难以寻觅。
– 报告谈到数据资源领域一些术语的变化,指出术语变化显示观念改变,比如从数字馆藏(digital collection)到数字数据(digital data)——雪城大学的“数字图书馆”课程已改名“数字数据基础”。如我这般原来看这些术语没有什么感觉的,现在有了另外的视角,或者也可以用Google Book Ngram分析一下这些词的变化趋势——这是有墙的。秦教授每年回国,切身感受“墙”对做研究的损害,报告中另一个例子是纽约时报关联数据,也是有墙的。

戴着Google眼镜的张甲馆长讲《大数据再定义图书馆服务导向》,从他乘坐没有方向盘的Google无人驾驶汽车的体验开始,直观说明大数据分析。
张馆长身为图书信息中心主任,报告例子中不少是高校信息办或者信息网络中心做的数据分析,很有启发。图书馆长有双重身份者还有不少(比如以前的重大、现在的厦大),为图书馆与网络中心合作提供不少方便。报告中也有图书馆的例子——解放军医学图书馆案例。
不过听完报告,对于图书馆有没有大数据,或者对现在能够获取到的数据到底能做什么,还是未能了了(抱歉,悟性不够)。

秦健教授的数据服务,张甲馆长的大数据,针对的都是新形势(或者新常态)下的图书馆服务,对大家比较有吸引力。我的《书目用RDF词表与本体概况》则比较小众,原是为上图设想把CNMARC数据发布为RDF而准备的。虽然针对的是对该主题已经有所了解的人,但自己对这个主题的知识积累不足,原来假定是小范围交流,有些问题是想共同探讨的,没想到变成了公开讲座,要面对那么多人,心里还是有点发毛。最终一个人自说自话讲得还算顺利,希望现场听众也有所收获。
PPT已经上网,请移步上图学会网站“资源”,注册登录后下载

参见:
耶鲁的例子见今年IFLA年会文章:Peter Leonard. Mining large datasets for the humanities. IFLA WLIC : (2014).
早年黑Google的博文:Google实验室新品Books Ngram Viewer:数据的可靠性(2010年12月18日)