暑假偷师上图:“URI设计”专题分享与讨论

上海图书馆夏MM的国家社科基金课题,结合上图的关联数据项目,基本上每周一次相关专题分享与研讨。参与者来自多个机构,看着他们不断前进的步伐,很羡慕那种氛围。
本周他们讨论URI规则等,是我感兴趣的主题。正巧昨天开始正式放暑假,于是今天在37度的烧烤模式下,去上图蹭听学习。感谢他们的接纳。
首先由许磊主讲《URI设计原则》,从爱尔兰国立大学两位研究员对URI类型及设计模式等的研究开始,以所述URI类型,分析各国图书馆界关联数据和政府开放数据的URI模式。
三十分钟报告结束,进入讨论阶段,夏MM主持探讨前已发布的家谱系统URI是否需要更改,哪些需要改。Keven并进一步提出上图的URI政策问题,为今后更多项目做准备。尽管现场没有定论,但确定会后据此提出方案。至此不过四十五分钟,真是相当务实高效的会议。

今天的报告让我对URI类型和模式有了比较清晰的认识,至少区分Thing、Concept、Resource和Onto四种URI是我比较明白的,Hierarchical URI也可理解,Representation URI就不明所以了。期待许磊写出文章。

———-小河尘的分割线———-
许磊在书社会发了不少博文,主要涉及编目与关联数据。关于MARC、RDA、FRBR、BIBFRAME等等的学习笔记,信息量相当大。比如BIBFRAME方面有:
【学习笔记】BF规范(2015-06-07)
Bibflow简介(2015-05-08)
[学习笔记]RDA注册元素与BF属性–题名篇(2014-08-29)
[续]catwizard老师的博文–Bibframe.org的类与属性发布(2014-04-30)[此文刚才查时才发现,估计一年多前还没加上书社会好友,因此先前没注意到]

推动关联数据应用:《数据技术新视界——与汤贝克面对面》参会记录

昨天在上图参加《数据技术新视界——与汤贝克面对面》。会议全程录像,未参会者可期待视频上网。

Keven的开场报告《图书馆关联数据应用概述》为会议的热身部分。除引用不少资料外,还归纳了图书馆四类数据即书目数据(元数据)、数字资源(扫描及全文数据)、读者数据、使用数据(流通、下载),最后提出图书馆为什么要关联数据的四个理由(未记全,暂略),等等。

Tom Baker有三个报告,从关联数据入门到应用,到图书馆关联数据(主要涉及编目领域)。几个引语:
“追求完美是做好事的大敌”,他的观点可以参见远洋师在书社会推荐过的《Bulletin of the Association for Information Science and Technology》(April/May 2015, V.41, No.4)专栏“关联数据和弱语义的魅力”(Linked Data and the Charm of Weak Semantics),Thomas Baker等组稿。
“一个链接抵得上千言万语”。以前可能是说“一张图片”或“一段音乐”……,现在“链接”也有同样效果,对计算机来说恐怕更是如此。
对于BIBFRAME,他提及目前有四个项目
-美国国会图书馆(LC)
-LD4L (Linked Data for Libraries Project):斯坦福、康奈尔、哈佛及梅隆基金
-Bibflow Project:加州大学戴维斯分校+Zepheira
-美国国家医学图书馆(NLM)实验
(会后问Tom新出现的bibfra.me,最近在BIBFRAME邮件组引起讨论的,他将其归入bibflow项目)
关于“编目的未来”,他给出三个选项,没有答案:
-MARC?
-BIBFRAME,前述四个项目中的哪一个?何时?
-schema.org+RDFa?商业项目的稳定性存疑。(也提及Google Reader这个说关就关的前车之鉴)

会后询问Tom去年他们写的文章《语义网中资源描述的多实体模型:FRBR、RDA和BIBFRAME比较》,似乎各方对到底应该如果做RDF并不很清楚。在Keven中介下,得到Tom的解释,或许并非问题的解答,但却让我理解了他们的观点(方括号中为我的想法):
FRBR第1组实体作为类,这个thing是什么?一本书分成WEMI,无法让普通用户理解(事实上编目员也不理解,国内外各机构做RDA培训的第一部分都是用FRBR给编目员洗脑,否则无法掌握RDA)。应该用profile实现FRBR(这就有点像现在的用MARC数据做FRBR化了,虽则原本编目时并没有刻意区分过四种实体——如此理解,就对现有MARC做profile是不是也可以呢,嗯?)。

参见:读书笔记:FRBR、RDA和BIBFRAME词表的RDF推理测试(2015-3-7)

———-实际应用隆重登场———-
下午夏翠娟和陈涛的二个报告,相信对于关联数据实际应用会很有启发和帮助。

夏翠娟《基于关联数据的家谱知识库原型系统》,从为什么采用关联数据、系统实现了什么、如何实现三个方面介绍上图的家谱系统,并做了现场演示,效果相当好。
应该说“如何实现”部分介绍得不够多,问答阶段有MM询问关联了哪些外部关联资源,夏MM给出了更多信息:如[geonames的关联]地图位置确定用API获取,并非在本地保存经纬度数据;人名通过拼音与DBPedia关联。相信还有更多。

去年11月该系统的家谱本体发布时,曾写博文抢先作了介绍(“基于BIBFRAME的上海图书馆家谱本体发布”),目前该网站已是一个原型(演示)系统了,可以去玩玩:
上海图书馆:家谱知识库系统
现场演示的家族迁徙图很炫,只是目前网站上还没有。或许属于会后Keven透露的该系统未来的更多功能吧。
[更正:在《上川明经胡氏宗谱》中有迁徙图,去看看吧]

陈涛(中科院生命科学信息中心)《关联数据的技术实现框架》,介绍了实现关联技术的各种现有技术与工具,涉及基础框架、合并工具、发布工具、存储库、查询、序列化、索引、可视化等等。
陈TX对这一领域相当熟悉,有感兴趣者,可以加入他的QQ群共同探讨:150461365 三人行(语义有你)

台湾中研院“中华文明之时空基础架构”(CCTS)

微博@陆浑戎 老师推介台湾中研院“中华文明之时空基础架构”(CCTS),看名称就是融合地理信息的数字人文项目。大致看了一下,项目于2003年由面向本单位的《中国历史文化地图系統》改称后公开,聚合了很丰富的中国历史地理内容。除查询使用外,还可通过授权使用基础GIS及其他数据,进行数字人文研究。备记如下。

– 计画简介
“本系统起源于跨领域的学术研究应用需求,期望建构以中国为空间范围,并以原始社会迄今的中国历史为时间纵深,以中国文明为内涵的整合性资讯应用环境。”
“本系统包含基本空间图资、WebGIS整合应用环境、以及主题化的属性资讯三大部分。……提供上古至清代,上下逾二千年的中国历代基本底图,並辅之以持续整理蒐集之各类历史地图、遥测影像等基础图资。”

– 基础地理信息主要根据以下2种地图整合而成:
1、谭其骧先生主编《中国历史地图集》(8册),经中国社会科学院授权,由中央研究院制成矢量化版本。
2、中国国家测绘局中国国家基础地理信息中心发布1:1,000,000《中国数字地图》(Arc/China)。

– 使用
系统由中研院历史语言研究所和计算机中心主导,蔡元培人文社会科学研究中心统筹办理。
系统开放资料内容包含基底图、主題地图以及特定主题资料库等三部分。
向学术机构提供使用授权,既可以通过IP范围限定联机访问,也可以建立镜像站(主机共置server collocation方式)。目前大陆有2家授权使用单位:中山大学(2008年)和上海交通大学(2013年)。

– 时空架构
“譚其驤中國歷史地圖原始影像瀏覽系統”需登录使用。
另有若干动画展示,包括:历代疆域变迁、历代聚落变迁、历代黄河变迁、历代国都变迁、历代中国变迁、中国古代文化圈。(看看挺长知识的,比如会明白“自古以来就是中国领土”是句多么没有意义的话)

– 研究计划
采用其地图信息的研究项目,包括:黄河泛滥分析、明清江南市镇研究、汉墓分布研究、中央研究院傅斯年图书馆人名权威资料库、苏轼文学地图、郑和航海图、唐代交通图。其中苏轼文学地图和郑和航海图可以链接到详细的项目页面,其他仅各展示静态地图一张。

– 资源整合
中国历史地理相关专题数据库汇总,部分与CCTS地图资料进行整合后的界面需授权访问(传统界面可公开访问)。大致分类:
GIS库:晚明松江地区历史地理信息系统数据库(香港中文大学),汉唐长安之城内郊外规划资料库
事实库:清代粮价资料库、清代人口史研究资料库
全文图像库:中央研究院汉籍电子文献,历史语言研究所藏汉代简牍资料库、佛教石刻造像拓本资料库、汉代石刻画象拓本资料库、中国西南少数民族联合资料库
书目/人名库:中国地方志书目查询系统、历史语言研究所明清档案人名权威资料库

– 查询检索
若干嵌入式检索框,包括:中国历史地名检索(根据资料来源,详细信息可能包括层级、年代、经纬度等)

参见:哈佛大学《中国历代人物传记资料库》(CBDB)(2014年8月3日)