重量级图书馆关联数据项目LD4P获得资助

尽管近来关联数据(LD/LOD)的前途不断受到质疑,但在美国图书馆界却仍然欣欣向荣,新资助项目源源不断。今年LOD最大新闻:
4月22日,斯坦福大学图书馆宣布Linked Data for Production (LD4P)项目获得安德鲁梅隆基金150万美元资助。项目为期两年(2016-2018),斯坦福主持,哥伦比亚、康奈尔、哈佛、普林斯顿大学及美国国会图书馆(LC)6家机构协作。

Linked Data for Production (LD4P)
项目维基首页介绍:“LD4P是六个机构间的一项合作(哥伦比亚、康奈尔、哈佛、国会图书馆、普林斯顿和斯坦福大学),在安德鲁梅隆基金提供的150万美元支持下,开始转换技术服务生产流程至关联开放数据(LOD)。转换的第一阶段将致力于【1】开发生产元数据为公有LOD的能力,【2】扩展BIBFRAME本体以包含图书馆必须处理的众多资源格式,【3】更广泛图书馆社区的参与以确保一个可持续、可扩展的环境。”(编号为本人所加)

LD4P准备已久,今年初ALA仲冬会议的BIBFRAME更新论坛上,LD4P曾集体亮相,3家参与馆做相关报告:普林斯顿(德里达特藏)、哥伦比亚(艺术收藏品)和康奈尔(嘻哈音乐传单)。今年夏天ALA年会也会有相关报告。从项目时间表看,其他3家关注重点是:斯坦福(表演音乐)、哈佛(地图、动态图像)、LC(音像与录音、印刷图片与照片、一般馆藏、BIBFRAME 2.0)。
各家都会对BIBFRAME作出评估,并做必要扩展。项目背景对BIBFRAME有较多涉及。

项目维基很多内容还在建设中。列出的相关项目4个(其中3个为官方IMLS资助,1个为机构内部项目[梅隆基金资助项目]):
BIBFLOW和Linked Open Data for Special Collections(即伊得诺伊大学的BIBFRAME项目),介绍见后“参见”
Western Name Authority File 和 National Strategy for Shareable Local Name Authorities:2016年美国IMLS资助的2个关联开放数据项目,分别资助犹他大学5万美元、康奈尔大学9.8万余美元。

2014年安德鲁梅隆基金曾资助康奈尔主持的Linked Data for Libraries (LD4L)项目100万美元,哈佛和斯坦福3家大学协作,寻求开发新的基于关联数据的工具和方法,以更好地描述图书馆的学术信息资源。LD4L同样为期两年(2014-2016),斯坦福在新闻发布中称,“两项目将协同工作、相互促进各自目标”。
参见LD4L项目维基:Linked Data for Libraries (LD4L)

via [BIBFRAME] Linked Data for Production / by Philip E. Schreur. 2016-5-9

参见:
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29;对LD4P有简单介绍,其中提到后加入的第7家马里兰大学最终未列入)
“德里达图书馆”关联数据计划(2016-1-29;普林斯顿的LD4P)
伊利诺伊大学的BIBFRAME项目(2016-1-17)[并非前述项目]
推动关联数据应用:《数据技术新视界——与汤贝克面对面》参会记录(2015-5-6;将BIBFLOW列为当时的4个项目之一)
小河尘在书社会的日志:Bibflow简介(2015-05-08)

ALA 2016仲冬会议的BIBFRAME更新论坛

2015年11月初LC发布BIBFRAME 2.0的7个草案(题名、施事者和职能、单件、事件、标识符和附注、管理元数据、类别),表示希望在2016年1月初正式发布2.0版。3个月来,除题名外,其他草案陆续在BIBFRAME邮件组中得到甚至不止一轮连绵而热烈的讨论,从LC成员在讨论中的回应看,似乎2.0版还没到发布的火候。

近日2016年初ALA仲冬会议上的“BIBFRAME更新论坛”的PPT放出。从负责BF开发的LC网络开发与MARC标准办公室主任Sally McCallum的报告看, 感觉BIBFRAME离完成还有很长的路要走。

BIBFRAME Update Forum at ALA Midwinter Meeting 2016
本届论坛内容丰富,除LC、OCLC及最初为BF建模的Zepheira公司的报告外,还有1个供应商报告、3个大学图书馆的LD4P项目报告。

One Supplier’s Approach to BIBFRAME/Linked Data / Tiziana Possemato, Casalini libri
Casalini libri是意大利的编目供应商,目前在做三项关联数据及BF相关工作:
1、强化MARC记录以简化BF转换(主要是为检索点提供URI)。
2、使用ALIADA框架自动由MARC转换到RDF,使用BF词表及其他词表。
3、开始由书目和规范记录创建FRBR/BF层(个人簇、作品族,通过API从外部规范档如VIAF检索数据开始),在LOD实现中帮助图书馆员和最终用户。
看后觉得欧洲在关联数据方面确实走在前头。有两方面值得关注:
1、工具:ALIADA框架(关联数据范式下自动发布图书馆数据,www.aliada-project.eu)。欧盟资助项目,意大利、西班牙、匈牙利参与,成果开源。
2、BIBFRAME-UP三层架构:个人/作品:Sparql端点;实例:Solr搜索引擎&分面、导航;单件:本地系统及OPAC

LD4P(Linked Data for Production)项目
目前项目资助应该还没有到位,因此还在计划阶段,三个馆的报告分别关注某一特藏,普林斯顿是德里达特藏、哥伦比亚是艺术收藏品、康奈尔是嘻哈音乐传单 。本项目关注的是“生产”或者说“原编”(而非原有数据的转换),扩展BF会是一种选择或至少是关注重点【感觉并不一定采用BF】。
附关于LD4P:在哈佛大学的LD4P页面,有更多项目为申请梅隆基金的准备信息,成员共7家,即康奈尔大学、哥伦比亚大学、哈佛大学、普林斯顿大学、斯坦福大学、LC及后加入的马里兰大学

参见:
BIBFRAME词表2.0草案发布(2015-11-4)
ALA 2014仲冬会议中的BIBFRAME(附会议规模)(2014-2-5)
LC书目框架转换行动:首届更新论坛(2012-2-7)

推动关联数据应用:《数据技术新视界——与汤贝克面对面》参会记录

昨天在上图参加《数据技术新视界——与汤贝克面对面》。会议全程录像,未参会者可期待视频上网。

Keven的开场报告《图书馆关联数据应用概述》为会议的热身部分。除引用不少资料外,还归纳了图书馆四类数据即书目数据(元数据)、数字资源(扫描及全文数据)、读者数据、使用数据(流通、下载),最后提出图书馆为什么要关联数据的四个理由(未记全,暂略),等等。

Tom Baker有三个报告,从关联数据入门到应用,到图书馆关联数据(主要涉及编目领域)。几个引语:
“追求完美是做好事的大敌”,他的观点可以参见远洋师在书社会推荐过的《Bulletin of the Association for Information Science and Technology》(April/May 2015, V.41, No.4)专栏“关联数据和弱语义的魅力”(Linked Data and the Charm of Weak Semantics),Thomas Baker等组稿。
“一个链接抵得上千言万语”。以前可能是说“一张图片”或“一段音乐”……,现在“链接”也有同样效果,对计算机来说恐怕更是如此。
对于BIBFRAME,他提及目前有四个项目
-美国国会图书馆(LC)
-LD4L (Linked Data for Libraries Project):斯坦福、康奈尔、哈佛及梅隆基金
-Bibflow Project:加州大学戴维斯分校+Zepheira
-美国国家医学图书馆(NLM)实验
(会后问Tom新出现的bibfra.me,最近在BIBFRAME邮件组引起讨论的,他将其归入bibflow项目)
关于“编目的未来”,他给出三个选项,没有答案:
-MARC?
-BIBFRAME,前述四个项目中的哪一个?何时?
-schema.org+RDFa?商业项目的稳定性存疑。(也提及Google Reader这个说关就关的前车之鉴)

会后询问Tom去年他们写的文章《语义网中资源描述的多实体模型:FRBR、RDA和BIBFRAME比较》,似乎各方对到底应该如果做RDF并不很清楚。在Keven中介下,得到Tom的解释,或许并非问题的解答,但却让我理解了他们的观点(方括号中为我的想法):
FRBR第1组实体作为类,这个thing是什么?一本书分成WEMI,无法让普通用户理解(事实上编目员也不理解,国内外各机构做RDA培训的第一部分都是用FRBR给编目员洗脑,否则无法掌握RDA)。应该用profile实现FRBR(这就有点像现在的用MARC数据做FRBR化了,虽则原本编目时并没有刻意区分过四种实体——如此理解,就对现有MARC做profile是不是也可以呢,嗯?)。

参见:读书笔记:FRBR、RDA和BIBFRAME词表的RDF推理测试(2015-3-7)

———-实际应用隆重登场———-
下午夏翠娟和陈涛的二个报告,相信对于关联数据实际应用会很有启发和帮助。

夏翠娟《基于关联数据的家谱知识库原型系统》,从为什么采用关联数据、系统实现了什么、如何实现三个方面介绍上图的家谱系统,并做了现场演示,效果相当好。
应该说“如何实现”部分介绍得不够多,问答阶段有MM询问关联了哪些外部关联资源,夏MM给出了更多信息:如[geonames的关联]地图位置确定用API获取,并非在本地保存经纬度数据;人名通过拼音与DBPedia关联。相信还有更多。

去年11月该系统的家谱本体发布时,曾写博文抢先作了介绍(“基于BIBFRAME的上海图书馆家谱本体发布”),目前该网站已是一个原型(演示)系统了,可以去玩玩:
上海图书馆:家谱知识库系统
现场演示的家族迁徙图很炫,只是目前网站上还没有。或许属于会后Keven透露的该系统未来的更多功能吧。
[更正:在《上川明经胡氏宗谱》中有迁徙图,去看看吧]

陈涛(中科院生命科学信息中心)《关联数据的技术实现框架》,介绍了实现关联技术的各种现有技术与工具,涉及基础框架、合并工具、发布工具、存储库、查询、序列化、索引、可视化等等。
陈TX对这一领域相当熟悉,有感兴趣者,可以加入他的QQ群共同探讨:150461365 三人行(语义有你)