私人定制版Schema.org

Richard Wallis是WorldCat应用schema.org及schema书目扩展的重要人物。他2012.4-2015.7任职于OCLC,现为独立咨询人。
在去年底DCMI/ASIS&T的两次网络会议上(2015-11-18和2015-12-2),他介绍了Schema.org及扩展机制,视频与PPT可下载:
Schema.org in Two Parts: From Use to Extension
Part 1: Fit For a Bibliographic Purpose(适合书目用途):我感兴趣的部分包括:SchemaBibEx、BiblioGraph.net、Schema.org 2.0扩展机制
Part 2: Extending Potential and Possibilities(扩展潜力与可能性 ):后面三分之一有应用各种软件及信息:应用schema.org的各种工具、扩展schema.org的有用链接,以及最后总结的schema.org概要。

Richard Wallis本月发长博文,继续此一主题。
Data Liberate: Evolving Schema.org in Practice Pt1: The Bits and Pieces (February 10, 2016)
目前的第1部分针对“有建议,如何测试、分享并提交到schema.org社区”的问题。博文按步骤详述整个实际操作过程,并有丰富截屏。
昨天照猫画虎,把前半部分(从下载到本地、到发布到公开访问网址)操作了一遍。结论是,需要首先看前述网络会议第2部分,了解第76-98页PPT(扩展Schema.org有用链接)并下载述及的软件。另外还需安装Python 2.7(GAE配套),PPT及博文中均未提及。

操作准备:
1 帐号:Github、Google
2 软件安装
2.1 与Github交互的Git客户端
博文用命令行工具,我使用GitHub Desktop,Clone、Commit等下载、上传操作比命令行直观方便。GitHub Desktop带有命令行工具Git Shell,有些操作可使用。
2.2 Python 2.7(与GAE配套使用,要求先安装)
Python官网https://www.python.org/首页,下载处挂两个版本的链接,最新版3.5.1和2.7.11——猜想是因为GAE的缘故。
2.3 Google App Engine SDK(要求Python版)
Google App Engine SDK for Python

步骤概要(详见原博文):
1、登录Github,访问Schema.org repository,Fork(分叉,即在本人帐号下复制一份)
2、GitHub Desktop:clone(克隆,即复制到本机)
3、Git Shell:运行本地版本:dev_appserver.py schemaorg(须注意路径),完成后可以通过浏览器访问http://localhost:8080/,如同访问schema.org网站
4、生成共享公共版
(1)访问https://console.cloud.google.com/(登录Google帐号)创建新项目(对Schema.org,项目名通常以sdo-起始)
(2)修改本地克隆文件夹app.yaml文件,应用名改为项目名
(3)Git Shell:上传配置更新:appcfg.py update schemaorg(须注意路径,可能需要根据提示做其他操作)
(4)完成后即可用浏览器访问:http://项目名.appspot.com/
我的schema.org共享公共版:http://sdo-catwizard.appspot.com/ (Schema.org 2.2版,目前没有做任何修改)【可惜这个也是有墙的,可谓全程有墙陪伴】

原博后半部分的修改Schema.org步骤
1、本机修改
2、Git上传修改(add、commit) 至本人Github
3、Github网站:向Fork的原repo提出修改请求(New pull request)
Schema.org的新版本在处理请求清单后发布(Closed是处理完成的,Open是当前的)——完全参与式。

“德里达图书馆”关联数据计划

普林斯顿大学图书馆在ALA 2016仲冬会议的BIBFRAME更新论坛(BIBFRAME Update Forum at ALA Midwinter Meeting 2016)上,介绍了该馆将进行的德里达特藏关联数据计划。PPT备注页有详细解释,因而可以较全面了解:
De-“framing” Derrida: BIBFRAME, inscriptions, and library of Jacques Derrida / Jennifer Baxmeyer

对我来说,印象特别深刻的是他们对特藏揭示的全方位设计。比如图书“折角”也当作一种需要记录的标记;更意想不到的是,使用档案系统,记录每本书在原藏地(德里达家中)的相对位置,可了解哪本书边上放的是哪本书(如果接收图书时没有深思熟虑,随便扎捆打包,就无法复原当时的场景了)。
基本印象:对该特藏的完整揭示更接近“数字人文”而非“书目描述”范畴(首期作者题词部分尚可视为单件层书目描述)。

背景:
普林斯顿大学2015年3月完整购入著名哲学家德里达(1930-2004)个人图书馆计1.6万件藏书及其他单件,是为“德里达图书馆”。
在这些书上,有德里达阅读时留下的大量标记/注释(折角、划重点线、页边标记、报时贴、夹其他文字材料)。这些书有相当部分为原作者在书上题词后送给德里达的(超过6300册),对这些书中提及自己的部分,德里达基本上都作有标记。
所有这些信息(包括相邻放置图书信息),对研究德里达的学者都会是感兴趣的内容。比如目前已统计出题词图书的作者(其中超过10册的有12位),可显示其专业及社交网络。
目前的MARC记录很难确切揭示上述信息;档案标准EAD和EAC-CPF稍好,可以记录更多属性,但不具有链接、跳转功能。也就是说,即使信息都记录下来了,也只是文字(字符串),而没有包含标识符。

计划概述:
希望扩展BIBFRAME的单件层描述,采用并扩展W3C的Web注释以包括珍本书特征,揭示所有标记/注释及题词信息,最终生成机器可操作格式的数据,提供给学者做研究。
分担工作:评估BF及与德里达收藏相关的词表,识别需扩展和修订的领域,尤其在:
— 手稿注释/题词的语义
— 原始和转录注释/题词的关系
交付产品
— 德里达特藏中包含作者题词的单件子集的BF资源描述(期望2018年3月完成)【更艰巨的标记/注释部分,是否将会通过众包解决?】
— 用于特藏资料的原始资源描述的BF扩展本体

——— 联想的分割线 ———
在图书馆馆藏日益趋同的当下,独一无二的特藏是最能体现专业与学术图书馆价值的部分。
在获得特藏以后如何提供利用,不同图书馆有相当大的差异。
国内最多的是秘藏,近年有通过影印出版方式提供利用。出版还可取得收益,多少可补偿获得时的付出,虽然先前的付出与后来的收益多半是完全不同的两条线。
美国不少图书馆的方式则是直接提供利用,近年有越来越多图书馆开放电子版网上利用,甚至如普林斯顿大学上述工作那样以深度揭示提供利用。拥有特藏本身就已表明图书馆的独特眼光,提供利用则体现图书馆的存在价值,深度揭示更展现图书馆的专业能力,由此而吸引更多的捐赠、资助等投入,从而进一步增强图书馆在业界的地位。
不同的环境,产生不同的结果。

ALA 2016仲冬会议的BIBFRAME更新论坛

2015年11月初LC发布BIBFRAME 2.0的7个草案(题名、施事者和职能、单件、事件、标识符和附注、管理元数据、类别),表示希望在2016年1月初正式发布2.0版。3个月来,除题名外,其他草案陆续在BIBFRAME邮件组中得到甚至不止一轮连绵而热烈的讨论,从LC成员在讨论中的回应看,似乎2.0版还没到发布的火候。

近日2016年初ALA仲冬会议上的“BIBFRAME更新论坛”的PPT放出。从负责BF开发的LC网络开发与MARC标准办公室主任Sally McCallum的报告看, 感觉BIBFRAME离完成还有很长的路要走。

BIBFRAME Update Forum at ALA Midwinter Meeting 2016
本届论坛内容丰富,除LC、OCLC及最初为BF建模的Zepheira公司的报告外,还有1个供应商报告、3个大学图书馆的LD4P项目报告。

One Supplier’s Approach to BIBFRAME/Linked Data / Tiziana Possemato, Casalini libri
Casalini libri是意大利的编目供应商,目前在做三项关联数据及BF相关工作:
1、强化MARC记录以简化BF转换(主要是为检索点提供URI)。
2、使用ALIADA框架自动由MARC转换到RDF,使用BF词表及其他词表。
3、开始由书目和规范记录创建FRBR/BF层(个人簇、作品族,通过API从外部规范档如VIAF检索数据开始),在LOD实现中帮助图书馆员和最终用户。
看后觉得欧洲在关联数据方面确实走在前头。有两方面值得关注:
1、工具:ALIADA框架(关联数据范式下自动发布图书馆数据,www.aliada-project.eu)。欧盟资助项目,意大利、西班牙、匈牙利参与,成果开源。
2、BIBFRAME-UP三层架构:个人/作品:Sparql端点;实例:Solr搜索引擎&分面、导航;单件:本地系统及OPAC

LD4P(Linked Data for Production)项目
目前项目资助应该还没有到位,因此还在计划阶段,三个馆的报告分别关注某一特藏,普林斯顿是德里达特藏、哥伦比亚是艺术收藏品、康奈尔是嘻哈音乐传单 。本项目关注的是“生产”或者说“原编”(而非原有数据的转换),扩展BF会是一种选择或至少是关注重点【感觉并不一定采用BF】。
附关于LD4P:在哈佛大学的LD4P页面,有更多项目为申请梅隆基金的准备信息,成员共7家,即康奈尔大学、哥伦比亚大学、哈佛大学、普林斯顿大学、斯坦福大学、LC及后加入的马里兰大学

参见:
BIBFRAME词表2.0草案发布(2015-11-4)
ALA 2014仲冬会议中的BIBFRAME(附会议规模)(2014-2-5)
LC书目框架转换行动:首届更新论坛(2012-2-7)