关联数据 – 第 26 页 – 编目精灵III

推动关联数据应用：《数据技术新视界——与汤贝克面对面》参会记录

昨天在上图参加《数据技术新视界——与汤贝克面对面》。会议全程录像，未参会者可期待视频上网。

Keven的开场报告《图书馆关联数据应用概述》为会议的热身部分。除引用不少资料外，还归纳了图书馆四类数据即书目数据（元数据）、数字资源（扫描及全文数据）、读者数据、使用数据（流通、下载），最后提出图书馆为什么要关联数据的四个理由（未记全，暂略），等等。

Tom Baker有三个报告，从关联数据入门到应用，到图书馆关联数据（主要涉及编目领域）。几个引语：
“追求完美是做好事的大敌”，他的观点可以参见远洋师在书社会推荐过的《Bulletin of the Association for Information Science and Technology》(April/May 2015, V.41, No.4)专栏“关联数据和弱语义的魅力”（Linked Data and the Charm of Weak Semantics），Thomas Baker等组稿。
“一个链接抵得上千言万语”。以前可能是说“一张图片”或“一段音乐”……，现在“链接”也有同样效果，对计算机来说恐怕更是如此。
对于BIBFRAME，他提及目前有四个项目：
－美国国会图书馆（LC）
－LD4L (Linked Data for Libraries Project)：斯坦福、康奈尔、哈佛及梅隆基金
－Bibflow Project：加州大学戴维斯分校+Zepheira
－美国国家医学图书馆（NLM）实验
（会后问Tom新出现的bibfra.me，最近在BIBFRAME邮件组引起讨论的，他将其归入bibflow项目）
关于“编目的未来”，他给出三个选项，没有答案：
－MARC？
－BIBFRAME，前述四个项目中的哪一个？何时？
－schema.org+RDFa？商业项目的稳定性存疑。（也提及Google Reader这个说关就关的前车之鉴）

会后询问Tom去年他们写的文章《语义网中资源描述的多实体模型：FRBR、RDA和BIBFRAME比较》，似乎各方对到底应该如果做RDF并不很清楚。在Keven中介下，得到Tom的解释，或许并非问题的解答，但却让我理解了他们的观点（方括号中为我的想法）：
FRBR第1组实体作为类，这个thing是什么？一本书分成WEMI，无法让普通用户理解（事实上编目员也不理解，国内外各机构做RDA培训的第一部分都是用FRBR给编目员洗脑，否则无法掌握RDA）。应该用profile实现FRBR（这就有点像现在的用MARC数据做FRBR化了，虽则原本编目时并没有刻意区分过四种实体——如此理解，就对现有MARC做profile是不是也可以呢，嗯？）。

参见：读书笔记：FRBR、RDA和BIBFRAME词表的RDF推理测试（2015-3-7）

———-实际应用隆重登场———-
下午夏翠娟和陈涛的二个报告，相信对于关联数据实际应用会很有启发和帮助。

夏翠娟《基于关联数据的家谱知识库原型系统》，从为什么采用关联数据、系统实现了什么、如何实现三个方面介绍上图的家谱系统，并做了现场演示，效果相当好。
应该说“如何实现”部分介绍得不够多，问答阶段有MM询问关联了哪些外部关联资源，夏MM给出了更多信息：如[geonames的关联]地图位置确定用API获取，并非在本地保存经纬度数据；人名通过拼音与DBPedia关联。相信还有更多。

去年11月该系统的家谱本体发布时，曾写博文抢先作了介绍（“基于BIBFRAME的上海图书馆家谱本体发布”），目前该网站已是一个原型（演示）系统了，可以去玩玩：
上海图书馆：家谱知识库系统
现场演示的家族迁徙图很炫，只是目前网站上还没有。或许属于会后Keven透露的该系统未来的更多功能吧。
[更正：在《上川明经胡氏宗谱》中有迁徙图，去看看吧]

陈涛（中科院生命科学信息中心）《关联数据的技术实现框架》，介绍了实现关联技术的各种现有技术与工具，涉及基础框架、合并工具、发布工具、存储库、查询、序列化、索引、可视化等等。
陈TX对这一领域相当熟悉，有感兴趣者，可以加入他的QQ群共同探讨：150461365 三人行（语义有你）

FRBR、RDA和BIBFRAME词表的RDF推理测试

有关新兴的书目RDF词表的正式论文不多见。因此当看到远洋老师在书社会Keven日志的评论中推荐此文时，马上下载，然后花了几个晚上阅读、消化此文，对RDF词表有了与先前不同的理解。

《语义网中资源描述的多实体模型：FRBR、RDA和BIBFRAME比较》
Baker, T., Coyle, K., & Petiya, S. (2014). Multi-entity models of resource description in the Semantic Web: A comparison of FRBR, RDA, and BIBFRAME. Library Hi Tech, 32(4), 562-582. doi:10.1108/LHT-08-2014-0081 (Preprint)

原文摘要：新兴图书馆标准中，书目描述正采用多实体模型，描述从概念性作品到物理单件的不同抽象层。其中三个已发布为使用语义网标准RDF的词表：FRBR、RDA和BIBFRAME。作者使用通用的语义网可用软件，测试了基于这三个词表的RDF数据。分析证明，这些模型意图的数据结构不被RDF词表支持。在某些情况下，这导致词表间不受欢迎的不兼容，在Web的开放数据环境中对互操作是一种损害。

文章含脚注及参考文献共18页（期刊版20页），读完后对文章概要、一些基本概念及作者的观点备注如下（有时很难分清是作者观点还是基本概念）：
1、文章概要
文章分别使用FRBR、RDA和BIBFRAME词表，设计若干非正统数据样例，用RDF推理机测试，结果表明（FRBR词表）类的互斥会造成问题，而（RDA和BIBFRAME词表）属性与类的非一对一“错误”并未被检测出来（换言之虽不符合词表定义及其校验目的，但未影响到实际使用）。文章没有直接做三种词表的比较。
2、关于RDF词表
（1）RDF类不定义属性；RDF属性独立于类，原则上可用于描述任何类的实例。
（2）基于推导的RDF语义在本质上是提供（增加）信息的。RDF定义域声明允许推理机简单推导：以一个属性描述的资源，也是该定义域类的成员。
（3）OWL公理（类成员、基数、互斥）不是数据检验约束。RDF类不支持数据结构校验。新兴的RDF检验方法会在RDF词表本身之外表达这些约束。
3、关于书目RDF词表
（1）目前的多实体书目模型的RDF词表，概念化书目事物(thing)为属于不同RDF类的资源集。
（2）FRBR定义类互斥。当描述类的实例的数据必须与描述完全不同类的实例的数据集成时，互斥会造成问题。
（3）定义的约束越少，RDF词表越可重用。从质量控制需求，对书目数据的校验约束应该采用应用纲要等方法，独立于词表表达。

ISBD与FRBR之间的语义关系

书蠹精微博提示ISBD与RDA协调有更新，前往ISBD评审组网站一看。发现《ISBD元素集与RDA元素集校准》由1.1版升级为3.1版（参见：2014年1月17日的“ISBD与RDA的对照”）。

又看到不知什么时候，ISBD评审组网站上发布了2013年由Gordon Dunsire完成的报告（自称paper），关于ISBD与FRBR之间的语义关系：Resource (ISBD) and Work, Expression, Manifestation, Item (FRBRer) semantic relationship

Resource and Work, Expression, Manifestation, Item / Gordon Dunsire, 28 July 2013. Amended 6 October 2013, following comments by Patrick Le Boeuf and discussion at IFLA 2013

ISBD是不分FRBR层次的，在此报告中作为“资源”，与FRBR的WEMI一同作为“类”（表1）；
WEMI之间的关系（属性），由WEMI分别作为定义域和值域（表2）；
资源与WEMI之间的关系，则分别由资源和WEMI作为定义域和值域（表3）。

说到底，这种表有什么用呢？
文中提出了两个案例：
1、由遗留书目记录发布关联数据
2、集成基于FRBR的元数据

当初ISBD做统一版时，没有采用FRBR模型。未来根据不同模型、由不同RDF词表生成数据之间的对照，会是关注的热点。