文字或是字符串:RDF双属性?

最近BIBFRAME邮件组的讨论热点之一是“RDF双属性”(RDF dual properties),3月份时另一个话题“BIBFRAME和RDA/RDF”(BIBFRAME and RDA/RDF)也涉及这个问题——不只是BIBFRAME存在这个问题,RDA/RDF也同样存在。缘由是:
RDF三元组有二种基本形式:
主体(URI)-属性(URI)-客体(URI)
主体(URI)-属性(URI)-客体(文字)
以题名(属性)为例,客体可能是文字(比如“红楼梦”),也可能是资源URI(比如对应《红楼梦》题名规范记录的URI)。对机器来说,URI和文字的处理方式是不同的,这就引出了是否要为这两类客体设计2个不同属性的问题。
目前来讲还没有答案——尽管从讨论看,个人感觉最终采用单属性的可能性比较大。

– 本次话题由LC的Ray Denenberg(LC的W3C代表)提出,向大家征求意见。
他称LC正在改进BIBFRAME词表,其中一个关键问题就是:是否应该定义“双属性”,以“题名”为例,有2个选项:
(a) 单属性:bf:title,可以取文字或资源
(b) 双属性:bf:titleLiteral和bf:title(或者bf:title和bf:titleResource),各取所需
LC内部的争论一:选项(a)给客户端增加确定客体类型的负担,选项(b)则加重(词表)的复杂性。争论二:是否要优化推理本体:如果是的,则需双属性;如果不是,则应当避免双属性增加的复杂性。
Denenberg以近来W3C在“Web注释”上的争论为此做注:该模型的第一个草稿为每个注释体定义双属性hasBody和hasBodyLiteral。争论的结果是在最近草案模型中改为单属性hasBody。他认为大家并不想为推理优化BIBFRAME词表,因此会建议方法(a)。
参见:Web Annotation Data Model (W3C First Public Working Draft 11 December 2014)

– 斯坦福大学的Robert Sanderson提出了第3个选项(经修正):
(c) 总是用资源,同时允许非常简单地包装为一个字符串
_:work bf:hasTitle [ rdfs:label “题名” ]
讨论中,此法被认为会产生空节点、造成处理上的问题,且会引入标记上的复杂性(什么时候要加方括号),参与讨论者多未认可。

– OCLC的Richard Wallis(schema.org图书馆扩展负责人)态度鲜明:采用(b)会导致术语太多,增加提问、维护和培训的复杂性;(a)显而易见。他以schema.org说明,所有属性默认为字符串,“如果有资源URI则使用,没有则接受字符串”。Wallis同时还以词表使用模式角度,分析4种场景分析,此视角得到Karen Coyle认同。

– Karen Coyle提出了一些原则性的想法,摘译如下:
“我喜欢Richard的功能分析。与其在真空中决定,我认为更值得看实际运作及其影响。我还想确信不是开发一个基于遗产数据的方法论,而是推动遗产数据向前,接近我们想要去的地方。很多数据起着多重作用:检索、显示和标识符,很容易忘记某些看似简单如题名,实际上同时起着所有这些作用。它是显示的标签,识别书目项的重要部分,题名页的文本转录,字顺检索点,排列机制,等等等等,集于一身。我们需要基于功能性把其中一些弄走?”
在3月的讨论中Coyle对RDA/RDF没有规定属性值是字符串还是标识符持否定态度,认为当与RDF数据共用时相当有问题。她提出的解决方案是“创建规则的子集”,为每个属性明确定义数据值。
【以我的理解,如果对应到本次讨论,就是词表采用(a),同时实际使用中通过如profile规定采用文字还是URI】

– OCLC的Jeff Young提供了SKOS扩展标签的链接,指出情况与此类似:
SKOS Simple Knowledge Organization System: Reference (W3C Recommendation 18 August 2009)
去看了一下,SKOS的扩展标签(SKOS-XL)为标签类定义了两种不同属性:
skosxl:Label类的说明是:……实例可以是资源,以URI命名(有skosxl:prefLabel, skosxl:altLabel 和skosxl:hiddenLabel三个属性)
同时又说明……实例有文字形式,采用属性skosxl:literalForm,纯文字:“如果该类两个实例有相同文本形式,不一定是相同资源”
这是2009年的规范,相对2014年的Web Annotation,或许年代久了点?

推动关联数据应用:《数据技术新视界——与汤贝克面对面》参会记录

昨天在上图参加《数据技术新视界——与汤贝克面对面》。会议全程录像,未参会者可期待视频上网。

Keven的开场报告《图书馆关联数据应用概述》为会议的热身部分。除引用不少资料外,还归纳了图书馆四类数据即书目数据(元数据)、数字资源(扫描及全文数据)、读者数据、使用数据(流通、下载),最后提出图书馆为什么要关联数据的四个理由(未记全,暂略),等等。

Tom Baker有三个报告,从关联数据入门到应用,到图书馆关联数据(主要涉及编目领域)。几个引语:
“追求完美是做好事的大敌”,他的观点可以参见远洋师在书社会推荐过的《Bulletin of the Association for Information Science and Technology》(April/May 2015, V.41, No.4)专栏“关联数据和弱语义的魅力”(Linked Data and the Charm of Weak Semantics),Thomas Baker等组稿。
“一个链接抵得上千言万语”。以前可能是说“一张图片”或“一段音乐”……,现在“链接”也有同样效果,对计算机来说恐怕更是如此。
对于BIBFRAME,他提及目前有四个项目
-美国国会图书馆(LC)
-LD4L (Linked Data for Libraries Project):斯坦福、康奈尔、哈佛及梅隆基金
-Bibflow Project:加州大学戴维斯分校+Zepheira
-美国国家医学图书馆(NLM)实验
(会后问Tom新出现的bibfra.me,最近在BIBFRAME邮件组引起讨论的,他将其归入bibflow项目)
关于“编目的未来”,他给出三个选项,没有答案:
-MARC?
-BIBFRAME,前述四个项目中的哪一个?何时?
-schema.org+RDFa?商业项目的稳定性存疑。(也提及Google Reader这个说关就关的前车之鉴)

会后询问Tom去年他们写的文章《语义网中资源描述的多实体模型:FRBR、RDA和BIBFRAME比较》,似乎各方对到底应该如果做RDF并不很清楚。在Keven中介下,得到Tom的解释,或许并非问题的解答,但却让我理解了他们的观点(方括号中为我的想法):
FRBR第1组实体作为类,这个thing是什么?一本书分成WEMI,无法让普通用户理解(事实上编目员也不理解,国内外各机构做RDA培训的第一部分都是用FRBR给编目员洗脑,否则无法掌握RDA)。应该用profile实现FRBR(这就有点像现在的用MARC数据做FRBR化了,虽则原本编目时并没有刻意区分过四种实体——如此理解,就对现有MARC做profile是不是也可以呢,嗯?)。

参见:读书笔记:FRBR、RDA和BIBFRAME词表的RDF推理测试(2015-3-7)

———-实际应用隆重登场———-
下午夏翠娟和陈涛的二个报告,相信对于关联数据实际应用会很有启发和帮助。

夏翠娟《基于关联数据的家谱知识库原型系统》,从为什么采用关联数据、系统实现了什么、如何实现三个方面介绍上图的家谱系统,并做了现场演示,效果相当好。
应该说“如何实现”部分介绍得不够多,问答阶段有MM询问关联了哪些外部关联资源,夏MM给出了更多信息:如[geonames的关联]地图位置确定用API获取,并非在本地保存经纬度数据;人名通过拼音与DBPedia关联。相信还有更多。

去年11月该系统的家谱本体发布时,曾写博文抢先作了介绍(“基于BIBFRAME的上海图书馆家谱本体发布”),目前该网站已是一个原型(演示)系统了,可以去玩玩:
上海图书馆:家谱知识库系统
现场演示的家族迁徙图很炫,只是目前网站上还没有。或许属于会后Keven透露的该系统未来的更多功能吧。
[更正:在《上川明经胡氏宗谱》中有迁徙图,去看看吧]

陈涛(中科院生命科学信息中心)《关联数据的技术实现框架》,介绍了实现关联技术的各种现有技术与工具,涉及基础框架、合并工具、发布工具、存储库、查询、序列化、索引、可视化等等。
陈TX对这一领域相当熟悉,有感兴趣者,可以加入他的QQ群共同探讨:150461365 三人行(语义有你)

FRBR、RDA和BIBFRAME词表的RDF推理测试

有关新兴的书目RDF词表的正式论文不多见。因此当看到远洋老师在书社会Keven日志的评论中推荐此文时,马上下载,然后花了几个晚上阅读、消化此文,对RDF词表有了与先前不同的理解。

《语义网中资源描述的多实体模型:FRBR、RDA和BIBFRAME比较》
Baker, T., Coyle, K., & Petiya, S. (2014). Multi-entity models of resource description in the Semantic Web: A comparison of FRBR, RDA, and BIBFRAME. Library Hi Tech, 32(4), 562-582. doi:10.1108/LHT-08-2014-0081 (Preprint)

原文摘要:新兴图书馆标准中,书目描述正采用多实体模型,描述从概念性作品到物理单件的不同抽象层。其中三个已发布为使用语义网标准RDF的词表:FRBR、RDA和BIBFRAME。作者使用通用的语义网可用软件,测试了基于这三个词表的RDF数据。分析证明,这些模型意图的数据结构不被RDF词表支持。在某些情况下,这导致词表间不受欢迎的不兼容,在Web的开放数据环境中对互操作是一种损害。

文章含脚注及参考文献共18页(期刊版20页),读完后对文章概要、一些基本概念及作者的观点备注如下(有时很难分清是作者观点还是基本概念):
1、文章概要
文章分别使用FRBR、RDA和BIBFRAME词表,设计若干非正统数据样例,用RDF推理机测试,结果表明(FRBR词表)类的互斥会造成问题,而(RDA和BIBFRAME词表)属性与类的非一对一“错误”并未被检测出来(换言之虽不符合词表定义及其校验目的,但未影响到实际使用)。文章没有直接做三种词表的比较。
2、关于RDF词表
(1)RDF类不定义属性;RDF属性独立于类,原则上可用于描述任何类的实例。
(2)基于推导的RDF语义在本质上是提供(增加)信息的。RDF定义域声明允许推理机简单推导:以一个属性描述的资源,也是该定义域类的成员。
(3)OWL公理(类成员、基数、互斥)不是数据检验约束。RDF类不支持数据结构校验。新兴的RDF检验方法会在RDF词表本身之外表达这些约束。
3、关于书目RDF词表
(1)目前的多实体书目模型的RDF词表,概念化书目事物(thing)为属于不同RDF类的资源集。
(2)FRBR定义类互斥。当描述类的实例的数据必须与描述完全不同类的实例的数据集成时,互斥会造成问题。
(3)定义的约束越少,RDF词表越可重用。从质量控制需求,对书目数据的校验约束应该采用应用纲要等方法,独立于词表表达。