知识图谱、语义网、关联数据

2014年时,约翰霍普金斯大学图书馆系统馆员Jonathan Rochkind写了篇博文:语义网还是个事儿吗?当时我作了译介(2014-11-8)。一年后他离开了已经工作9年并且热爱着的图书馆,去了一家软件公司就职。发消息前两天他写了长篇博文《关联数据注意事项》(Linked Data Caution),用众多事实佐证自己先前的看法。在离开博文中,他说自己身心俱疲(Career change, 2015-11-25),不是因为关联数据而离开,但那篇博文可作为他的临别赠言。可以看出他对图书馆前景的深度失望,以及对图书馆界在关联数据上投入巨大的深度担忧。

今天看到鲍捷的《从语义网到知识图谱——语义技术工程化的回顾与反思》,让我又想起Jonathan Rochkind和他对关联数据的看法。计算机领域变化太快,不同观点太多(或者说共识少,要不然也不会有那么多死在沙滩上的前浪),鲍文的观点有待验证。无论如何,作笔记如下。

———从语义网到知识图谱——语义技术工程化的回顾与反思(笔记)———
– 基本观点:“语义网”这两年改名“知识图谱”;工程优于科学【逻辑】。
关于关联开放数据:Tim Berners-Lee(就是我们的神)呼吁:语义网 -> (因为感觉走偏)2006年提出关联数据 -> 2009年公开数据(用RDF结构化)。
关于元数据和知识图谱:元数据 -> 演变成RDF -> 然后演变成一堆奇奇怪怪的语言 -> 然后是schema.org【一统天下?】 -> 最后演变到了今天的知识图谱。
关于RDF:RDF不适合作为存储语言。
RDF的发展:知识的交换语言 -> 数据建模语言 -> 数据存储语言。作为存储语言,由于要完全从头开发,高成本低性能而失败。
2013年Google推目前知识图谱用的Microdata,后来JSON-LD,充分利用现有工具。
存储语言:RDF数据 -> 图数据库(键值数据库?)。图数据库比三元组库和SPARQL更主流。
【乱弹:如此则RDF与MARC倒是很类似,是交换语言而非存储语言。ILS内部并不按MARC格式保存】
关于本体语言OWL和RDF1.1:弱语义的语义网,优于强语义的OWL。
OWL2语言很失败、没人用。
2004的RDF语义是怪胎,2014年RDF1.1是厄运的开始。【在计算机界,常见不同版本并用,并非未及升级,如当年的RSS】
逻辑或推理非常需要成本,在实践中很少使用。大多数时间有数据就够了,有一个结构化的东西就好。
Dublin Core等没能发展起来,因为都是面向机器的,它考虑的是怎么提高机器的效率。RSS想的是我怎么提高人的效率,这样就火起来了。【图书馆界在说要让机器能够用数据,他说要让人用得高效】
构造知识图谱,需要知识工程的技术,需要自然语言处理的技术,需要规则系统,需要正则表达式。有效的才是最好的。

——— Google趋势:知识图谱vs语义网vs关联数据———
在先前博文中语义网(SW)和关联数据(LD)搜索对比基础上,增加知识图谱(KG)做对比。Google搜索趋势显示,在SW下降与LD上升趋势交汇后的2012年5月,KG异军突起超出SW和LD,2012年12月出现第2个超出SW和LD的峰值,其他时间均在两者之下,搜索量起伏不大。SW仍持续下跌,LD则平稳起伏。

Google Trends: KG,SW,LD

另看国家趋势
KG前五:印度100、美国60、德国50、英国47、法国39(没有其他国家)
SW前五:韩国100、巴基斯坦98、印度87、奥地利85、爱尔兰/伊朗74,(英国37、美国30)
LD前五:印度100、巴基斯坦68、菲律宾28、英国/美国均21

华盛顿大学图书馆的RDA/BIBFRAME概念证明实验

目前采用RDA为编目规则做关联数据的编辑器有RIMMF和BIBFRAME Editor(BFE),分别是RDA和美国国会图书馆(LC)的官方推荐编辑器。华盛顿大学(UW)图书馆最近做了一个实验性的RDA输入表单,尝试与前两者有所不同的页面布局:
RDA Input Form
从截屏及说明看,有两个特点:
一是卡片式耳标(tab)选择编辑层次,共6个,分别是内容表达、载体表现、单件及相应的关系说明语。默认文献格式为印刷专著。
二是不同耳标的下部有书目格式单选钮(图书、连续性资源、计算机文档、地图、混乱资料、乐谱、录音、视频资料),提供相应的附加RDA元素。
相比BFE:先选择文献格式(专著、乐谱、连续出版物、地图、蓝光DVD、音频CD),每种格式有实例、作品和实例+作品三个选项。不只是选择先后不同:BEF只限PCC核心元素,UW输入表单包含其他RDA元素。

这个实验被称为proof-of-concept experiment,除了编辑界面,还做了以下几方面的探索:
1、根据RDA录入,以多种RDF方式输出。目前为RDA/RDF和BIBFRAME。
BFE录入界面是RDA,但背后是BIBFRAME到RDA映射,保存格式为BIBFRAME。
UW录入界面是RDA,按接近RDA/RDF的XML保存,最终生成完全的RDA/RDF格式记录,再通过RDA到BIBFRAME映射,自动变换生成BIBFRAME格式记录。
2、网络级编目:记录不保存在本地,而是在远程数据库(WorldCat作品)
3、馆藏信息:扩展OPAC显示需要的馆藏信息、衍生自MARC馆藏格式,用于流通 。RDA完全没有与馆藏相关的元素,BIBFRAME有部分。

本实验的主要结论是:使用与最详细输出尽可能相同粒度的中介格式(本例为RDA),完全可以由一种输入表单,通过自动转换方式输出多种格式。

Joseph Kiegel在BIBFRAME邮件组中介绍此实验后如是说:
“对未来生产编目系统的意义是:输入和输出不必直接相互绑定。相反,编目系统应该足够灵活以多种编码规范输出,可以自动方式达到。这将在不同受众所需粒度层次上方便数据交换。”
“在关联数据世界中,技术环境基本上不同。在MARC中,编目数据直接在承载物上编码,实际上,编目员工作的一部分是编码编目。而且,只有一种承载物。使用关联数据,有多个选项:编目和承载物可以并且应该分离。编目员应该专注于编目数据的创作,不需要用一个规范编码,编码可以在后台自动做。而且,可简单使用多种编码规范,并且应当如此。”【承载物Carrier,指编目格式,如MARC或者BIBFRAME】
via [BIBFRAME] Cataloging in multiple schemas / Joseph Kiegel (8 Feb 2016)

参见:
RIMMF:多元数据格式中的RDA(2014-8-20)
BIBFRAME+RDA全新亮相:bfe 0.2.0发布(2015-11-7)

“德里达图书馆”关联数据计划

普林斯顿大学图书馆在ALA 2016仲冬会议的BIBFRAME更新论坛(BIBFRAME Update Forum at ALA Midwinter Meeting 2016)上,介绍了该馆将进行的德里达特藏关联数据计划。PPT备注页有详细解释,因而可以较全面了解:
De-“framing” Derrida: BIBFRAME, inscriptions, and library of Jacques Derrida / Jennifer Baxmeyer

对我来说,印象特别深刻的是他们对特藏揭示的全方位设计。比如图书“折角”也当作一种需要记录的标记;更意想不到的是,使用档案系统,记录每本书在原藏地(德里达家中)的相对位置,可了解哪本书边上放的是哪本书(如果接收图书时没有深思熟虑,随便扎捆打包,就无法复原当时的场景了)。
基本印象:对该特藏的完整揭示更接近“数字人文”而非“书目描述”范畴(首期作者题词部分尚可视为单件层书目描述)。

背景:
普林斯顿大学2015年3月完整购入著名哲学家德里达(1930-2004)个人图书馆计1.6万件藏书及其他单件,是为“德里达图书馆”。
在这些书上,有德里达阅读时留下的大量标记/注释(折角、划重点线、页边标记、报时贴、夹其他文字材料)。这些书有相当部分为原作者在书上题词后送给德里达的(超过6300册),对这些书中提及自己的部分,德里达基本上都作有标记。
所有这些信息(包括相邻放置图书信息),对研究德里达的学者都会是感兴趣的内容。比如目前已统计出题词图书的作者(其中超过10册的有12位),可显示其专业及社交网络。
目前的MARC记录很难确切揭示上述信息;档案标准EAD和EAC-CPF稍好,可以记录更多属性,但不具有链接、跳转功能。也就是说,即使信息都记录下来了,也只是文字(字符串),而没有包含标识符。

计划概述:
希望扩展BIBFRAME的单件层描述,采用并扩展W3C的Web注释以包括珍本书特征,揭示所有标记/注释及题词信息,最终生成机器可操作格式的数据,提供给学者做研究。
分担工作:评估BF及与德里达收藏相关的词表,识别需扩展和修订的领域,尤其在:
— 手稿注释/题词的语义
— 原始和转录注释/题词的关系
交付产品
— 德里达特藏中包含作者题词的单件子集的BF资源描述(期望2018年3月完成)【更艰巨的标记/注释部分,是否将会通过众包解决?】
— 用于特藏资料的原始资源描述的BF扩展本体

——— 联想的分割线 ———
在图书馆馆藏日益趋同的当下,独一无二的特藏是最能体现专业与学术图书馆价值的部分。
在获得特藏以后如何提供利用,不同图书馆有相当大的差异。
国内最多的是秘藏,近年有通过影印出版方式提供利用。出版还可取得收益,多少可补偿获得时的付出,虽然先前的付出与后来的收益多半是完全不同的两条线。
美国不少图书馆的方式则是直接提供利用,近年有越来越多图书馆开放电子版网上利用,甚至如普林斯顿大学上述工作那样以深度揭示提供利用。拥有特藏本身就已表明图书馆的独特眼光,提供利用则体现图书馆的存在价值,深度揭示更展现图书馆的专业能力,由此而吸引更多的捐赠、资助等投入,从而进一步增强图书馆在业界的地位。
不同的环境,产生不同的结果。