知识图谱、语义网、关联数据

2014年时,约翰霍普金斯大学图书馆系统馆员Jonathan Rochkind写了篇博文:语义网还是个事儿吗?当时我作了译介(2014-11-8)。一年后他离开了已经工作9年并且热爱着的图书馆,去了一家软件公司就职。发消息前两天他写了长篇博文《关联数据注意事项》(Linked Data Caution),用众多事实佐证自己先前的看法。在离开博文中,他说自己身心俱疲(Career change, 2015-11-25),不是因为关联数据而离开,但那篇博文可作为他的临别赠言。可以看出他对图书馆前景的深度失望,以及对图书馆界在关联数据上投入巨大的深度担忧。

今天看到鲍捷的《从语义网到知识图谱——语义技术工程化的回顾与反思》,让我又想起Jonathan Rochkind和他对关联数据的看法。计算机领域变化太快,不同观点太多(或者说共识少,要不然也不会有那么多死在沙滩上的前浪),鲍文的观点有待验证。无论如何,作笔记如下。

———从语义网到知识图谱——语义技术工程化的回顾与反思(笔记)———
– 基本观点:“语义网”这两年改名“知识图谱”;工程优于科学【逻辑】。
关于关联开放数据:Tim Berners-Lee(就是我们的神)呼吁:语义网 -> (因为感觉走偏)2006年提出关联数据 -> 2009年公开数据(用RDF结构化)。
关于元数据和知识图谱:元数据 -> 演变成RDF -> 然后演变成一堆奇奇怪怪的语言 -> 然后是schema.org【一统天下?】 -> 最后演变到了今天的知识图谱。
关于RDF:RDF不适合作为存储语言。
RDF的发展:知识的交换语言 -> 数据建模语言 -> 数据存储语言。作为存储语言,由于要完全从头开发,高成本低性能而失败。
2013年Google推目前知识图谱用的Microdata,后来JSON-LD,充分利用现有工具。
存储语言:RDF数据 -> 图数据库(键值数据库?)。图数据库比三元组库和SPARQL更主流。
【乱弹:如此则RDF与MARC倒是很类似,是交换语言而非存储语言。ILS内部并不按MARC格式保存】
关于本体语言OWL和RDF1.1:弱语义的语义网,优于强语义的OWL。
OWL2语言很失败、没人用。
2004的RDF语义是怪胎,2014年RDF1.1是厄运的开始。【在计算机界,常见不同版本并用,并非未及升级,如当年的RSS】
逻辑或推理非常需要成本,在实践中很少使用。大多数时间有数据就够了,有一个结构化的东西就好。
Dublin Core等没能发展起来,因为都是面向机器的,它考虑的是怎么提高机器的效率。RSS想的是我怎么提高人的效率,这样就火起来了。【图书馆界在说要让机器能够用数据,他说要让人用得高效】
构造知识图谱,需要知识工程的技术,需要自然语言处理的技术,需要规则系统,需要正则表达式。有效的才是最好的。

——— Google趋势:知识图谱vs语义网vs关联数据———
在先前博文中语义网(SW)和关联数据(LD)搜索对比基础上,增加知识图谱(KG)做对比。Google搜索趋势显示,在SW下降与LD上升趋势交汇后的2012年5月,KG异军突起超出SW和LD,2012年12月出现第2个超出SW和LD的峰值,其他时间均在两者之下,搜索量起伏不大。SW仍持续下跌,LD则平稳起伏。

Google Trends: KG,SW,LD

另看国家趋势
KG前五:印度100、美国60、德国50、英国47、法国39(没有其他国家)
SW前五:韩国100、巴基斯坦98、印度87、奥地利85、爱尔兰/伊朗74,(英国37、美国30)
LD前五:印度100、巴基斯坦68、菲律宾28、英国/美国均21

“德里达图书馆”关联数据计划

普林斯顿大学图书馆在ALA 2016仲冬会议的BIBFRAME更新论坛(BIBFRAME Update Forum at ALA Midwinter Meeting 2016)上,介绍了该馆将进行的德里达特藏关联数据计划。PPT备注页有详细解释,因而可以较全面了解:
De-“framing” Derrida: BIBFRAME, inscriptions, and library of Jacques Derrida / Jennifer Baxmeyer

对我来说,印象特别深刻的是他们对特藏揭示的全方位设计。比如图书“折角”也当作一种需要记录的标记;更意想不到的是,使用档案系统,记录每本书在原藏地(德里达家中)的相对位置,可了解哪本书边上放的是哪本书(如果接收图书时没有深思熟虑,随便扎捆打包,就无法复原当时的场景了)。
基本印象:对该特藏的完整揭示更接近“数字人文”而非“书目描述”范畴(首期作者题词部分尚可视为单件层书目描述)。

背景:
普林斯顿大学2015年3月完整购入著名哲学家德里达(1930-2004)个人图书馆计1.6万件藏书及其他单件,是为“德里达图书馆”。
在这些书上,有德里达阅读时留下的大量标记/注释(折角、划重点线、页边标记、报时贴、夹其他文字材料)。这些书有相当部分为原作者在书上题词后送给德里达的(超过6300册),对这些书中提及自己的部分,德里达基本上都作有标记。
所有这些信息(包括相邻放置图书信息),对研究德里达的学者都会是感兴趣的内容。比如目前已统计出题词图书的作者(其中超过10册的有12位),可显示其专业及社交网络。
目前的MARC记录很难确切揭示上述信息;档案标准EAD和EAC-CPF稍好,可以记录更多属性,但不具有链接、跳转功能。也就是说,即使信息都记录下来了,也只是文字(字符串),而没有包含标识符。

计划概述:
希望扩展BIBFRAME的单件层描述,采用并扩展W3C的Web注释以包括珍本书特征,揭示所有标记/注释及题词信息,最终生成机器可操作格式的数据,提供给学者做研究。
分担工作:评估BF及与德里达收藏相关的词表,识别需扩展和修订的领域,尤其在:
— 手稿注释/题词的语义
— 原始和转录注释/题词的关系
交付产品
— 德里达特藏中包含作者题词的单件子集的BF资源描述(期望2018年3月完成)【更艰巨的标记/注释部分,是否将会通过众包解决?】
— 用于特藏资料的原始资源描述的BF扩展本体

——— 联想的分割线 ———
在图书馆馆藏日益趋同的当下,独一无二的特藏是最能体现专业与学术图书馆价值的部分。
在获得特藏以后如何提供利用,不同图书馆有相当大的差异。
国内最多的是秘藏,近年有通过影印出版方式提供利用。出版还可取得收益,多少可补偿获得时的付出,虽然先前的付出与后来的收益多半是完全不同的两条线。
美国不少图书馆的方式则是直接提供利用,近年有越来越多图书馆开放电子版网上利用,甚至如普林斯顿大学上述工作那样以深度揭示提供利用。拥有特藏本身就已表明图书馆的独特眼光,提供利用则体现图书馆的存在价值,深度揭示更展现图书馆的专业能力,由此而吸引更多的捐赠、资助等投入,从而进一步增强图书馆在业界的地位。
不同的环境,产生不同的结果。

中国国家图书馆,你在哪儿?台湾发布关联数据有感

台湾中央图书馆于2015年底发布《中文主题词表》《中文图书分类法(2007年版)》《中文人名权威控制》三种关联数据资源。这是向LC的id.loc.gov看齐的节奏了。

國家圖書館鏈結資源
可以一次查三种资源,也可以分别查主题、分类和人名
分类法URI直接用分类号构成,如:http://catld.ncl.edu.tw/classification/311.13
分类提供信息比较简单,除名称及类号外,只有上位类信息及链接
主题词表URI构成如:http://catld.ncl.edu.tw/subject/sh0003258
有分类法对应类号(但没有链接),主题词包括原文、注释、用、不用(代)、参见,不过信息不全、留空的较多
人名规范用刚当选的“蔡英文”查了下,随手点同名第2个http://catld.ncl.edu.tw/authority/AC000000802,正是。信息很详细,还有VIAF链接,于是点VIAF,于是发现,嗯,是“National Central Library, Taiwan”提供的数据——他们已经加入VIAF了

下载关联数据有2种格式即SKOS和MADS,各有4种序列化方式即RDF/XML、JSON、N-Triples和Turtle
SKOS-RDF/XML、SKOS-JSON、SKOS-N-Triples、SKOS-TURTLE
MADS-RDF/XML、MADS-JSON、MADS-N-Triples、MADS-TURTLE
看人名规范下载文件,不知道为什么其中没有包括VIAF的URI。

另外要赞的是:2006年,该馆开放中文主题编目规范系统,无需注册,提供所用分类表、标题表和主题词表的查询。分类号提供到该馆OPAC的查询链接。

——— 联想的分割线 ———
赞赏对岸的开放和与时俱进的同时,自然就想到:中国国家图书馆,你在哪儿?
关联数据方面的进展暂且不论。仅就VIAF而言,这么多年了,对岸已经完成了行动,国图何时完成?
年初曾有师谈起国图在RDA上作为不够,完全应该加入修订,而不只是组织翻译。确实,国图完全没有显示参与的兴趣,而对岸既有意愿、又有能力,只苦于没有机会。但今后,针对中文资源会如何,还真不好说?

——— 原始信息的分割线 ———
消息全文:「國家圖書館鏈結資源」系統開放使用(2015-12-29)
國家圖書館與國立臺灣師範大學圖書館合作,將鏈結資料技術應用於圖書館業務。繼2014年完成主題詞表SKOS化及「國家圖書館鏈結資源系統」平台模型後,2015年完成中文圖書分類法及館藏書目資料的語法轉換及系統管理端的建置,並於12月底正式於本館編目園地開放使用。本系統意欲提供圖書館在進行主題編目時所須三大規範工具:《中文主題詞表》、《中文圖書分類法 2007年版》、「中文人名權威控制」的應用及linked data檔案格式的下載。
若為一般主題編目查詢用途,則請續至本館「中文主題編目規範系統」使用查詢。

系统简介:國家圖書館鏈結資源系統(2015-12-29)
本系統提供「中文主題詞表」、「中文圖書分類法2007年版」、「中文人名權威控制」等三項圖書館進行主題編目時所需應用的資源,另可從主題詞或分類號查詢國家圖書館館藏書目資料;另提供「中文主題詞表」、「中文圖書分類法2007年版」、「中文人名權威控制」linked data檔案格式下載。

系统公告:國家圖書館中文主题编目规范系统
本系統自民國95年7月3日起開放使用,直接利用本系統所提供之開放帳號(帳號:guest、密碼:guest)查詢。
國家圖書館修訂之《中文圖書分類法》(2007年版),業於96年12月出版發行,其中科技及臺灣相關等類目修訂幅度頗大,各館採用時請特別注意。本館於97年1月起已全面採用新版類目。
本系統所提供《中文圖書分類法》(2007年版)之相關內容,如有疑問或疏漏之處,祈請方家不吝賜教。
※若有相關問題或回應請e-mail:catadm@msg.ncl.edu.tw