OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)

2017-2018年,OCLC与16所美国图书馆合作,开发基于Wikibase的原型系统,展示关联数据的价值,改善图书馆的资源描述(编目)工作流程。项目提供两方面的服务:
– 调和服务(实体解析?):连接遗留书目信息到关联数据实体
– 编辑器服务:查看、创建和编辑关联数据描述和关系
Linked Data Wikibase Prototype
我的理解,前者是自动识别与获取书目信息中实体的URI,通常通过批处理方式;后者是编目时辅助获取实体及其属性和关系URI,应该是实时处理方式。
项目已经完成,工作报告将于2019年公布。

项目主页:Linked Data Wikibase Prototype
主页下有与项目有关的会议报告PPT,项目团队领导Andrew K. Pace和多个参与图书馆谈各自参与此项目的体会。比如康奈尔大学谈为什么已经有LD4系列项目,还要参加OCLC的项目?
Andrew K. Pace还在OCLC博客NEXT上写了一篇博文,介绍此项目:
Linked data in libraries: From disillusionment to productivity / Andrew K. Pace. 2018-11-08
标题“图书馆关联数据:从幻灭到生产力”,源自在前述会议报告中,最早在2018年4月,他几次借用Gartner新兴技术炒作周期图,标出他认为的图书馆关联数据历年位置,认为关联数据在2015年达到膨胀期望的顶峰(Peak of Inflated Expectation),2017年落入幻灭的谷底(Trough of Disillusionment),估计2018年开始攀爬启蒙的斜坡(Slope of Enlightenment),到2020年进入生产力高原(Plateau of Productivity)。
LD2015-2020
没想到8月Gartner发布的2018年新兴技术炒作周期中,被认为关联数据同义语的知识图谱还处于初期的攀升期(还要5-10年到达高原)。
无论如何,经过十多年的发展,production/productivity已经成为当前图书馆关联数据关注的重点。

——— 关于维基库(Wikibase) ———
源于维基百科、维基数据(Wikidata)、MediaWiki的开源项目:
Wikibase是用于创建、管理和共享结构化数据的应用程序和库的集合。这是一个开源项目,欢迎大家加入开发。
– 主要项目
Wikibase Repository:MediaWiki扩展,允许您在中央协作管理的存储库中存储和管理结构化的非关系数据。
Wikibase Client:MediaWiki扩展,允许您从中央存储库检索和嵌入结构化数据到您的wiki中。
— 查询服务:允许您使用SPARQL查询Wikibase安装的内容
— Wikibase也是一组可重用的组件,为同一域中的任务提供基础。
– 为什么要使用Wikibase
— Wikibase提供了一个通用的数据模型,可以认真对待知识多样性、来源和多语言使用。
— Wikibase由维基数据和维基百科开发和使用,Wikidata是免费知识库,维基百科是任何人都可以编辑的百科全书。
— Wikibase使用基于组件的软件设计,允许重用而不指定您应该使用哪个框架。

2018年BIBFRAME更新论坛

自2012年1月ALA仲冬会议起,美国国会图书馆(LC)每年2次在ALA冬、夏年会上举办BIBFRAME更新论坛。介绍BIBFRAME开发进展、邀请其他机构介绍与BIBFRAME相关的应用,这些机构主要是高校和厂商,其中从未缺席的是OCLC。今年1月ALA仲冬会议时论坛关注的重点还是探索(explorations),厂商是Ex Libris/Alma和Indexdata/Folio;6月ALA年会时论坛关注的重点已经是大型实施(large implementations),厂商是Casalini Libri和@Cult,没有空的设想,全部都是实际应用。
参见:
2017年BIBFRAME更新论坛(2017-7-26)
2016 ALA年会BIBFRAME更新论坛(2016-8-27)
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29)

—– ALA 2018仲冬会议BIBFRAME更新论坛 —–
BIBFRAME Update Forum at ALA Midwinter Meeting 2018 (5个报告,只有3个上线)
* Library of Congress Pilot (PDF, 50 KB) Sally McCallum, Chief, Network Development and Standards Office, Library of Congress
实际标题: BIBFRAME Pilot 2
BIBFRAME第2阶段试验自2017年6月起,1年后评估。60个编目员参与,涉及图书、连续出版物、地图、乐谱、动画、古籍、音频。
所使用的基本库是实际编目环境,即再次转换整个MARC目录到BF目录,包括:1800万书目记录转换为BF作品、实例和单件,120万统一题名规范记录转换为BF作品。匹配合并后创建:1920万作品、2370万实例。同时每日更新装载来自200个非试验组编目员的MARC到BF转换记录。

* Alma, Linked data, and BIBFRAME (PDF, 5.5 MB) Amy Pemble, Product Manager, ExLibris
实际标题:Linked Data Implementation at Ex Libris
艾利贝斯公司2011年成立关联开放数据(LOC)工作组(成员包括波斯顿大学、LC、卢森堡国家图书馆、戴维斯加州大学、新英格兰大学、爱默里大学),收集用例和场景,为Alma平台提供建议。
2017年与哈佛合作提供第一阶段BF集成(MARC到BF转换、以BF格式发布MARC记录集、支持BF URI)。
12月发布的Alma 2017,能够以BF发布整个馆藏。Alma提供API端点,有如下关联数据格式:JSON-LD(书目、本地规范),RDA/RDF(作品、载体表现),BF(作品、实例)。
参见:艾利贝斯与哈佛图书馆合作开启“BIBFRAME路线图”(2017-5-12)

* Achievements of 2016/2018 LD4P Project (PDF, 7.6 MB) Michelle Futornick, Program Manager, LD4P
实际标题:Linked Data for Production
资源->LD4P(模型、工具、工作流程、社群)->元数据->发现
*模型(BF扩展)、工具
斯坦福:PMO: Performed Music Ontology,CEDAR
哥伦比亚:ArtFrame,Karma
普林斯顿:Annotations,Annotations markup tool
康奈尔:RareMat,VitroLib
哈佛:Cartographic / Moving Image,VitroLib
LC:BF,BF编辑器和转换器
*本体门户 Biblioportal(biblio.ontoportal.org)发现、可视化、维护、映射、评估
*下一步:LD4P2,实施之路(www.ld4p.org)
工具-沙盒,工作流程-扩展,社群-LD4、标识符管理
发现:Blacklight【十年前的开源OPAC仍有强大的生命力】
参见:
BIBFRMAE应用进展:LD4P实施之路(2018-7-8)
Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)

* Folio and BIBFRAME(未上线)Sebastian Hammer, President, Indexdata
* BIBFRAME and OCLC(未上线)John Chapman, OCLC

—– ALA 2018年会BIBFRAME更新论坛 —–
BIBFRAME Update Forum at the ALA Annual Conference 2018 (4个报告)
* Library of Congress BIBFRAME 2.0 Pilot progress report (PDF, 984 KB) Beacher Wiggins, Library of Congress; Jodi Williamschen, Library of Congress
实际标题:Creating and Updating a BIBFRAME database
LC从MARC走向BIBFRAME:修订BF2.0数据模型,更新词表;新MARC到BF数据转换规程与转换程序;更新BF记录编辑器配置程序。
BF数据库当前状态:作品1900万,实例2400万,单件2260万,43亿三元组。
匹配与合并及尚未解决的问题
BF编辑器功能及尚未解决的问题
下一步:
– 继续评估和调整BF数据库的匹配与合并,需要时重新载入数据库
– 摄入CIP和ONIX数据
– 装入Casalini的RDF数据库
– 提供LC的BF文档下载,供其他人探索(已提供)
– 继续改进编辑器
– 从BF映射到MARC
参见:LC提供BIBFRAME描述数据集批量下载(2018-6-20)

* From MARC to BIBFRAME in the SHARE-VDE project (PDF, 5 MB) Tiziana Possemato, Casalini Libri – @Cult
SHARE-VDE(www.share-vde.org)是关联数据项目,由Casalini Libri(书目和规范数据提供者,PCC成员)、@Cult(ILS、发现工具、语义网解决方案厂商)开发,16个北美研究图书馆参与
总体目标:
– 用URI强化MARC记录【实体识别、调和 Reconciliation、数据强化】
– 用BF词表(根据需要和其他附加本体)从MARC转换到RDF
– 根据BF数据模型发布数据
– 批/自动数据更新过程
– 批/自动数据传递到图书馆
– 按社区定义的优先级顺序逐步实施进一步的用例

* Using BIBFRAME in multi-institutional projects (PDF, 1.3 MB) Jeremy Nelson, Colorado College
美国数字公共图书馆(DPLA)计划中的科罗拉多州和怀俄明州的Plains2Peaks服务中心项目使用BIBFRAME关联数据,将学术和公共图书馆、联盟和博物馆的元数据摄取到BIBFRAME RDF知识图谱中。通过RDF映射语言(RML)将原始数据转换为BIBFRAME作品、实例和单件,满足了支持不同的摄取词汇表(如MODS和Dublin Core)以及不同格式(如JSON,CSV和XML)到BIBFRAME RDF的挑战。 在科罗拉多联盟的BIBCAT项目中,来自三个学术图书馆和一个公共图书馆的MARCXML使用美国国会图书馆marc2bibframe软件转换为BIBFRAME RDF,然后通过RML从BIBFRAME映射到Schema.org以改进网络发现。技术: 开源模块bibcat和RDFframework

* OCLC research with BIBFRAME (PDF, 96 KB) Nathan Putnam, OCLC
实际标题:OCLC Research BIBFRAME 2.0 Converter Analysis
1分析的目标: 评估什么BF数据类型,OCLC可以使用LC转换器生产;评审LC转换样式表(是否需要修正以支持OCLC用例)
2过程:从OCLC研究部的WorldCat副本中取1100万条含LCCN的记录,转换记录到MARCXML,再送到LC BF 2.0转换器
3收获(学到些什么)
– 作品ID很重要(处理一开始就有用;OCLC聚类增加它们到OCLC研究部的WorldCat)
– URI很重要(若干空结点没有URI;空结点=不可互操作)
– 转换器含BF单件描述(但我们只使用书目记录;这使得数据中留有空白)
OCLC研究更新转换器:用作品/聚类ID填充758字段【资源标识符,2017新增字段】,修改以查找$0和$1,首选VIAF和FAST的URI
4未来实验
– 寻找标引可能性/目标/需求【indexing标引所指为何?】
– URI清理和填充到现有MARC记录以减少空节点数量
– 继续与LC合作(随着BIBFRAME的多种扩展和变化的出现,OCLC正在广泛地思考我们构建支持复杂环境的功能)

中文开放知识图谱相关网站

去年底在微信上看到哈工大姜天文的《知识图谱的发展概述》(2017-10-16),访问了其中提到的中文知识图谱网站。最近又看了专访王昊奋和漆桂林:AI-108将|偷偷告诉你,那些二次元萌妹都有个叫知识图谱的爸爸(邢书博. AI时间, 2018-8-6)。今日再访相关网站,汇总笔记如下。

一、平台:OpenKG.CN 中文开放知识图谱
中文知识图谱门户网站,汇集由成员机构上传的知识图谱数据集(或其信息)与相关工具。目前有成员57家(其中30多家上传了资源或资源信息),内容包括:
数据集81个(如上海图书馆有2个:名人手稿和华人家谱,似乎只是链接)
工具集47个(标注采用的编程语言等;也包括应用如“唐诗别苑”可视化平台的介绍)
漆桂林:“openKG已经汇集了百科类的知识图谱以及很多行业图谱,而且也在建立这些图谱之间的链接,这将有助于解决知识图谱的数据缺失问题”。

二、知识图谱数据集
见OpenKG.CN的数据集部分。大型综合知识图谱如下,内容大多从网络百科抽取,也多提供API方式利用:
1、zhishi.me(东南大学Knowledge Science and Engineering Lab)
数量统计:百度百科5,198,298、互动百科4,579,805、中文维基百科559,402(数据更新时间2015-11-24)
2、Xlore (清华大学知识工程研究室 KEG)
数量统计:14,951,135 实体,1,371,272 概念,512,883 关系,5000万+ 访问(2017.11.25/2018.8.19访问)
3、CN-DBpedia(复旦大学知识工场 KW Lab)
数量统计:API调用次数 638,237,313;实体数 17,064,759,关系数 222,987,218
4、大词林(哈尔滨工业大学社会计算与信息检索研究中心)
数量统计:(2018.8.19网站数据)约250万命名实体;类别共约15万个;平均每个命名实体有1.32个不同粒度的类别;上下位关系超过330万;(2017.10.16姜天文《知识图谱的发展概述》数据)约900万实体、约17万类别;平均每个命名实体有1.77个不同粒度的优质类别;上下位关系超过1千万对。
大词林与前3种数据集的不同点在于提供的是实体对应的各种属性及其层次关系(感觉可用于区分同名、提供推理)。“《大词林》以《同义词词林(扩展版)》为骨架,不断添加命名实体及其层次化类别信息,自动构建开放域命名实体知识库。”

三、知识图谱用词表:cnSchema
从名称就可以看到schema.org的影子。“cnSchema.org是一个基于社区维护的开放的知识图谱Schema标准。cnSchema的词汇集包括了上千种概念分类(classes)、数据类型(data types)、属性(propertities)和关系(relations)等常用概念定义,以支持知识图谱数据的通用性、复用性和流动性。结合中文的特点,我们复用、连接并扩展了Schema.org,Wikidata, Wikipedia等已有的知识图谱Schema标准,为中文领域的开放知识图谱、聊天机器人、搜索引擎优化等提供可供参考和扩展的数据描述和接口定义标准。通过cnSchema, 开发者也可以快速对接上百万基于Schema.org定义的网站,以及Bot的知识图谱数据API。”

四、知识图谱工具
自己不懂技术,感兴趣者可到OpenKG.CN的工具集部分找,可能也不乐观。漆桂林说:“缺工具的问题比较明显,这里的工具不是单指某一个算法实现后的工具,而是工具群以及把这些工具群整合在一起的平台”。“举个例子,关系抽取有不少算法,也有一些开源的工具,但是商用的时候不是一个算法可以解决问题的,往往需要把一套关系抽取工具集成起来才有效,这种可以解决用户问题的工具是缺失的,需要通过公司化运作来实现。大公司大部分都是这么做的,但是他们的工具只是给自己用,不会开放出来。可喜的是,目前有一些小公司正在做知识图谱的实用工具和平台,今年或者明年应该会有一些很不错的产品出现,这也将是知识图谱快速发展的契机。”

——— 大型知识图谱数据集中的“绍兴”和“毛泽东”———
想了解各个数据集情况。想到用“绍兴”查,是因为同名既可能是时间、也可能是地点。查百度百科后发现不止这么简单,共有6个同名词条:1浙江省下辖地级市、2绍兴市下辖县,3西辽仁宗年号、4宋高宗年号,5汉语词汇,6郑燮的诗。
查找结果:CN-DBpedia具有实用性。如何保证知识图谱数据的真实性、准确性、时效性,恐怕仍然是待解决的问题。

1、zhishi.me:绍兴
2个结果,都是地点:(1)中文维基:绍兴市;(2)百度百科:绍兴(浙江省下辖地级市)。
感觉每种百科只取1个结果。再查“毛泽东”验证:3个结果,维基、百度、互动3种百科各1个。

2、Xlore:绍兴
3个结果,不同性质:(1)绍兴(instance):西辽年号;(2)绍兴(concept):地名;(3)绍兴(绍兴府)(instance):历史地名。
绍兴(西辽年号)详细信息:性质:西辽仁宗年号;皇帝:辽仁宗—耶律夷列。
不知道为什么会缺南宋年号。同名检索结果分instance和concept。再查“毛泽东”:2个结果,同样1个实例、1个概念。

3、CN-DBpedia:绍兴
5个结果(多义词):(1)绍兴(浙江省下辖地级市),(2)绍兴(宋高宗年号),(3)绍兴(西辽仁宗年号),(4)绍兴(郑燮的诗),(5)绍兴(汉语词汇)。
绍兴(西辽仁宗年号)详细信息:性质:西辽仁宗年号;皇帝:辽仁宗—耶律夷列;国家:契丹族【最后1条Xlore无,来源不同还是识别实体差异?】
绍兴(宋高宗年号)详细信息:开始:1131;结束:1162;属于:宋高宗年号【与上条相比,显然没有固定格式,由来源数据生成】
绍兴(浙江省下辖地级市)详细信息中有市长、市委书记,没有关联时间。
结果数量非常接近百度百科:少了词条名现为“柯桥区”的“绍兴县”。应该是百科词条全收。
再查“毛泽东”得到验证,15个结果除了人名(无产阶级革命家)外,还有图书名、影视片名。选择人名有可视化(RDF图)、时间线(历史长河)、好奇心(自己探索关系)——一个比一个好玩

4、大词林:绍兴
14个结果(不同属性):中国地名、中国城市、中国市县、人、企业、县、地点、城市、市、时空、浙江县区、浙江城市、行政区划、都市【“人”不知是谁】。并提供这些结果间层次关系图。
姜天文:“《大词林》的构建不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。”
从去年和今年两次查“毛泽东” 的结果看,确实在不断丰富。但质量是不是更好就不好说了,特别看“别名”:
2017.11.25:石三伢子、二十八画生 等、毛润之
2018.8.19:* Shaoshan* 毛泽东纪念馆* 毛主席纪念堂* Chairman Mao Zedong Memorial Hall* 德州扒鸡* Comrade Mao Zedong Memorial
去年还是真正的别名。现在变成了韶山和2个纪念机构(及其英文名称),竟然还有“德州扒鸡”!——于是百度一下“毛泽东 德州扒鸡”,第一页结果中都有这样的信息:“五十年代,国家副主席宋庆龄从上海返京途中,曾多次在德州停车选购德州扒鸡送给毛泽东主席以示敬意”。那为什么没有“红烧肉”?