中文开放知识图谱相关网站

去年底在微信上看到哈工大姜天文的《知识图谱的发展概述》(2017-10-16),访问了其中提到的中文知识图谱网站。最近又看了专访王昊奋和漆桂林:AI-108将|偷偷告诉你,那些二次元萌妹都有个叫知识图谱的爸爸(邢书博. AI时间, 2018-8-6)。今日再访相关网站,汇总笔记如下。

一、平台:OpenKG.CN 中文开放知识图谱
中文知识图谱门户网站,汇集由成员机构上传的知识图谱数据集(或其信息)与相关工具。目前有成员57家(其中30多家上传了资源或资源信息),内容包括:
数据集81个(如上海图书馆有2个:名人手稿和华人家谱,似乎只是链接)
工具集47个(标注采用的编程语言等;也包括应用如“唐诗别苑”可视化平台的介绍)
漆桂林:“openKG已经汇集了百科类的知识图谱以及很多行业图谱,而且也在建立这些图谱之间的链接,这将有助于解决知识图谱的数据缺失问题”。

二、知识图谱数据集
见OpenKG.CN的数据集部分。大型综合知识图谱如下,内容大多从网络百科抽取,也多提供API方式利用:
1、zhishi.me(东南大学Knowledge Science and Engineering Lab)
数量统计:百度百科5,198,298、互动百科4,579,805、中文维基百科559,402(数据更新时间2015-11-24)
2、Xlore (清华大学知识工程研究室 KEG)
数量统计:14,951,135 实体,1,371,272 概念,512,883 关系,5000万+ 访问(2017.11.25/2018.8.19访问)
3、CN-DBpedia(复旦大学知识工场 KW Lab)
数量统计:API调用次数 638,237,313;实体数 17,064,759,关系数 222,987,218
4、大词林(哈尔滨工业大学社会计算与信息检索研究中心)
数量统计:(2018.8.19网站数据)约250万命名实体;类别共约15万个;平均每个命名实体有1.32个不同粒度的类别;上下位关系超过330万;(2017.10.16姜天文《知识图谱的发展概述》数据)约900万实体、约17万类别;平均每个命名实体有1.77个不同粒度的优质类别;上下位关系超过1千万对。
大词林与前3种数据集的不同点在于提供的是实体对应的各种属性及其层次关系(感觉可用于区分同名、提供推理)。“《大词林》以《同义词词林(扩展版)》为骨架,不断添加命名实体及其层次化类别信息,自动构建开放域命名实体知识库。”

三、知识图谱用词表:cnSchema
从名称就可以看到schema.org的影子。“cnSchema.org是一个基于社区维护的开放的知识图谱Schema标准。cnSchema的词汇集包括了上千种概念分类(classes)、数据类型(data types)、属性(propertities)和关系(relations)等常用概念定义,以支持知识图谱数据的通用性、复用性和流动性。结合中文的特点,我们复用、连接并扩展了Schema.org,Wikidata, Wikipedia等已有的知识图谱Schema标准,为中文领域的开放知识图谱、聊天机器人、搜索引擎优化等提供可供参考和扩展的数据描述和接口定义标准。通过cnSchema, 开发者也可以快速对接上百万基于Schema.org定义的网站,以及Bot的知识图谱数据API。”

四、知识图谱工具
自己不懂技术,感兴趣者可到OpenKG.CN的工具集部分找,可能也不乐观。漆桂林说:“缺工具的问题比较明显,这里的工具不是单指某一个算法实现后的工具,而是工具群以及把这些工具群整合在一起的平台”。“举个例子,关系抽取有不少算法,也有一些开源的工具,但是商用的时候不是一个算法可以解决问题的,往往需要把一套关系抽取工具集成起来才有效,这种可以解决用户问题的工具是缺失的,需要通过公司化运作来实现。大公司大部分都是这么做的,但是他们的工具只是给自己用,不会开放出来。可喜的是,目前有一些小公司正在做知识图谱的实用工具和平台,今年或者明年应该会有一些很不错的产品出现,这也将是知识图谱快速发展的契机。”

——— 大型知识图谱数据集中的“绍兴”和“毛泽东”———
想了解各个数据集情况。想到用“绍兴”查,是因为同名既可能是时间、也可能是地点。查百度百科后发现不止这么简单,共有6个同名词条:1浙江省下辖地级市、2绍兴市下辖县,3西辽仁宗年号、4宋高宗年号,5汉语词汇,6郑燮的诗。
查找结果:CN-DBpedia具有实用性。如何保证知识图谱数据的真实性、准确性、时效性,恐怕仍然是待解决的问题。

1、zhishi.me:绍兴
2个结果,都是地点:(1)中文维基:绍兴市;(2)百度百科:绍兴(浙江省下辖地级市)。
感觉每种百科只取1个结果。再查“毛泽东”验证:3个结果,维基、百度、互动3种百科各1个。

2、Xlore:绍兴
3个结果,不同性质:(1)绍兴(instance):西辽年号;(2)绍兴(concept):地名;(3)绍兴(绍兴府)(instance):历史地名。
绍兴(西辽年号)详细信息:性质:西辽仁宗年号;皇帝:辽仁宗—耶律夷列。
不知道为什么会缺南宋年号。同名检索结果分instance和concept。再查“毛泽东”:2个结果,同样1个实例、1个概念。

3、CN-DBpedia:绍兴
5个结果(多义词):(1)绍兴(浙江省下辖地级市),(2)绍兴(宋高宗年号),(3)绍兴(西辽仁宗年号),(4)绍兴(郑燮的诗),(5)绍兴(汉语词汇)。
绍兴(西辽仁宗年号)详细信息:性质:西辽仁宗年号;皇帝:辽仁宗—耶律夷列;国家:契丹族【最后1条Xlore无,来源不同还是识别实体差异?】
绍兴(宋高宗年号)详细信息:开始:1131;结束:1162;属于:宋高宗年号【与上条相比,显然没有固定格式,由来源数据生成】
绍兴(浙江省下辖地级市)详细信息中有市长、市委书记,没有关联时间。
结果数量非常接近百度百科:少了词条名现为“柯桥区”的“绍兴县”。应该是百科词条全收。
再查“毛泽东”得到验证,15个结果除了人名(无产阶级革命家)外,还有图书名、影视片名。选择人名有可视化(RDF图)、时间线(历史长河)、好奇心(自己探索关系)——一个比一个好玩

4、大词林:绍兴
14个结果(不同属性):中国地名、中国城市、中国市县、人、企业、县、地点、城市、市、时空、浙江县区、浙江城市、行政区划、都市【“人”不知是谁】。并提供这些结果间层次关系图。
姜天文:“《大词林》的构建不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。”
从去年和今年两次查“毛泽东” 的结果看,确实在不断丰富。但质量是不是更好就不好说了,特别看“别名”:
2017.11.25:石三伢子、二十八画生 等、毛润之
2018.8.19:* Shaoshan* 毛泽东纪念馆* 毛主席纪念堂* Chairman Mao Zedong Memorial Hall* 德州扒鸡* Comrade Mao Zedong Memorial
去年还是真正的别名。现在变成了韶山和2个纪念机构(及其英文名称),竟然还有“德州扒鸡”!——于是百度一下“毛泽东 德州扒鸡”,第一页结果中都有这样的信息:“五十年代,国家副主席宋庆龄从上海返京途中,曾多次在德州停车选购德州扒鸡送给毛泽东主席以示敬意”。那为什么没有“红烧肉”?

BIBFRMAE应用进展:LD4P实施之路

BIBFRAME正迈向应用阶段,似乎离成为现实已经不远了。最近的两大进展:
一是LC的BIBFRAME第2阶段测试,直接以BIBFRAME编辑器进行编目,已进行了一年,并于上月发布了包括LC的MARC规范记录和书目记录转换的全部BIBFRAME描述数据集,供其他机构下载测试使用。参见:LC提供BIBFRAME描述数据集批量下载(2018-6-20)。
二是斯坦福等高校的LD4L系列项目(http://www.ld4l.org/),致力于由MARC过渡到关联数据,在2014-2016年的LD4L、2016-2018年的LD4L-Labs和LD4P之后,又争取到了梅隆基金为期2年LD4P第2阶段项目,名为“实施之路”(Linked Data for Production: Pathway to Implementation,没有查到直接信息)。
作为项目的一部分,LD4P正建立沙盒,与合作编目项目(PCC)合作,为所有PCC成员创建基于云的沙盒,以实验创建基于BIBFRAME的元数据。项目希望在原核心成员哥伦比亚大学、康奈尔大学、哈佛大学、LC、普林斯顿大学、斯坦福大学、爱荷华大学之外,征求更多PCC成员深度参与(称为LD4P Cohort,合伙人),将某些基于MARC的工作流程转换到以关联数据为基础的工作流程。申请需符合项目提出的最低要求,获准后可得到最高5万美元的子项目资助。

在上月ALA年会上ALCTS举办的“在真实世界中实施关联开放数据”(Implementing Linked Open Data in the Real World)会场,斯坦福大学的Philip E. Schreur介绍了本项目。
在BIBFRAME邮件组(论坛)的本项目邀请参与的附件(Proposal Request to Join the LD4P Cohort)中,有本项目的7个目标
1. 创建连续馈送的关联数据池,以基于BIBFRAME的应用纲要表达。
2. 开发扩展的图书馆合伙人(LD4P合伙人),能够通过创建基于云的沙盒编辑环境来创建和重用关联数据。
3. 开发用于以标识符自动增强MARC数据的政策、技术和工作流程,以使其尽可能清晰地转换为关联数据。【在前述最低要求中,最后一条是:在可行的情况下,将URI合并到MARC记录子字段$ 0s和$ 1s中】
4. 开发用于创建和重用关联数据及其支持标识符作为图书馆核心元数据的策略、技术和工作流程。
5. 通过与Wikidata的协作,更好地将图书馆元数据和标识符与Web集成。
6. 使用基于关联数据的发现技术,增强广泛采用的图书馆现环境(Blacklight)。
7. 通过开发一个名为LD4的组织框架,协调持续的社区协作。

via [BIBFRAME] Invitation to Join the LD4P Cohort / Philip E. Schreur (2018-7-5)
关于LD4L系列项目,参见:
重量级图书馆关联数据项目LD4P获得资助(2016-5-10)
BIBFRAME扩展:bibliotek-o(及ArtFrame和RareMat)(2018-5-1)

另:作为LD4P项目成果,“艺术和珍本资料BIBFRAME本体扩展”向BIBFRAME提出了很多修订建议,提交在BIBFRAME本体开发的Github网站“问题”部分,并统一标注:”This recommendation was made on behalf of the LD4P Art & Rare Materials BIBFRAME Ontology Extension (https://github.com/LD4P/arm).”。简单说明见:[BIBFRAME] Art & Rare Materials BIBFRAME feedback – GitHub Issues / Jason Kovari (2018-7-5)

2018年国际关联数据实施者调查

OCLC研究部在2014和2015年进行了2次关联数据实施者调查,调查结果都曾公布,原始数据(除联系信息)也在网站提供(Results of Linked Data Surveys for Implementers, 2014 & 2015)。
参见:
OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)
关联数据应用现状:2015国际关联数据实施者调查的分析(2016-9-4)

目前,OCLC研究部正进行2018年国际关联数据实施者调查(International Linked Data Survey for Implementers 2018),调查对象是已经实施或正在实施关联数据项目或服务的工作人员,可以是将数据发布为关联数据、也可以是将关联数据资源摄入自己的数据或应用程序中。项目可以是未参加过先前调查的、也可以报告先前实施项目的变化。截止日期为2018年5月25日
调查内容略多,虽然不是所有问题都必填,还是需要对项目各方面有比较全面深入的了解。好在填写时不需要一次性完成,也不限当天,只要是同一台电脑、同一个浏览器,在点击最后的“Done”提交前,都可以用“Prev”“Next”修改填写内容。
希望这次能够看到国内的关联数据项目参与调查