关联数据 – 第 14 页 – 编目精灵III

2018年BIBFRAME更新论坛

自2012年1月ALA仲冬会议起，美国国会图书馆（LC）每年2次在ALA冬、夏年会上举办BIBFRAME更新论坛。介绍BIBFRAME开发进展、邀请其他机构介绍与BIBFRAME相关的应用，这些机构主要是高校和厂商，其中从未缺席的是OCLC。今年1月ALA仲冬会议时论坛关注的重点还是探索（explorations），厂商是Ex Libris/Alma和Indexdata/Folio；6月ALA年会时论坛关注的重点已经是大型实施（large implementations），厂商是Casalini Libri和@Cult，没有空的设想，全部都是实际应用。
参见：
2017年BIBFRAME更新论坛（2017-7-26）
2016 ALA年会BIBFRAME更新论坛（2016-8-27）
ALA 2016仲冬会议的BIBFRAME更新论坛（2016-1-29）

—– ALA 2018仲冬会议BIBFRAME更新论坛 —–
BIBFRAME Update Forum at ALA Midwinter Meeting 2018 （5个报告，只有3个上线）
* Library of Congress Pilot (PDF, 50 KB) Sally McCallum, Chief, Network Development and Standards Office, Library of Congress
实际标题： BIBFRAME Pilot 2
BIBFRAME第2阶段试验自2017年6月起，1年后评估。60个编目员参与，涉及图书、连续出版物、地图、乐谱、动画、古籍、音频。
所使用的基本库是实际编目环境，即再次转换整个MARC目录到BF目录，包括：1800万书目记录转换为BF作品、实例和单件，120万统一题名规范记录转换为BF作品。匹配合并后创建：1920万作品、2370万实例。同时每日更新装载来自200个非试验组编目员的MARC到BF转换记录。

* Alma, Linked data, and BIBFRAME (PDF, 5.5 MB) Amy Pemble, Product Manager, ExLibris
实际标题：Linked Data Implementation at Ex Libris
艾利贝斯公司2011年成立关联开放数据（LOC）工作组（成员包括波斯顿大学、LC、卢森堡国家图书馆、戴维斯加州大学、新英格兰大学、爱默里大学），收集用例和场景，为Alma平台提供建议。
2017年与哈佛合作提供第一阶段BF集成（MARC到BF转换、以BF格式发布MARC记录集、支持BF URI）。
12月发布的Alma 2017，能够以BF发布整个馆藏。Alma提供API端点，有如下关联数据格式：JSON-LD（书目、本地规范），RDA/RDF（作品、载体表现），BF（作品、实例）。
参见：艾利贝斯与哈佛图书馆合作开启“BIBFRAME路线图”（2017-5-12）

* Achievements of 2016/2018 LD4P Project (PDF, 7.6 MB) Michelle Futornick, Program Manager, LD4P
实际标题：Linked Data for Production
资源->LD4P（模型、工具、工作流程、社群）->元数据->发现
*模型（BF扩展）、工具
斯坦福：PMO: Performed Music Ontology，CEDAR
哥伦比亚：ArtFrame，Karma
普林斯顿：Annotations，Annotations markup tool
康奈尔：RareMat，VitroLib
哈佛：Cartographic / Moving Image，VitroLib
LC：BF，BF编辑器和转换器
*本体门户 Biblioportal（biblio.ontoportal.org）发现、可视化、维护、映射、评估
*下一步：LD4P2，实施之路（www.ld4p.org）
工具－沙盒，工作流程－扩展，社群－LD4、标识符管理
发现：Blacklight【十年前的开源OPAC仍有强大的生命力】
参见：
BIBFRMAE应用进展：LD4P实施之路（2018-7-8）
Blacklight：佛吉尼亚大学的开源OPAC（2008-3-3）

* Folio and BIBFRAME（未上线）Sebastian Hammer, President, Indexdata
* BIBFRAME and OCLC（未上线）John Chapman, OCLC

—– ALA 2018年会BIBFRAME更新论坛 —–
BIBFRAME Update Forum at the ALA Annual Conference 2018 （4个报告）
* Library of Congress BIBFRAME 2.0 Pilot progress report (PDF, 984 KB) Beacher Wiggins, Library of Congress; Jodi Williamschen, Library of Congress
实际标题：Creating and Updating a BIBFRAME database
LC从MARC走向BIBFRAME：修订BF2.0数据模型，更新词表；新MARC到BF数据转换规程与转换程序；更新BF记录编辑器配置程序。
BF数据库当前状态：作品1900万，实例2400万，单件2260万，43亿三元组。
匹配与合并及尚未解决的问题
BF编辑器功能及尚未解决的问题
下一步：
– 继续评估和调整BF数据库的匹配与合并，需要时重新载入数据库
– 摄入CIP和ONIX数据
– 装入Casalini的RDF数据库
– 提供LC的BF文档下载，供其他人探索（已提供）
– 继续改进编辑器
– 从BF映射到MARC
参见：LC提供BIBFRAME描述数据集批量下载（2018-6-20）

* From MARC to BIBFRAME in the SHARE-VDE project (PDF, 5 MB) Tiziana Possemato, Casalini Libri – @Cult
SHARE-VDE（www.share-vde.org）是关联数据项目，由Casalini Libri（书目和规范数据提供者，PCC成员）、@Cult（ILS、发现工具、语义网解决方案厂商）开发，16个北美研究图书馆参与
总体目标：
– 用URI强化MARC记录【实体识别、调和 Reconciliation、数据强化】
– 用BF词表（根据需要和其他附加本体）从MARC转换到RDF
– 根据BF数据模型发布数据
– 批/自动数据更新过程
– 批/自动数据传递到图书馆
– 按社区定义的优先级顺序逐步实施进一步的用例

* Using BIBFRAME in multi-institutional projects (PDF, 1.3 MB) Jeremy Nelson, Colorado College
美国数字公共图书馆（DPLA）计划中的科罗拉多州和怀俄明州的Plains2Peaks服务中心项目使用BIBFRAME关联数据，将学术和公共图书馆、联盟和博物馆的元数据摄取到BIBFRAME RDF知识图谱中。通过RDF映射语言（RML）将原始数据转换为BIBFRAME作品、实例和单件，满足了支持不同的摄取词汇表（如MODS和Dublin Core）以及不同格式（如JSON，CSV和XML）到BIBFRAME RDF的挑战。在科罗拉多联盟的BIBCAT项目中，来自三个学术图书馆和一个公共图书馆的MARCXML使用美国国会图书馆marc2bibframe软件转换为BIBFRAME RDF，然后通过RML从BIBFRAME映射到Schema.org以改进网络发现。技术：开源模块bibcat和RDFframework

* OCLC research with BIBFRAME (PDF, 96 KB) Nathan Putnam, OCLC
实际标题：OCLC Research BIBFRAME 2.0 Converter Analysis
1分析的目标：评估什么BF数据类型，OCLC可以使用LC转换器生产；评审LC转换样式表（是否需要修正以支持OCLC用例）
2过程：从OCLC研究部的WorldCat副本中取1100万条含LCCN的记录，转换记录到MARCXML，再送到LC BF 2.0转换器
3收获（学到些什么）
– 作品ID很重要（处理一开始就有用；OCLC聚类增加它们到OCLC研究部的WorldCat）
– URI很重要（若干空结点没有URI；空结点=不可互操作）
– 转换器含BF单件描述（但我们只使用书目记录；这使得数据中留有空白）
OCLC研究更新转换器：用作品/聚类ID填充758字段【资源标识符，2017新增字段】，修改以查找$0和$1，首选VIAF和FAST的URI
4未来实验
– 寻找标引可能性/目标/需求【indexing标引所指为何？】
– URI清理和填充到现有MARC记录以减少空节点数量
– 继续与LC合作（随着BIBFRAME的多种扩展和变化的出现，OCLC正在广泛地思考我们构建支持复杂环境的功能）

中文开放知识图谱相关网站

去年底在微信上看到哈工大姜天文的《知识图谱的发展概述》（2017-10-16），访问了其中提到的中文知识图谱网站。最近又看了专访王昊奋和漆桂林：AI-108将|偷偷告诉你，那些二次元萌妹都有个叫知识图谱的爸爸（邢书博. AI时间, 2018-8-6）。今日再访相关网站，汇总笔记如下。

一、平台：OpenKG.CN 中文开放知识图谱
中文知识图谱门户网站，汇集由成员机构上传的知识图谱数据集（或其信息）与相关工具。目前有成员57家（其中30多家上传了资源或资源信息），内容包括：
数据集81个（如上海图书馆有2个：名人手稿和华人家谱，似乎只是链接）
工具集47个（标注采用的编程语言等；也包括应用如“唐诗别苑”可视化平台的介绍）
漆桂林：“openKG已经汇集了百科类的知识图谱以及很多行业图谱，而且也在建立这些图谱之间的链接，这将有助于解决知识图谱的数据缺失问题”。

二、知识图谱数据集
见OpenKG.CN的数据集部分。大型综合知识图谱如下，内容大多从网络百科抽取，也多提供API方式利用：
1、zhishi.me（东南大学Knowledge Science and Engineering Lab）
数量统计：百度百科5,198,298、互动百科4,579,805、中文维基百科559,402（数据更新时间2015-11-24）
2、Xlore （清华大学知识工程研究室 KEG）
数量统计：14,951,135 实体，1,371,272 概念，512,883 关系，5000万+ 访问（2017.11.25/2018.8.19访问）
3、CN-DBpedia（复旦大学知识工场 KW Lab）
数量统计：API调用次数 638,237,313；实体数 17,064,759，关系数 222,987,218
4、大词林（哈尔滨工业大学社会计算与信息检索研究中心）
数量统计：（2018.8.19网站数据）约250万命名实体；类别共约15万个；平均每个命名实体有1.32个不同粒度的类别；上下位关系超过330万；（2017.10.16姜天文《知识图谱的发展概述》数据）约900万实体、约17万类别；平均每个命名实体有1.77个不同粒度的优质类别；上下位关系超过1千万对。
大词林与前3种数据集的不同点在于提供的是实体对应的各种属性及其层次关系（感觉可用于区分同名、提供推理）。“《大词林》以《同义词词林（扩展版）》为骨架，不断添加命名实体及其层次化类别信息，自动构建开放域命名实体知识库。”

三、知识图谱用词表：cnSchema
从名称就可以看到schema.org的影子。“cnSchema.org是一个基于社区维护的开放的知识图谱Schema标准。cnSchema的词汇集包括了上千种概念分类(classes)、数据类型(data types)、属性(propertities)和关系(relations)等常用概念定义，以支持知识图谱数据的通用性、复用性和流动性。结合中文的特点，我们复用、连接并扩展了Schema.org，Wikidata， Wikipedia等已有的知识图谱Schema标准，为中文领域的开放知识图谱、聊天机器人、搜索引擎优化等提供可供参考和扩展的数据描述和接口定义标准。通过cnSchema, 开发者也可以快速对接上百万基于Schema.org定义的网站，以及Bot的知识图谱数据API。”

四、知识图谱工具
自己不懂技术，感兴趣者可到OpenKG.CN的工具集部分找，可能也不乐观。漆桂林说：“缺工具的问题比较明显，这里的工具不是单指某一个算法实现后的工具，而是工具群以及把这些工具群整合在一起的平台”。“举个例子，关系抽取有不少算法，也有一些开源的工具，但是商用的时候不是一个算法可以解决问题的，往往需要把一套关系抽取工具集成起来才有效，这种可以解决用户问题的工具是缺失的，需要通过公司化运作来实现。大公司大部分都是这么做的，但是他们的工具只是给自己用，不会开放出来。可喜的是，目前有一些小公司正在做知识图谱的实用工具和平台，今年或者明年应该会有一些很不错的产品出现，这也将是知识图谱快速发展的契机。”

——— 大型知识图谱数据集中的“绍兴”和“毛泽东”———
想了解各个数据集情况。想到用“绍兴”查，是因为同名既可能是时间、也可能是地点。查百度百科后发现不止这么简单，共有6个同名词条：1浙江省下辖地级市、2绍兴市下辖县，3西辽仁宗年号、4宋高宗年号，5汉语词汇，6郑燮的诗。
查找结果：CN-DBpedia具有实用性。如何保证知识图谱数据的真实性、准确性、时效性，恐怕仍然是待解决的问题。

1、zhishi.me：绍兴
2个结果，都是地点：（1）中文维基：绍兴市；（2）百度百科：绍兴（浙江省下辖地级市）。
感觉每种百科只取1个结果。再查“毛泽东”验证：3个结果，维基、百度、互动3种百科各1个。

2、Xlore：绍兴
3个结果，不同性质：（1）绍兴（instance）：西辽年号；（2）绍兴（concept）：地名；（3）绍兴（绍兴府）（instance）：历史地名。
绍兴（西辽年号）详细信息：性质：西辽仁宗年号；皇帝：辽仁宗—耶律夷列。
不知道为什么会缺南宋年号。同名检索结果分instance和concept。再查“毛泽东”：2个结果，同样1个实例、1个概念。

3、CN-DBpedia：绍兴
5个结果（多义词）：（1）绍兴（浙江省下辖地级市），（2）绍兴（宋高宗年号），（3）绍兴（西辽仁宗年号），（4）绍兴（郑燮的诗），（5）绍兴（汉语词汇）。
绍兴（西辽仁宗年号）详细信息：性质：西辽仁宗年号；皇帝：辽仁宗—耶律夷列；国家：契丹族【最后1条Xlore无，来源不同还是识别实体差异？】
绍兴（宋高宗年号）详细信息：开始：1131；结束：1162；属于：宋高宗年号【与上条相比，显然没有固定格式，由来源数据生成】
绍兴（浙江省下辖地级市）详细信息中有市长、市委书记，没有关联时间。
结果数量非常接近百度百科：少了词条名现为“柯桥区”的“绍兴县”。应该是百科词条全收。
再查“毛泽东”得到验证，15个结果除了人名（无产阶级革命家）外，还有图书名、影视片名。选择人名，有可视化（RDF图）、时间线（历史长河）、好奇心（自己探索关系）——一个比一个好玩。

4、大词林：绍兴
14个结果（不同属性）：中国地名、中国城市、中国市县、人、企业、县、地点、城市、市、时空、浙江县区、浙江城市、行政区划、都市【“人”不知是谁】。并提供这些结果间层次关系图。
姜天文：“《大词林》的构建不需要领域专家的参与，而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化，从而达到知识库自动构建的效果。”
从去年和今年两次查“毛泽东” 的结果看，确实在不断丰富。但质量是不是更好就不好说了，特别看“别名”：
2017.11.25：石三伢子、二十八画生等、毛润之
2018.8.19：* Shaoshan* 毛泽东纪念馆* 毛主席纪念堂* Chairman Mao Zedong Memorial Hall* 德州扒鸡* Comrade Mao Zedong Memorial
去年还是真正的别名。现在变成了韶山和2个纪念机构（及其英文名称），竟然还有“德州扒鸡”！——于是百度一下“毛泽东德州扒鸡”，第一页结果中都有这样的信息：“五十年代,国家副主席宋庆龄从上海返京途中,曾多次在德州停车选购德州扒鸡送给毛泽东主席以示敬意”。那为什么没有“红烧肉”？

BIBFRMAE应用进展：LD4P实施之路

BIBFRAME正迈向应用阶段，似乎离成为现实已经不远了。最近的两大进展：
一是LC的BIBFRAME第2阶段测试，直接以BIBFRAME编辑器进行编目，已进行了一年，并于上月发布了包括LC的MARC规范记录和书目记录转换的全部BIBFRAME描述数据集，供其他机构下载测试使用。参见：LC提供BIBFRAME描述数据集批量下载（2018-6-20）。
二是斯坦福等高校的LD4L系列项目（http://www.ld4l.org/），致力于由MARC过渡到关联数据，在2014-2016年的LD4L、2016-2018年的LD4L-Labs和LD4P之后，又争取到了梅隆基金为期2年LD4P第2阶段项目，名为“实施之路”（Linked Data for Production: Pathway to Implementation，没有查到直接信息）。[update 2018-11-14: 斯坦福大学图书馆2018-6-26消息，Stanford Libraries awarded $4 Million grant to implement linked data metadata environment，400万美元，参与馆斯坦福、康奈尔、哈佛和爱荷华大学]
作为项目的一部分，LD4P正建立沙盒，与合作编目项目（PCC）合作，为所有PCC成员创建基于云的沙盒，以实验创建基于BIBFRAME的元数据。项目希望在原核心成员哥伦比亚大学、康奈尔大学、哈佛大学、LC、普林斯顿大学、斯坦福大学、爱荷华大学之外，征求更多PCC成员深度参与（称为LD4P Cohort，合伙人），将某些基于MARC的工作流程转换到以关联数据为基础的工作流程。申请需符合项目提出的最低要求，获准后可得到最高5万美元的子项目资助。

在上月ALA年会上ALCTS举办的“在真实世界中实施关联开放数据”（Implementing Linked Open Data in the Real World）会场，斯坦福大学的Philip E. Schreur介绍了本项目。
在BIBFRAME邮件组（论坛）的本项目邀请参与的附件（Proposal Request to Join the LD4P Cohort）中，有本项目的7个目标：
1. 创建连续馈送的关联数据池，以基于BIBFRAME的应用纲要表达。
2. 开发扩展的图书馆合伙人（LD4P合伙人），能够通过创建基于云的沙盒编辑环境来创建和重用关联数据。
3. 开发用于以标识符自动增强MARC数据的政策、技术和工作流程，以使其尽可能清晰地转换为关联数据。【在前述最低要求中，最后一条是：在可行的情况下，将URI合并到MARC记录子字段$ 0s和$ 1s中】
4. 开发用于创建和重用关联数据及其支持标识符作为图书馆核心元数据的策略、技术和工作流程。
5. 通过与Wikidata的协作，更好地将图书馆元数据和标识符与Web集成。
6. 使用基于关联数据的发现技术，增强广泛采用的图书馆现环境（Blacklight）。
7. 通过开发一个名为LD4的组织框架，协调持续的社区协作。

via [BIBFRAME] Invitation to Join the LD4P Cohort / Philip E. Schreur (2018-7-5)
关于LD4L系列项目，参见：
重量级图书馆关联数据项目LD4P获得资助（2016-5-10）
BIBFRAME扩展：bibliotek-o（及ArtFrame和RareMat）（2018-5-1）

另：作为LD4P项目成果，“艺术和珍本资料BIBFRAME本体扩展”向BIBFRAME提出了很多修订建议，提交在BIBFRAME本体开发的Github网站“问题”部分，并统一标注：”This recommendation was made on behalf of the LD4P Art & Rare Materials BIBFRAME Ontology Extension (https://github.com/LD4P/arm).”。简单说明见：[BIBFRAME] Art & Rare Materials BIBFRAME feedback – GitHub Issues / Jason Kovari (2018-7-5)