关联数据 – 第 17 页 – 编目精灵III

2017年IFLA新标准（6项）

IFLA标准网站 IFLA Standards（未列出所有标准）

8月正是IFLA年会，IFLA专业委员会审查通过了《IFLA图书馆参考模型》（LRM）。大会同时发布新闻，汇总2017年IFLA已经及即将公布的新标准。
New IFLA Standards in 2017 (2017-8-22)
年会新闻，链接了新标准介绍英文版，作为IFLA的7种官方语言之一，还有新标准介绍中文版。
已经发布的4个标准都在广义的编目范畴（照抄各标准简介附后）：
– 国际图联图书馆参考模型（LRM）
– PRESSoo的定义：有关连续出版物和其他连续性资源书目信息的概念模型
– 国际编目原则（ICP）2016版
– FRBRoo的定义：面向对象的形式化的书目信息概念模型

即将公布的2个（8月18日国际图联专业委员会会议批准），介绍中没有简介、说明为“即将上线”：
– 图书馆对无家可归人士的服务指南 Guidelines for Library Services to People Experiencing Homelessness
目前IFLA网站上有今年早些时候的全球评审（截止期2017-5-21）草案

– 国际图联ISBD在RDF中的命名空间之翻译指南 IFLA Guidelines for translations of the IFLA ISBD namespace in RDF
目前网站上有2015年1.0版：Guidelines for translations of the IFLA ISBD namespace in RDF (2015)
参见：IFLA《翻译ISBD之RDF命名空间指南》发布（2015-5-7）
另外在ISBD评审组网站的 Publications from ISBD Review Group，还有一个相关标准：
ISBD用作关联数据指南 Guidelines for Use of ISBD as Linked Data (2016)
目前是2016年8月最终草案，看来获批之路漫长。

——— 国际图联图书馆参考模型（LRM）———
IFLA Library Reference Model (LRM) （2017年8月国际图联专业委员会审查通过）
国际图联LRM是在实体-关系模型框架下开发的高层概念参考模型，是对FRBR、FRAD、FRSAD这三个独立发展的国际图联概念模型的整合。
国际图联LRM的推出旨在解决这三个独立模型之间的不一致之处。新的模型对原有三个模型中涉及的每一项用户任务、实体、属性和关系都进行了审核，也对相关概念做了修订，但同时也需要进行重构，以构建有意义的整合。整合结果便是目前这个单一、简化且逻辑一致的模型，它涵盖了书目数据的所有方面，同时也适用于当前的概念模型实践。
国际图联LRM旨在应用于关联数据环境，支持并推动关联数据环境下的书目数据使用。
参见：
IFLA图书馆参考模型中的Nomen实体（附LRM成为IFLA标准）（2017-8-25）
FRBR家族新进展：LRM 2017年3月版、IFLA标准PRESSoo 1.3发布（2017-5-25）
《FRBR图书馆参考模型》评审反馈（2016-5-7）
《FRBR图书馆参考模型》全球评审（2016-2-29）
FRBR统一模型：开发中的FRBR图书馆参考模型（2015-8-19）

——— PRESSoo的定义：有关连续出版物和其他连续性资源书目信息的概念模型 ———
Definition of PRESSoo: A conceptual model for Bibliographic Information Pertaining to Serials and Other Continuing Resources （2017年3月国际图联专业委员会会议上获审通过）https://www.ifla.org/publications/node/11408
今年早些时候发布的PRESSOO是一个正式本体，旨在揭示连续性资源及更具体的连续出版物（期刊、报纸、杂志等）的书目信息。该模型是对FRBROO模型（面向对象的书目记录的功能需求）的扩展。FRBR反之又是对CIDOC CRM的扩展，CIDOC CRM是文化遗产信息的概念参考模型。
PRESSOO旨在为FRBR家族模型应用于连续出版物和连续性资源时长期存在的问题提供解决方案。
参见：
FRBR家族新进展：LRM 2017年3月版、IFLA标准PRESSoo 1.3发布（2017-5-25）
FRBRoo的连续出版物扩展——PRESSoo（2014-2-13）

——— 国际编目原则（ICP）2016版 ———
Statement of International Cataloguing Principles (ICP) 2016
国际编目原则的第一版，即广为熟知的“巴黎原则”，已经出版50余年。【2009年出版ICP】国际图联现在出版了最新的修订版，即国际编目原则（ICP）2016版。
这个版本立足于世界强大的编目传统，以及国际图联功能需求家族概念模型。
这些原则旨在指导编目代码的发展和编目员所做的决定，应用于书目和规范数据，也由此应用于现行的图书馆编目和图书馆创建的书目及其他数据集。它们的目标是为所有类型的书目资源提供统一的资源描述和主题编目方法。
参见：
《国际编目原则声明》（2016版）发布（2017-3-5）
《国际编目原则声明》2015版（草案）（2015-8-20）

——— FRBRoo的定义：面向对象的形式化的书目信息概念模型 ———
Definition of FRBRoo: A Conceptual Model for Bibliographic Information in Object-Oriented Formalism （标准委员会发布）
FRBROO是书目数据的一个本体或更高层次的概念模型。这个模型与国际图联的FRBR家族概念模型紧密相关；它是这些模型的面向对象版本。FRBROO的第一版只基于FRBR；而第二版基于三个模型：FRBR、FRAD和FRSAD。
参见：
FRBRoo 2.4作为IFLA标准发布（2017-3-20）
FRBRoo中的“事件”（2016-10-16）
“FRBRoo模型与环境学术研讨会”笔记（2016-10-14）
FRBRoo 2.4笔记（2016-10-6）
FRBRoo读后（2014-2-9）

关联数据的“调和”与“解析”

关联数据应用中，相同实体判定是重要工作，决定最终的应用效果。对于从原有数据转换而来的关联数据，这项工作尤其重要。比如从MARC转换到BIBFRAME、schema.org或其他格式，完成格式上的映射后，做一个转换程序不会太难，麻烦的是给转换后的实体配上相应的URI。当然可以简单地设置自家URI/IRI，但后续也需要与其他/通用URI匹配，才能发挥作用。比如把书目记录中的某个作者，关联到维基百科中的某个人物词条。调和与解析（Reconciliation & Resolution），就是对实体进行匹配。

LD4 Community Working Group on Reconciliation
基于安德鲁梅隆基金系列课题（LD4L、LD4L-Labs、LD4P）的LD4社群，在2017年5月成立了一个开放参与的“调和与解析工作组”，致力于解决这个问题。目前志愿参与的成员来自Europeana、芬兰赫尔辛基大学、美国国会图书馆、史密森学会、斯坦福大学、华盛顿大学、印第安那大学、加州大学圣迭戈分校、加州大学圣芭芭拉分校、加州大学校长办公室、艾利贝斯集团、Apache软件基金。
工作组目标是为文化遗产/GLAM（美术馆、图书馆、档案馆、博物馆）的资源元数据的调和与解析，总结匹配算法、工作流程、工具和功能需求。
对于相关概念，小组认定的术语含义如下（目前工作内容仅涉及前二者）：
– 调和（Reconciliation）：实体/URI到实体/URI
– 实体解析（Entity resolution）：字符串到实体/URI（常误称“调和”）
– 词汇化（Lexicalization）：实体/URI到字符串（即得到相应的标签label）

调和与解析相关工作，在实际应用中可能不只是匹配一种情况。目前小组正在公开征集用例、功能需求、当前服务、工作流程等。有一个提交用例的简单模板，包括主要行动者（参与人员）、涉及范围、描述（story）三项内容。
GitHub上到今天（2017-8-10）已经提交了38个用例（编号21-76，有跳号），比如：#76跨语言匹配，#70运行优化，#68使用本体，#39断言两个实体不同。

via BIBFRAME listserv: Call for Reconciliation & Entity Resolution Use Cases / Needs / Stories. Brian Tingle. 8 Aug 2017
参见小组工作计划：LD4 Community Working Group on Reconciliation, 2017-2018 Work Plan

另参见：重量级图书馆关联数据项目LD4P获得资助（2016-5-10）

LC提供2500万书目记录免费批下载（附LC在Library.Link）

2017年5月，美国国会图书馆（LC）宣布免费提供2500万条书目记录批下载。时间段为1968-2014年，应该就是2014年前LC制作的所有MARC记录。很多年前LC的书目记录就可以通过Z39.50逐条获取，但批量数据以前是付费订购的。虽说“主要供研究与开发利用”（MARC Open-Access），但因为并未限制使用目的，估计很多书目服务商听到消息第一时间就去下载备用了。
根据LC网站的 MARC Distribution Services (data set) 网页上的FAQ说明，本次免费提供的数据截止到2013年12月，以后可能每年更新。订购数据则更及时，目前截止2015年12月底，同时提供每日、每周更新。
开放MARC数据的目的是希望书目数据得到原有目的之外的、更广泛的利用。LC采访与书目访问部主任Beacher Wiggins在报道中说：“为了更有效的信息分享、更方便可视化与其他不可预知的分析，我们希望社会科学家、数据分析师、开发者、统计学者及其他人在工作中使用数据，对大数据集做创新工作，强化新知识的学习与生成”。
via Fortune: The Library of Congress Just Made 25 Million Records Available for Free (2017-5-17)

——— Library.Link中的LC书目数据 ———
今天看到Library.Link中，对LC书目记录经关联数据转换后发布。LC宣布开放数据是2017-5-17，数据被载入Library.Link是2017-6-12，发布是2017-6-15，可谓反应迅速。不知道是不是最早的公开发布应用。
关于Library.Link，参见：2016 ALA年会BIBFRAME更新论坛（2016-8-27）

LOC.Library.Link
LC像其他加入Library.Link的图书馆一样，有一个主页。如果有帐号，可以看访问统计。
右栏是“资源”，即由MARC记录转化后的Bibfra.me类（共16个）及数量，字顺排列：
Agent 2338223
Collection 667912 （由相关题名字段转换而来？）
Concept 6546780
CopyrightEvent 564
Family 25860
Form 9336
Instance 12898932
Meeting 228118
Organization 1200225
Person 4891149
Place 634135
ProviderEvent 6005730
Series 958273
Temporal 8906
Topic 303503
Work 13649505

每次在新形态下看发布的书目数据，总不免看到一些原本埋没着不知道的原始数据错误，如以前看分面OPAC，现在看关联数据。选择“个人”随意浏览，本当为人名，但排序在前几页的都是非字母开头的（标点符号、数字），有些可能是非拉丁字母转化的字符问题，还有相当部分应该是原始数据有问题。
比如有个”16 juli 1993″，根据题名返回到LC目录查原记录，LCCN=94124897（https://lccn.loc.gov/94124897），果然有：
7001_ |a “16 juli 1993.”
本书1993年出版，可能把500误作700了。

接下来还有不少以冠词A起始的，很有意思，比如：A 1st class boy, A British officer, A Californian, A lady of this city …
比如：A lady of this city
LC目录中查到原记录LCCN=16009701（https://lccn.loc.gov/16009701）
245 04 $a The life of the beautiful and accomplished danseuse, Mademoiselle Fanny … $c … Selected and comp. by a lady of this city.
700 0# $a A lady of this city.
原来还有这样直接用题名页上称呼做个人名称检索点。