法国国家图书馆开放数据:data.bnf.fr

法国国家图书馆(BnF)开放数据包括该馆主目录、档案和手稿、以及Gallica的数百万份数字馆藏等。data.bnf.fr项目致力于使法国国家图书馆制作的数据在网络上更有用。data.bnf.fr和Gallica在2013年获斯坦福研究图书馆创新奖(SPIRL)。

数据共享采用“法国开放协议”(法国版CC-by),RDF数据可供营利或非营利免费重复使用和复制,但必须标注引用来源。BnF参与开放数据运动的“主要目的是民主和经济,换句话说,使公共行动更加透明和有效;通过广播和收集数据使公共数据的创建合理化,另一方面,通过为商业或非商业用途提供可重用和有用的信息来促进经济活动”(https://data.bnf.fr/en/about)。——以前自己更多地关注开放数据的“民主”方面,不怎么注意“经济”,真是很大的偏视。

数据模型https://data.bnf.fr/en/abouthttp://data.bnf.fr/images/modele_donnees_2018_02.pdf

模型基于FRBR,除FRBR的3大类实体:作者Auteur、作品OEuvre、概念/主题Theme,还单列了另3个 【亮点】:地点Lieu、日期Date、场景Spectacle。

在数据汇集页面,作者、作品、主题的内容来自BnF的相应规范记录。而地点、日期、场景则是传统书目数据未加汇集的信息,来自不同元数据元素:

日期(通常是年份):日期相关主题,当年出生或死亡作者,当年创建或活跃期终结的机构,当年创作或完成的作品、表演的演出和出版的文献。

地点:出生或死于此地的作者,创建于此的机构,出版于此的期刊和文献、表演于此、录制于此、战争或签署于此的条约。

场景:体现了对“事件”的重视。数据汇集中目前有“演出”,在项目介绍的各页面未见涉及,当为场景/事件的体现,日期与地点中也有表演相关信息。

RDF词表和取值词表https://data.bnf.fr/en/opendata

*BnF本体:bnf-onto(网页显示仅11个元素,本体文件http://data.bnf.fr/ontology/bnf-onto/中有35个元素)
*复用词表:rdf, rdfs, skos, dcterms, foaf, RDAgroup2elements, rdvocab【2个非官方的RDA词表】
*BnF取值词表(网页仅列3个,取值词表http://data.bnf.fr/vocabulary-en页面多2种)
*Intermarc与RDF语言映射

原始数据格式:Intermarc用于印刷书籍目录,XML-EAD用于档案库存,Dublin Core用于数字图书馆。

为搜索引擎和社会网络嵌入数据https://data.bnf.fr/en/opendata)【亮点,社会网络用OG是我首次见到】

为方便搜索引擎索引,对“作者”“作品”和“主题”页面,以微数据格式嵌入Schema.org元素,内容包括个人、图书、机构,特别是机构子类演出团体、舞蹈团体、戏剧团体、音乐团体(与“演出”事件配套)

为方便页面在社会网络(脸书)中呈现,以RDFa元数据编码嵌入开放图谱协议Opengraph Protocol(OG),内容包括标题、描述、类型、URL、图像、作者。

消费外部资源https://data.bnf.fr/en/semanticweb

匹配外部取值词表:id.loc.gov用于语言和国籍,dewey.info用于主题,DCMI类型用于文档类型;

匹配外部数据集:DBpedia,VIAF。

法国国家图书馆的RAMEAU主题标目的页面与其他叙词表相匹配:来自图书馆(美国LCSH,德国DnB,西班牙BNE)或更专业(Agrovoc 联合国粮农组织词表,Geonames 地理名称数据库,Thesaurus W 法国国家档案馆叙词表)。

依作品校准和聚类https://data.bnf.fr/en/opendata

【“作品”识别是FRBR模型(或LRM)应用的一大挑战,在没有题名规范控制(如统一题名)时尤其如此。同时,大多数作品只有一个载体表现,没有对应的作品规范记录——不需要“汇集”,但也应该有其作品页面】

对于有名称规范和题名规范的记录,汇集作品很方便。
如果有名称规范但没有题名规范,BnF采用简单校准方法:载体表现与作品的题名相同时校准。

要更全面解决需要2种方法:

1、Alignment 校准/对齐:(在作者相同的前提下,对载体表现题名)使用前方一致、完全匹配、相距N个词、Levenstein距离、匹配算法,确定是否对应于相同的作品。

2、Clustering 聚类:新文献没有题名规范记录时,汇集载体表现。

概况与进展

data.bnf.fr网站2011年7月上线,定期更新,最近一次更新数据是2018-1-24。目前包括(https://data.bnf.fr/ontology/):作者225.5万,作品27.9万,论题/主题19万,地点11.8万,日期2618,演出5.9万,期刊34.2万。

虽然数据最后更新已有一年多,但网站的不同页面分别有2018年新完成任务和2019年计划,显示项目仍在持续中:

2018年对URI后缀作了修改(https://data.bnf.fr/en/opendata):原来实体本身无后缀、实体的描述#about、描述的描述#recrod,修改后,实体本身和实体的描述#about,描述的描述不带后缀——怎么感觉还是原来的更合理?

2019年有4个任务的路线图(https://data.bnf.fr/en/about):

1、改善数据的传播,通过更新定期更新来增强数据的新鲜度和完整性,通过发布Gallica数字文档的整个参考,并整合来自Web法定呈缴的信息等新资源。

2、校准BnF参考文献与来自Web可信运营商的其他参考资源,并加强data.bnf.fr作为法国在线文化数据中心的角色。

3、支持开放数据重用和测试创新的可视化,提出探索、分析和显示数据和馆藏的新方法,如“研讨会”页面已经做的那样。【新的事件类型?】

4、扩展数据处理,特别是在作品和文档之间建立链接,记住在我们的目录中实施FRBR模型。计算从书目记录到文本或音乐作品的规范记录的附加链接是一个问题,并且从长远来看,通过聚类作品的版本(载体表现)来创建作品的规范记录,即使它们尚不存在。【对有多个版本的作品创建规范记录】

开发中的图书馆服务平台Folio概览

2018年最后2天,应Keven之邀参加Folio系统界面翻译,跨年和元旦都在刷汉译——仅凭对图书馆自动化系统的了解,对Folio本身则几无所知。人多力量大,demo汉译在元旦那天基本完成。接下来还将参与Codex兴趣小组的活动,于是先来补下课。

一、关于Folio
Folio = Future of Libraries is Open,开源的图书馆服务平台,前身是开发多年的Kuali OLE (Open Library Environment)。2016年前后,Kuali基金会决定转向商业,于是OLE改与EBSCO和Index Data(丹麦)合作,启动Folio。由2016年项目启动时EBSCO中文网站的长篇介绍,可对Folio有更多了解:
隆重介绍 FOLIO – 一项崭新的合作项目,携手图书馆、服务供应商以及开发人员来促进、创新并且重塑图书馆自动化系统的未来 [2016-6-25]

二、平台状况和路线图(Platform & Roadmap)
Folio官网目前发布的路线图如下,不知是否能如期实现:
第1阶段:发布Alpha版,2018年1月
第2阶段:平台发布(Beta版),2019年初
第3阶段:在图书馆运行,期望2019年初至少有3家图书馆实施
第4阶段:早期实施者,11家图书馆计划在2019年实施

三、Folio平台FOLIO Platform
Folio的特点是模块化、灵活性、扩展性。
任何人可以开发Folio App。现在有十几个设想,比如App设想第3号预约房间、第6号与图书馆活动和网站集成、第8号与机构库集成、第13号支持联合目录。

四、资源管理数据域Resource Management Data Domains
对图书馆实体与电子资源的管理模型,包括以下6个域(图示是简化版):

Resource Management Data Domains

Folio法典域(Folio Codex Domain),由一组最小但足够的核心元数据集组成,更全面的元数据集在动态检索时调用。
知识库域(Knowledge base (KB) Domain):电子资源、印刷资源及其他资源等多种知识库(托管系统中,对实体资源,感觉像是类似联合目录的中心书目库)
馆藏域(Holdings Domain):电子资源的权益/馆藏(Entitlement/Holding),可能与知识库中包(Package)的收录范围等不一致。
采访域(Acquisition Domain):图示中只对电子资源作了标示(省略了实体资源),主要为说明电子资源采访产生的馆藏,可能与知识库中包的收录范围等不一致。
库存域(Inventory Domain):法典域对应的实体资源部分
流通域(Circulation Domain):包括用户借阅实体资源与使用电子资源
Folio的关键假定
1、合并电子和印刷;
2、合并单行和连续出版物;
3、库存和知识库(见上);
4、本地与远程。本模型的主要目标是避免元数据的本地复制。只要有可能,就应该对权威记录进行引用(即链接)。本地系统应仅保留与该单件相关的最小核心元数据集。每当需要完整、丰富的元数据集时,应从权威源(例如知识库)动态检索这些元数据。 此外,本地保留的核心元数据应仅在需要时存在于本地Folio系统中。对于电子单件,这意味着只有在访问单件时才会出现本地占位符。 换句话说,它是将权益(潜在馆藏)转换为实际馆藏的访问权,然后可以在本地Folio系统中表示。
我的理解,法典域是面向读者的检索结果一览信息,详细页面信息由动态调用获取。联想一下——不需要每个馆都维护更新数据,只需要大家共同维护、系统来做更新,是不是很美好?

五、法典元数据模型Codex Metadata Modal
Codex Metadata Modal
Codex是一个规范化和虚拟化层,允许Folio集成有关各种资源的元数据,无论其格式、编码或存储位置。
目前仅包含棕色的5个对象:实例、单件/馆藏、收录范围、位置、包;未来还会增加,确定将增加的是蓝色的2个:作品、主题。目前看各对象包含的字段并不多,应该就是前述法典域所称的元数据核心集。
本模型受BIBFRAME2启发(作品-实例-单件),但并不严格遵循BIBFRAME2(BIBFRAME 2 模型只针对单个资源,没有“包”的概念)。
另关于MARC,MARC记录格式被Folio用作数据交换格式——回归MARC(尤其是UNIMARC)的原始设计。其实现在的图书馆自动化系统、尤其是支持非MARC编目的系统,MARC的作用恐怕也是如此。
我想对Folio来说,这也意味着未来BIBFRAME或其它元数据也可以经crosswalk转换后,纳入到系统中。

2018国际关联数据实施者调查分析

OCLC研究部曾在2014年和2015年进行过2次国际关联数据实施者调查。为了解近三年的变化,以及格式化元数据为关联数据或者后续使用关联数据的新项目或服务,OCLC研究部于2018.4.17-5.25再次进行同样的调查,Karen Smith-Yoshimura综合三次调查结果,写了分析文章,发表在网刊code4lib Journal:
Karen Smith-Yoshimura. Analysis of 2018 International Linked Data Survey for Implementers. code4lib Journal, Issue 42, 2018-11-08
调查包括:概述,发布什么关联数据及为什么,消费什么关联数据及为什么,忠告,结论。内容太丰富,很难概括总结,只能摘录部分如下。

【一】概述
【机构与项目数量】共有23个国家的143家机构参加了一次或多次调查(见文后附录)。参加2018年调查的81家机构中,46家参加过先前一次或两次调查。但参加过先前调查者介绍的也不一定是同样的关联数据项目或服务【换言之,原项目已不再继续】。在2018年介绍的104个关联数据项目或服务中,仅42个以前介绍过。即使介绍同样的项目或服务,有时回复也与以前不同【应该是项目本身有变化】。
【国别】2018年调查中美国回复34家机构占42%,接下来是西班牙12家,英国8家,荷兰4家,加拿大、德国、挪威各3家,意大利2家,1家的是澳大利亚、奥地利、中国【终于有了,竟然不是上海图书馆,而是敝校】、捷克、芬兰、法国、匈牙利、日本、卢森堡、葡萄牙、南非和瑞士。
【机构类型】研究图书馆23家28%,国家图书馆13家16%,研究机构11家14%,图书馆网络和政策各8家10%,服务供应商6家7%,公共图书馆5家6%,博物馆4家5%,其他2家(1家音乐厅、1家出版社)。此分布基本上与前次调查相同,只有一个例外——第一次收到来自服务供应商的回复,是向其客户提供关联数据服务。
【项目运行时间】2018年的104个关联数据项目或服务中,18个已运行2年以上4年以下,31个已运行4年或以上。3个还不可访问,3个“私有”仅供本机构使用。
【协作】大部分关联数据项目或服务完全在内部完成(61个),部分为多机构实施(23个),20个由外部厂商或服务供应商提供。不过,即使回复说工作所由内部完成的,也报告与外部小组或机构协作。仅25个实施为“仅本机构”。
【员工】大部分机构把关联数据加到了当前员工的职责(86家),仅15家没有。与2015年调查相比最大不同是,有员工专门从事关联数据的数量增加了50%。
【资助】22个关联数据项目或服务收到基金资助,73个由图书馆/档案馆和/或母机构资助。6个关联数据项目接受来自伙伴机构的支持,5个私人资助,1个接受团体资助。8个从未申请项目,但计划申请。
【成功评估】2018年比2015年有更多回复者报告其关联数据项目或服务成功或“大多”成功。已经运作至少4年的提出以下成功指标:[1]使用;[2]数据重用;[3]互操作;[4]用户满意;[5]影响;[6]专业发展
【发布与消费】在2018年和2015年的调查中,大多数项目/服务既消费也发布关联数据。2018年的调查中,只发布关联数据的项目更少。【更重视消费?】

【二】发布什么关联数据、为什么?
【LD类型】鉴于回复者中图书馆的代表性相对较大,描述性元数据(51)和书目数据(47)是最常见的数据类型,规范数据紧随其后(45)。其他数据类型:关于人的数据(33)、本体/词表(33)、数字馆藏(27)、地理数据(23)、数据集(19)、关于博物馆实物的数据(12)、组织数据(12)、编码档案描述EAD(3)和统计数据(3)等。
【三元组数量】超过10亿三元组的关联数据集数量从3个增加到11个,其中3个超过50亿三元组:Biblioteca de Galicia的数字图书馆(63亿三元组)、Europeana (略高于50亿)和OCLC的WorldCat关联数据(超过100亿三元组)。 但是大多数关联数据集都很小。在报告其数据集大小的63个回复中,33个不到1000万个三元组,9个在10到1亿个三元组之间,10个在1亿到10亿个三元组之间。
【发布动机】比较2018年和2015年的调查结果,发布关联数据的主要动机似乎没有变化。2018年依次为:在Web上迥更多受众曝光数据(74%);证明数据集作为关联数据可做什么(65%);听说关联数据,想试试曝光某些本地数据为关联数据(45%);探索发布数据为关联数据,是否会改进本地资源的搜索引擎优化(SEO)(24%);管理层要求我们曝光我们的数据为关联数据(11%)。
【使用情况】超过半数回复要么不知道、未保留或无法访问使用统计数据,要么尚未使用(103家回复中61家) 。通过每天平均请求数衡量的八个使用最多的关联数据集(每天超过10万个请求):
[1]美国钱币学会的nomisma(钱币概念叙词表)
[2]法国国家图书馆的data.bnf.fr
[3] Europeana,汇集欧洲各地博物馆、档案馆和视听档案馆的数字对象元数据
[4]美国国会图书馆的关联数据服务
[5]日本国立国会图书馆的NDL搜索,提供日本图书馆、档案馆、博物馆和学术研究机构的书目数据
[6]北莱茵 – 威斯特伐利亚图书馆服务中心的关联开放数据服务,提供对书目资源、图书馆和相关组织以及规范数据的访问
[7]OCLC的虚拟国际规范档(VIAF),来自不同国家和地区的40多个规范档的汇总
[8]OCLC的WorldCat关联数据,包含超过4亿条书目记录的目录
另外3个关联数据集每天收到5-10万请求:
[9]不列颠图书馆的《英国国家书目》
[10]芬兰国家图书馆的芬兰叙词表和本体服务
[11]OCLC的FAST(标题表的分面应用),一种来自《美国国会图书馆标题表》的分面主题标题表
【RDF词表与本体】大多数项目使用多个。使用SKOS的百分比从2015年的60%下降到2018年的44%【第2位】,这与使用Schema.org的增加相反(2015年为30%,2018年为46%【第1位】)。类似减少出现在使用DC基本元素集【第3位】、DCMI元数据术语【第5位】和foaf【第4位】,使用RDF Schema的略微减少【并列第5位】。BIBFRAME词表使用率从2015年的15%增加到2018年的27%【第7位】。
【许可】32个项目/服务未宣布任何明确的许可,19个采用CC0 1.0 Universal,这是2018年调查受访者使用的最常见的许可。
【访问及格式】在发布关联数据的70个项目或服务中,19个目前不可在其机构之外访问其数据。
那些提供多种访问格式的,网页是最常见的,随后是文件转储【批下载】、内容协商、SPARQL端点、SPARQL编辑器、嵌入式标记和应用程序。
最常用的关联数据序列化是RDF/XML,其他较少使用的序列化,依引用频率:Turtle,JSON-LD,N-Triples,RDF/JSON,RDFa,N3 RDF三元组和N-Quads。
【技术】发布关联数据所使用的技术是多种多样的,并且大多数使用多种技术。最多有20多家提到:SPARQL、Java。……
【障碍】2018年和2015年调查中出版关联数据的障碍或挑战排名大致相同。最大障碍是员工陡峭的学习曲线【要学的东西太多】,其次是遗留数据中的不一致【数据清洗吧】,第三是选择适当的本体。

【三】消费什么关联数据、为什么?
【关联数据源】2018年前10(超过12个项目或服务使用):id.loc.gov;VIAF;DBPedia;GeoNames;Wikidata;WorldCat.org;Getty Vocabularies;FAST;ISNI;我们自己转换为关联数据的资源。
与2015年相比的最大变化:维基数据使用激增(排名第5,2015年排名第15),与WorldCat.org使用情况相当。ISNI也升至“前10名”,而“我们自己转换为关联数据的资源”从2015年的第5下降到2018年的第10。
【动机】消费关联数据的主要原因在2018年和2015年的调查中排名相同:[1]为本地用户提供更丰富的体验;[2]通过消费其他来源的关联数据强化本地数据。百分比及排名下降较多的有:实现更有效的内部元数据管理(从2015年的47%【第3】到2018年的30%【第4】)。
为本地用户提供更丰富的体验
【障碍】主要障碍是对来源数据和关联数据源进行匹配、消歧和对齐。最大的区别在于2018年指向不稳定端点和服务可靠性的回复数量的增加。

【四】忠告【每一句都是经验之谈,须自己看原文体会】

【五】结论
对2018年调查的回应可能被视为仍在发展的关联数据环境的另一部分快照。这种观点受限于哪些机构对调查作出回复以及谁作的回复【这个对结果的影响确实很大】,因为早期调查中描述的关联数据实施的回复可能因个体观点的不同而不同。
【与2015年调查的显著差异】
[1]只发布关联数据的项目或服务更少,对照那些发布和消费链接数据的项目或服务增加。
[2]更多专门从事关联数据的员工。
[3]用schema.org和BIBFRAME发布关联数据的增加,对照用SKOS的减少。
[4]维基数据Wiki作为关联数据源的兴起。

参见:
2018年国际关联数据实施者调查(2018-5-18)
关联数据应用现状:2015国际关联数据实施者调查的分析(2016-9-4)
OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)