法国国家图书馆开放数据:data.bnf.fr

法国国家图书馆(BnF)开放数据包括该馆主目录、档案和手稿、以及Gallica的数百万份数字馆藏等。data.bnf.fr项目致力于使法国国家图书馆制作的数据在网络上更有用。data.bnf.fr和Gallica在2013年获斯坦福研究图书馆创新奖(SPIRL)。

数据共享采用“法国开放协议”(法国版CC-by),RDF数据可供营利或非营利免费重复使用和复制,但必须标注引用来源。BnF参与开放数据运动的“主要目的是民主和经济,换句话说,使公共行动更加透明和有效;通过广播和收集数据使公共数据的创建合理化,另一方面,通过为商业或非商业用途提供可重用和有用的信息来促进经济活动”(https://data.bnf.fr/en/about)。——以前自己更多地关注开放数据的“民主”方面,不怎么注意“经济”,真是很大的偏视。

数据模型https://data.bnf.fr/en/abouthttp://data.bnf.fr/images/modele_donnees_2018_02.pdf

模型基于FRBR,除FRBR的3大类实体:作者Auteur、作品OEuvre、概念/主题Theme,还单列了另3个 【亮点】:地点Lieu、日期Date、场景Spectacle。

在数据汇集页面,作者、作品、主题的内容来自BnF的相应规范记录。而地点、日期、场景则是传统书目数据未加汇集的信息,来自不同元数据元素:

日期(通常是年份):日期相关主题,当年出生或死亡作者,当年创建或活跃期终结的机构,当年创作或完成的作品、表演的演出和出版的文献。

地点:出生或死于此地的作者,创建于此的机构,出版于此的期刊和文献、表演于此、录制于此、战争或签署于此的条约。

场景:体现了对“事件”的重视。数据汇集中目前有“演出”,在项目介绍的各页面未见涉及,当为场景/事件的体现,日期与地点中也有表演相关信息。

RDF词表和取值词表https://data.bnf.fr/en/opendata

*BnF本体:bnf-onto(网页显示仅11个元素,本体文件http://data.bnf.fr/ontology/bnf-onto/中有35个元素)
*复用词表:rdf, rdfs, skos, dcterms, foaf, RDAgroup2elements, rdvocab【2个非官方的RDA词表】
*BnF取值词表(网页仅列3个,取值词表http://data.bnf.fr/vocabulary-en页面多2种)
*Intermarc与RDF语言映射

原始数据格式:Intermarc用于印刷书籍目录,XML-EAD用于档案库存,Dublin Core用于数字图书馆。

为搜索引擎和社会网络嵌入数据https://data.bnf.fr/en/opendata)【亮点,社会网络用OG是我首次见到】

为方便搜索引擎索引,对“作者”“作品”和“主题”页面,以微数据格式嵌入Schema.org元素,内容包括个人、图书、机构,特别是机构子类演出团体、舞蹈团体、戏剧团体、音乐团体(与“演出”事件配套)

为方便页面在社会网络(脸书)中呈现,以RDFa元数据编码嵌入开放图谱协议Opengraph Protocol(OG),内容包括标题、描述、类型、URL、图像、作者。

消费外部资源https://data.bnf.fr/en/semanticweb

匹配外部取值词表:id.loc.gov用于语言和国籍,dewey.info用于主题,DCMI类型用于文档类型;

匹配外部数据集:DBpedia,VIAF。

法国国家图书馆的RAMEAU主题标目的页面与其他叙词表相匹配:来自图书馆(美国LCSH,德国DnB,西班牙BNE)或更专业(Agrovoc 联合国粮农组织词表,Geonames 地理名称数据库,Thesaurus W 法国国家档案馆叙词表)。

依作品校准和聚类https://data.bnf.fr/en/opendata

【“作品”识别是FRBR模型(或LRM)应用的一大挑战,在没有题名规范控制(如统一题名)时尤其如此。同时,大多数作品只有一个载体表现,没有对应的作品规范记录——不需要“汇集”,但也应该有其作品页面】

对于有名称规范和题名规范的记录,汇集作品很方便。
如果有名称规范但没有题名规范,BnF采用简单校准方法:载体表现与作品的题名相同时校准。

要更全面解决需要2种方法:

1、Alignment 校准/对齐:(在作者相同的前提下,对载体表现题名)使用前方一致、完全匹配、相距N个词、Levenstein距离、匹配算法,确定是否对应于相同的作品。

2、Clustering 聚类:新文献没有题名规范记录时,汇集载体表现。

概况与进展

data.bnf.fr网站2011年7月上线,定期更新,最近一次更新数据是2018-1-24。目前包括(https://data.bnf.fr/ontology/):作者225.5万,作品27.9万,论题/主题19万,地点11.8万,日期2618,演出5.9万,期刊34.2万。

虽然数据最后更新已有一年多,但网站的不同页面分别有2018年新完成任务和2019年计划,显示项目仍在持续中:

2018年对URI后缀作了修改(https://data.bnf.fr/en/opendata):原来实体本身无后缀、实体的描述#about、描述的描述#recrod,修改后,实体本身和实体的描述#about,描述的描述不带后缀——怎么感觉还是原来的更合理?

2019年有4个任务的路线图(https://data.bnf.fr/en/about):

1、改善数据的传播,通过更新定期更新来增强数据的新鲜度和完整性,通过发布Gallica数字文档的整个参考,并整合来自Web法定呈缴的信息等新资源。

2、校准BnF参考文献与来自Web可信运营商的其他参考资源,并加强data.bnf.fr作为法国在线文化数据中心的角色。

3、支持开放数据重用和测试创新的可视化,提出探索、分析和显示数据和馆藏的新方法,如“研讨会”页面已经做的那样。【新的事件类型?】

4、扩展数据处理,特别是在作品和文档之间建立链接,记住在我们的目录中实施FRBR模型。计算从书目记录到文本或音乐作品的规范记录的附加链接是一个问题,并且从长远来看,通过聚类作品的版本(载体表现)来创建作品的规范记录,即使它们尚不存在。【对有多个版本的作品创建规范记录】

法国的《书目转换项目》(RDA在法国)

题记:关于RDA在法国, 可以用一句话表示,就是“不原样采用”。自2015年起法国参照RDA编制并逐步发布、应用新的编目规则,名为RDA-FR,最终将取代目前的编目规则。

2014年11月,法国的两个国家书目机构,法国国家图书馆(BnF)和高等教育书目机构(ABES)——分别负责法国公共图书馆与研究图书馆的元数据标准化需求与政策——联合表达法国的RDA立场,提出《书目转换项目》,包括以下三个方面:
– FRBR化法国目录,使用自动数据处理、以及语义网的技术与标准
– 从RDA派生新的编目规则《RDA-FR:RDA的法国变调》(RDA-FR: A French Transposition of RDA),可预示为RDA的法国应用纲要。这些新规则从2015年开始正逐渐实施。
– 发布国家《书目转换项目》(Bibliographic Transition Program),致力于支持法国的所有利益相关者,通过主要的规范性与技术演变所导致的剧烈改变。

2015年“书目转换在法国”网站建立,当然是法文的,但有一个英文页面(Bibliographic Transition in France),包括如下内容:
– The French Agenda : an Overview 法国议程概述(概述法国对RDA的态度及《书目转换项目》)
– The French Perspective on the Current Version of RDA 当前RDA版本的法国视角
– FRBRising Catalogs FRBR化目录(目前两在书目机构ABES和BnF都在聚类作品的所有版本)
– RDA-FR : A French Transposition of RDA 《RDA-FR:RDA的法国变调》(第一批元素于2015年6月在网站发布)
– France’s Commitment to International Collaboration 法国对国际协作的承诺(EURIG永远是法国选择提出其RDA演化建议的平台)
– Nation-wide Transitional Coaching for French Professionals 为法国专业人员的全国性转换指导

从以上网页内容可知,由于现今各国都关注着RDA,弃之不顾可能意味着被边缘化、在编目规则领域缺少发言权,因此法国选择以EURIG(欧洲RDA兴趣小组)为舞台,成为其他同样不打算“原样采用”RDA国家的榜样。

个人深以为然的是上述“当前RDA版本的法国视角”中这一段:“RDA的灵活性是其主要资产之一,也鼓励增加国别或特定部门的应用纲要,每个利益相关人可自由选择大量的选项和交替。(因此)衍生外国记录因此很可能要求人工干预。这并不符合让RDA如此有吸引力的成本效益承诺:其国际互操作性。”名义上大家用的都是RDA,但做出来的东西可能有很大差别。
RDA-FR被说成RDA的法国应用纲要(application profile)。但由EURIG 2016年会上报告 Report on the French position regarding the RDA implementation 看,其中的内容类型元素由第6章移到第3章(即由内容表达实体改入载体表现实体)、第2部分(5-7章)的组织也将不同于RDA,这还在RDA的范畴中吗?RDA-FR难道不是进一步降低了RDA名下标准的国际互操作性?当然,结构上的不同,可能比属性本身的选项和交替的差异,对描述与检索点结果的影响要小。

参见:
Françoise Leresche. Report on the French position regarding the RDA implementation. EURIG seminar, May 23th 2016
RDA在法国(2011-10-7)
法国人眼中的FRBR、RDA与BIBFRAME(2014-2-13)

法国人眼中的FRBR、RDA与BIBFRAME

明天寒假结束,争取看完《信息标准季刊》2013年冬辑。下文是该期中最长的一篇,看完全文的强烈印象是法国(或者他所称的欧洲)对FRBR的全面坚持,对RDA的无可奈何,以及对BIBFRAME的观望与困惑。

Interview with Gildas Illien, Director, Bibliographic and Digital Information Department, Bibliotheque nationale de France (BnF). ISQ:Information Standards Quarterly, Winter 2013, Vol.25 issue 4:22-29
客座内容编辑Ted Fons访谈法国国家图书馆(BnF)书目与数字信息部主任吉尔达·艾里恩,艾里恩谈他本人以及法国乃至欧洲对4个元数据相关问题的看法:
1、概述对需要书目数据交换新框架的观点?为什么现在需要?作为元数据专家,需要解决的最大问题?
2、BnF在转换书目数据表达方式上做了些什么?
3、概述欧洲图书馆过去五年关注什么?在元数据管理方面的主要致力的是什么?
4、未来两年新元数据项目的重心?当前努力中是否有鸿沟可在近期填补?

以下译自主要谈及RDA和BIBFRAME的第3个问题,对FRBR的表述则几乎贯穿全部4个问题。

【FRBR作为起点】当前北美及更广的英美编目界关于书目数据交换模型的讨论,在欧洲产生兴奋与困惑的混合体。在许多欧洲国家图书馆与书目机构看来,在IFLA框架下,发明与整合FRBR模型(及其后对规范记录与主题的扩展FRAD和FRSAD),是我们现在所称的书目革命的概念起点。欧洲有强烈的看法,该模型的视点仍有效,应当是书目改变的主要驱动力,因为FRBR正被整合进IFLA国际编目原则,适应对数字时代的创新与调节。欧洲图书馆在FRBR理论与数据建模中投入良多且仍在投入,比如当前在FRBRoo和PRESSoo及其他衍生自FRBR模型的发展。

【对RDA感到兴奋】开发RDA编目规则及其在数个主要图书馆开始实际实施,被视为实施FRBR模型、使其在现实生活中出现的非常重要且正面的一步。多个欧洲图书馆,主要是有AACR2和MARC21传统的,已开始翻译与实施,或计划未来几年实施。其他来自不同书目传统的——大多数是ISBD和UNIMARC——仍然看到RDA中的某些局限,不热衷于原样采用,主要因为它不适合某些实践,仍需要国际化改进,或完全与FRBR模型兼容。长远来看,考虑改变所花费用,一个概念是,如果他们应当投资如此根本的改变,就应当是最佳配合FRBR希望的雄心勃勃的实施场景。这些机构已投入很多努力理解RDA的准则,提出他们需要的调整。欧洲RDA兴趣小组(EURIG)两年前组成,为欧洲书目机构提供一个论坛,协作讨论说明这些问题,提出对RDA规则的改编。到今天为止,这个过程及与RDA编纂联合指导委员会的后续互动已被判定为建设性的,所有参与方都发出声音。尽管整个过程可能太慢,但我们知道,书目领域的国际标准化是最复杂的类型之一,这样的事务不可能一天达成一致。总而言之,从FRBR模型移到RDA规则,以及其遵循国际合作原则的实际实施的动态性,在欧洲被当作十分令人鼓舞的过程。很多欧洲图书馆似乎准备作出妥协以达成某些一致,如此则在方便国际互操作及未来元数据交换的方向上,机构的路标可以与之靠拢。这是令人兴奋的部分。

【对BIBFRAME表示困惑】更令人困惑的部分是最近北美的数据交换模型方面的开发。若干欧洲图书馆觉察到一种矛盾,在设计FRBR和RDA上是随时间变化协作,而在数据基础结构问题上目前的表达方式则不同。FRBR和RDA都是与技术实施不相关的,而整体感觉——也许更多是对BIBFRAME项目实际试图达成什么的一种误解——重要的决定与标准在海外定义,没有与欧洲图书馆充分讨论,与导向FRBR模型定义的最初愿景与目标也不兼容。在目前阶段,我想说这种状况是困惑之源,尤其考虑其背景,即图书馆感到压力,要通过元数据转换证明其有形成果,开发适合关联开放数据的法律与技术需求的新服务。某些图书馆开始开放其数据,但是不关联;另一些开始关联其数据,但是不开放。无人确实了解,是否数据以RDF曝光就被重用,或找到合适的计量法加以评估。FRBR化实验已在目录中不同程度、通过不同渠道实施(ILS厂商主导或由特定项目内部运行)。【意指FRBR化已有小成,竟然被BF放弃?】

P.S. 文中另有两处提到法国国家图书馆对RDA的态度与应用:
参与RDA相关工作】BnF在标准制订上投入很多努力,其最好的元数据专家仍然很多参与ISBD、RDA和FRBR工作。
BnF的开放关联数据部分采用RDA词汇】data.bnf.fr以RDF形式从异构来源聚合与曝光联机数据,可方便搜索引擎索引,深度链接到其他来源,无论是BnF内部(其MARC和EAD主目录、数字图书馆Gallica等),还是外部(法国大学图书馆联合目录SUDOC、法国联合目录CCFR、WorldCat、VIAF、维基百科等)。整个过程需要转换MARC或EAD格式元数据到信息中心(information hub),基于RDF建模技术及标准词表(DC、SKOS、RDA和FOAF)。