法国人眼中的FRBR、RDA与BIBFRAME

明天寒假结束,争取看完《信息标准季刊》2013年冬辑。下文是该期中最长的一篇,看完全文的强烈印象是法国(或者他所称的欧洲)对FRBR的全面坚持,对RDA的无可奈何,以及对BIBFRAME的观望与困惑。

Interview with Gildas Illien, Director, Bibliographic and Digital Information Department, Bibliotheque nationale de France (BnF). ISQ:Information Standards Quarterly, Winter 2013, Vol.25 issue 4:22-29
客座内容编辑Ted Fons访谈法国国家图书馆(BnF)书目与数字信息部主任吉尔达·艾里恩,艾里恩谈他本人以及法国乃至欧洲对4个元数据相关问题的看法:
1、概述对需要书目数据交换新框架的观点?为什么现在需要?作为元数据专家,需要解决的最大问题?
2、BnF在转换书目数据表达方式上做了些什么?
3、概述欧洲图书馆过去五年关注什么?在元数据管理方面的主要致力的是什么?
4、未来两年新元数据项目的重心?当前努力中是否有鸿沟可在近期填补?

以下译自主要谈及RDA和BIBFRAME的第3个问题,对FRBR的表述则几乎贯穿全部4个问题。

【FRBR作为起点】当前北美及更广的英美编目界关于书目数据交换模型的讨论,在欧洲产生兴奋与困惑的混合体。在许多欧洲国家图书馆与书目机构看来,在IFLA框架下,发明与整合FRBR模型(及其后对规范记录与主题的扩展FRAD和FRSAD),是我们现在所称的书目革命的概念起点。欧洲有强烈的看法,该模型的视点仍有效,应当是书目改变的主要驱动力,因为FRBR正被整合进IFLA国际编目原则,适应对数字时代的创新与调节。欧洲图书馆在FRBR理论与数据建模中投入良多且仍在投入,比如当前在FRBRoo和PRESSoo及其他衍生自FRBR模型的发展。

【对RDA感到兴奋】开发RDA编目规则及其在数个主要图书馆开始实际实施,被视为实施FRBR模型、使其在现实生活中出现的非常重要且正面的一步。多个欧洲图书馆,主要是有AACR2和MARC21传统的,已开始翻译与实施,或计划未来几年实施。其他来自不同书目传统的——大多数是ISBD和UNIMARC——仍然看到RDA中的某些局限,不热衷于原样采用,主要因为它不适合某些实践,仍需要国际化改进,或完全与FRBR模型兼容。长远来看,考虑改变所花费用,一个概念是,如果他们应当投资如此根本的改变,就应当是最佳配合FRBR希望的雄心勃勃的实施场景。这些机构已投入很多努力理解RDA的准则,提出他们需要的调整。欧洲RDA兴趣小组(EURIG)两年前组成,为欧洲书目机构提供一个论坛,协作讨论说明这些问题,提出对RDA规则的改编。到今天为止,这个过程及与RDA编纂联合指导委员会的后续互动已被判定为建设性的,所有参与方都发出声音。尽管整个过程可能太慢,但我们知道,书目领域的国际标准化是最复杂的类型之一,这样的事务不可能一天达成一致。总而言之,从FRBR模型移到RDA规则,以及其遵循国际合作原则的实际实施的动态性,在欧洲被当作十分令人鼓舞的过程。很多欧洲图书馆似乎准备作出妥协以达成某些一致,如此则在方便国际互操作及未来元数据交换的方向上,机构的路标可以与之靠拢。这是令人兴奋的部分。

【对BIBFRAME表示困惑】更令人困惑的部分是最近北美的数据交换模型方面的开发。若干欧洲图书馆觉察到一种矛盾,在设计FRBR和RDA上是随时间变化协作,而在数据基础结构问题上目前的表达方式则不同。FRBR和RDA都是与技术实施不相关的,而整体感觉——也许更多是对BIBFRAME项目实际试图达成什么的一种误解——重要的决定与标准在海外定义,没有与欧洲图书馆充分讨论,与导向FRBR模型定义的最初愿景与目标也不兼容。在目前阶段,我想说这种状况是困惑之源,尤其考虑其背景,即图书馆感到压力,要通过元数据转换证明其有形成果,开发适合关联开放数据的法律与技术需求的新服务。某些图书馆开始开放其数据,但是不关联;另一些开始关联其数据,但是不开放。无人确实了解,是否数据以RDF曝光就被重用,或找到合适的计量法加以评估。FRBR化实验已在目录中不同程度、通过不同渠道实施(ILS厂商主导或由特定项目内部运行)。【意指FRBR化已有小成,竟然被BF放弃?】

P.S. 文中另有两处提到法国国家图书馆对RDA的态度与应用:
参与RDA相关工作】BnF在标准制订上投入很多努力,其最好的元数据专家仍然很多参与ISBD、RDA和FRBR工作。
BnF的开放关联数据部分采用RDA词汇】data.bnf.fr以RDF形式从异构来源聚合与曝光联机数据,可方便搜索引擎索引,深度链接到其他来源,无论是BnF内部(其MARC和EAD主目录、数字图书馆Gallica等),还是外部(法国大学图书馆联合目录SUDOC、法国联合目录CCFR、WorldCat、VIAF、维基百科等)。整个过程需要转换MARC或EAD格式元数据到信息中心(information hub),基于RDF建模技术及标准词表(DC、SKOS、RDA和FOAF)。

《Europeana数据模型入门》笔记

Europeana原来的元数据方案称为《Europeana语义元素》(Europeana Semantic Elements, ESE),基于都柏林核心(DC),将不同来源、不同格式的元数据都简化到DC这个“公分母”,其结果是源数据中原有精确信息的损失。为改变这种状况,Europeana设计了开放、跨领域、基于语义网框架的《Europeana数据模型》(Europeana Data Model, EDM)

《Europeana数据模型入门》(摘译【理解】)
来源:Europeana Data Model (EDM) Documentation 
(原文中有较多RDF图,说明采用EDM对物件进行的语义描述)

1 导论
1.3 EDM准则
区分提供者提交的智力与技术创作(关于提供者保管的一个物件的资源包[元数据])、其涉及的物件、以及可通过Web获取的该物件的数字表达。
遵循支持数据网(语义网)方法的建模原则,即没有一种固定模式只提供一种表达数据方法。EDM为通用模型,至少可在语义层部分互操作,同时数据保持其原来的表达性与丰富度。它不要求改变本地方法,尽管鼓励改变本地实践以改善数据的跨领域有用性,如采用公共获取词表(对个人、地点、主题等)。
1.4 如何阅读
URI涉及的命名空间:【2015-2-8更新:以下URI应当只是示例。根据Definition of the Europeana Data Model v5.2.4,EMD未用FOAF/VIAF/rdaGr2】
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix dc: <http://purl.org/dc/elements/1.1> .
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix ore: <http://www.openarchives.org/ore/terms/> .
@prefix edm: <http://www.europeana.eu/schemas/edm/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix viaf: <http://viaf.org/viaf/> .
@prefix rdaGr2: <http://RDVocab.info/ElementsGr2/> .

2 EDM需求与设计原则提示
需求:
– R1. 区分被提供的物件与其数字表达
– R2. 区分物件与描述物件的元数据记录
– R3. 同一物件允许有多条记录,包含对物件潜在冲突的说明【因为记录可能有多个来源】
– R4. 支持由其他物件组成的物件【物件分层】
– R5. 兼容不同抽象度的描述(如遵循FRBR第一组的区分)【描述分层】
– R6. 提供可被专门化的标准元数据格式
– R7. 支持情景资源,包括来自受控词表的概念
基本动机是支持不同模型的集成,这样就可以收集并通过较高层概念关联所有原始描述。三项基本设计原则:
– D1. 允许在开放环境中集成数据:不可能预期所有贡献的数据【即不强制提供的数据格式一致】
– D2. 允许丰富功能性,可能通过扩展方式
– D3. 尽可能重用现有(标准)模型

4 数据表达为集合体(aggregation)
三个核心类资源:
• 文化遗产物件本身(edm:ProvidedCHO)【即“作品”】
• 该物件的一个或多个可访问的数字表达(edm:WebResource)某些可能被用作预览图【edm:hasView】
• 表达提供者活动结果的集合体(ore:Aggregation)【“真实的”物件(由其标识表达)与其数字视图之集合】
edm:aggregatedCHO和edm:hasView为ore:Aggregation的子属性。

5 EDM中的描述元数据
EDM包括一套“描述”和“情境”属性,捕捉资源的不同特性,同时在其情境中与其他实体关联。
描述元数据的可能方法可分为“物件中心”和“事件中心”,EDM同时遵循这两种方法。EDM还有“类”可抓取“丰富数据”。
5.1 物件中心法(Object-centric approach)
专注于所描述的物件:信息以陈述形式,直接关联所描述的物件与其特性——但只是字符串或是指示来自真实世界实体的更复杂资源。采用都柏林核心的大多数元数据实践属此(如创作者、题名、创作日期、前拥有者等)。
物件中心法对附于物件或事件的资源,并不指明特定的“语义丰富性”级别。
5.2 情景实体-更丰富的元数据(Contextual entities – richer metadata)【类】
描述元数据的某些值不关联到物件,而是关联到描述中的另一资源。如有关创作者的进一步细节——如其生卒地点与日期。在EDM中,这样的信息可使用表达创作者本人的实体来捕获。为支持对此种语义丰富的建模,并支持进一步丰富,EDM具有表达“情景”实体的“类”:
– edm:Agent 代理,用于代表个人或组织
– edm:Event 事件
– edm:Place 地点,用于空间实体
– edm:TimeSpan 时间范围,用于时间段或日期
– skos:Concept 概念,对来自如叙词表、分类法(包括某些地名辞典或个人规范档)……的知识组织体系的所有实体
5.3 事件中心法(Event-centric approach)
事件中心法认为物件描述应当关注描绘物件参与的不同事件,通过表达构成物件历史的事件,将导致建立更丰富的实体网络。此法基于CIDOC-CRM模型。
在EDM中使用三个属性表达:
– edm:wasPresentAt 参与事件的资源
– edm:happenedAt 事件发生的场所
– edm:occurredAt 事件与发生的时段
5.4 灵活的数据模型(EDM as a flexible data model)
确保语义层互操作的关键是映射,遵循语义网框架内的共同实践。
需要把专指属性映射到一个语义互操作核心,确保通用工具能利用至少部分语义。这种映射在RDF中典型地通过维护专指构建与核心构建间的语义关系来达到。
通用与专指层间的同现,允许如:
– 使用基于通用描述的索引搜索该物件【粗放索引】
– 使用由提供者制作的更精细度区别显示该物件的信息【精细显示】
这一机制事实上已经在EDM不同层的描述数据中起作用。如hasMet是指EDM中重用很多其他属性的超属性【可用于合并索引】,如创作者、贡献者、出版者。本属性将允许用户发现与某个人相关的物件,无论他们“遇到”的这个人是其主要的创作者、第二位的贡献者或是出版者。
5.5 ESE和EDM间关系
ESE所用大部分属性(DC属性)实际上构成EDM的语义互操作核心。
第一个差别是属性的使用。为兼容遗留数据及未丰富方式的数据,ESE/DC属性可用简单字符串作为值。但EDM推荐图8中首先引入的VIAF例子【即采用URI或ID】。
ESE和EDM利用同一属性方式的另一个差别是“一对一原则”的应用。ESE中,所有字段捆绑为一个记录,因之难以区分某个字段是应用于“真实世界”的物件、还是其数字表达、还是与该物件相关的任何其他实体的属性,如其创作者。而EDM允许做这种区分。

6 EDM和代理(proxies)
Europeana数据来自许多提供者,因而会有对同一资源的多个视图;此外,Europeana将试图增加对该资源的其自己数据,给出另一个视图。这些视图不会合并。在这种场合,元数据很可能不同,如同一创作者用不同名称。Europeana考虑来自ORE(对象重用与交换)模型的代理机制,可以在集合情景下表达资源,使得对同一资源有不同的视图。
6.1 代理导论
以《蒙娜丽莎》为例,有两条不同来源的记录。每个传递给Europeana的数据产生一个ore:Aggregation类的特定实例,用于组合来自同一个提供者的一个资源的所有元素。每个提供者贡献不同的数字对象集,有不同的解析度、不同的文件类型、不同的位置。
每个提供给Europeana的元数据记录也给出了所描述物件的专指代理,使用ore:Proxy资源建模。一个代理特定于一个给定的集合体,用于表达所提供物件的描述。通过代理,可能表达对所提供物件以不同的、可能冲突的信息,同时仍能追踪信息的出处。如两处《蒙娜丽莎》有不同的题名。
一个集合体对每个提供物件(CHO)只能有一个代理,因为它来自一个提供者的活动。
现阶段,如何、何时识别相同物件仍有讨论余地。如两个提供者为相同资源贡献了两个不同的URI,应采用某些识别机制在两个URI间推出owl:sameAs链接,以能“合并”资源。
6.2 Europeana代理和丰富数据(data enrichment)
Europeana为摄入的物件创建新数据,以期为用户提供更多价值。通过使用ESE格式处理标准化数据,用链接到情景实体在(词表、地名/人名规范档、主题词表)语义上丰富物件描述。这导致更丰富的功能,如提问扩展(使用创作者名称的交替形式)、使用语义关系推荐物件(关联艺术家创作的物件)等。这是关键方面,Europeana试图大规模处理这样的语义丰富,使用EDM为特定目的导入的类。
6.3 Europeana集合体和代理
Europeana集合体edm:EuropeanaAggregation是ore:Aggregation的子类,可以用来管理自己的IPR和访问限制等。
Europeana集合体采用ore:aggregates链接到所提供物件,也能集合其他资源,尤其是物件的数字表达,或使用edm:landingPage属性到其参考着陆页。关键一点是,Europeana集合体是集合关于相同物件的每个特定提供者的集合。
6.5 提供者应当提供EDM核心模式的什么部分?
期望来自提供者的最重要信息之一是区分物件本身的元数据和数字表达的元数据。
下一个问题涉及为不同物件提供URI标识符。第一个建议是提供者为网络可访问数字表达(如图片)和所提供的物件或已有永久标识的集合体提交URI。Europeana本身会注意为它创建的代理或集合体赋予或再赋予URI,它也会为所有edm:ProvidedCHO资源创建URI。【提供者和Europeana各自提供URI】
6.6 代理vs命名图(named graphs)
对于做EDM原型时,我们经常被问到为什么考虑ORE代理来表达特定资源视图,而RDF提供“命名图”的概念满足相同需求。因为命名图目前还非W3C推荐标准,但图的概念将出现在下一版RDF,到那时,Europeana当然将考虑将图放入EDM架构中。

7 高级EDM
EDM允许更复杂的表达,特别关注以下情况:
– 物件的等级
– 物件间关系,如表达作品间关系或艺术衍生
– 通过ORE资源地图明确表达数据包
本文件只表达简单的等级物件及表达链接。其他方面在未来版本详述
7.1 表达等级物件
以一幅来自荷兰的地图为例
– 用dcterms:hasPart and dcterms:isPartOf 表达包含链接
– 用edm:isNextInSequence表示物件各部分间的顺序
代理机制允许对相同物件配置多个等级视图。
7.2 物件间其他链接类型
– 两个物件描画同一地点巨石阵:
直接关联两幅图片,让用户从一个物件浏览另一个,采用Europeana目前带有十分精确信息的“进一步探索”功能,依赖于手头数据的精确程度,使用通用属性edm:isRelatedTo或(可能领域专用的)专用属性。
也可能非直接关联物件,通过说明其链接到相同资源。比如由空间覆盖判断为巨石阵(地点)
– 第二个例子是《蒙娜丽莎》的衍生作品-拼贴画,采用edm:isRelatedTo的子属性edm:isSimilarTo的专门edm:isDerivativeOf属性
Europeana还收割了一条描述《蒙娜丽莎》照片的记录,是19世纪法国摄影师所摄,采用edm:isRepresentationOf,说明这一历史图片与原画的关联

———译名说明———
(1)object=物件(正好与模型中提到的“event=事件”对应)
不采用“实物”:因为有digital object,译为“数字实物”比较奇怪,参考台湾译为“数位物件”
不采用“对象”:适应面太广、专指性不强,如“研究对象”
(2)contextual=情景
不采用“上下文”:大多数情况下并不涉及“文字”

SkyRiver的电子书元数据服务

这一年多开始把电子书、学位论文的MARC数据导入到图书馆集成系统中,让读者可以在使用OPAC时同时查到电子资源。于是就感受到电子资源元数据质量之差,基本上除了题名和作者,其他就不用指望了。
今天看到III旗下的书目外包商SkyRiver推出电子书元数据服务,感觉真是抓住了商机。
该服务名为“电子MARC快车”,提供OverDrive和3M云图书馆的电子书MARC数据,3天交付。如果只要来自书商元数据的MARC记录,免费;由SkyRiver提供的全MARC记录,则为每条$0.85(如果是其订户$0.75)。
不过,我们的电子书模式与美国不同完全,此法不适用。

见:Maximize Your E-Holdings: eMARC Express