FRBRoo读后

FRBRoo问世已久(2009年6月1.0版),一直没有看,昨天大致浏览一遍。
FRBRoo(FRBR object-oriented version, harmonised with CIDOC CRM),即FRBR面向对象版,按CIDOC CRM网站“FRBRoo Introduction”的说明,“FRBRoo是一个正式的本体,意在抓取与表达书目信息的潜在语义,方便书目与博物馆信息的集成、中介与交换。

正式文件:FRBR, object-oriented definition and mapping to FRBRer (version 1.0)(146页pdf文件)
文件署名:FRBR与CIDOC CRM协调国际工作组(International Working Group on FRBR and CIDOC CRM Harmonisation),编辑:Chryssoula Bekiari,Martin Doerr和Patrick Le Boeuf。

看后梳理如下几个基本知识点:
1、FRBRoo是一个本体,定义了类(Class,对应FRBR的实体)和属性(Property,对应FRBR的关系);属性连接不同类,一个属性可能适用于多个不同的类。
– 类:将FRBR原来3组10个“实体”扩展为33个(名称为F1-F33),包括细化作品、内容表达和载体表现(子类)(1.2.2),以及增加“事件”(event)。
– 属性:将FRBR原来以样例说明的“关系”明确为31+8种(名称为R1-R31,以及8个“类属性”CLP)。未仔细对照是否有所扩展。对创作与生产过程加以分析,是FRBR与FRBRoo的差异之一(1.2.3)
– FRBR中的Attribute基本不在FRBRoo中(除CLP为针对F3的物理属性)。自己一直把Property和Attribute都译作属性,其实一直有点困惑两者的区别。网上查了下,一般建议是前者译为属性,后者译为特性。

2、FRBRoo基于FRBR和CIDOC CRM,文件中有各自的类和属性清单:
– FRBRoo类和属性清单(2.6、2.7)
– 参引的CIDOC CRM类和属性清单(4.3、4.4)
还有多种对照表:
– FRBRoo类与CIDOC CRM部分类的等级校准(2.5)(CIDOC CRM的类用E1-E90表示)
– FRBRoo属性与CIDOC CRM部分属性的等级校准(2.5)(CIDOC CRM的属性用P1-P148表示)
– FRBR本身(FRBRer)与FRBRoo映射(3)(FRBR章节号对照)

3、FRBR第一组4个实体WEMI,在FRBRoo中被区分为5个类,分别有如下层次:
– F1作品——F2内容表达——F3载体表现生产类型(Manifestation Product Type)——F5单件
– F1作品——F2内容表达——F4载体表现单例(Manifestation Singleton)
当载体表现只有一件时(非批量生产,如手稿),取F4(不用F3),此时其下没有F5单件

4、作品与内容表达还另细分有子类(2.5.1):
– 作品 F1
— 个别作品 F14——集合作品 F17
— 复杂作品 F15——连续作品 F18
— 容器作品 F16——集合作品 F17、录制作品 F21、出版作品 F19(——连续作品 F18)、表演作品 F20
– 内容表达 F2
— 独立内容表达 F22——出版内容表达 F24、表演计划 F25、录制 F26
— 内容表达片断 F23

5、除FRBR实体第1组(18个)、第2组(2个)、第3组(4个)外,类还有如下2种:
(1)名称 F12 和标识符 F13
(2)事件
创作 E65 ——作品概念 F27、内容表达创作 F28(——录制事件 F29、出版事件 F30)
活动 E7 ——表演 F31
生产 E12 ——载体生产事件 F32、复制事件 F33

6、FRBR是静态的实体-关系,表现活动的结果;而CIDOC CRM是动态的,以事件(Event)表现创作等活动过程。FRBR与FRBRoo的首要差别就是后者引入了时间实体、事件与时间处理过程(temporal entities, events and time processes,1.2.1)。
被图书馆编目洗脑多年的人,对动态与静态的区别需要细细体会(下图引自CIDOC CRM网站)。

Work and Expression, Static view
作品和内容表达的静态视图
From Work to Expression, dynamic view
从作品到内容表达的动态视图

———附:中文资料———

印象中以前看到过中文相关论文的,这次竟然没查到。用FRBRoo查全文,CNKI上只有3篇,大致都是进展综述中涉及而非专论;万方6个结果全是外文;维普则完全查不到。摘录其中一篇的片断:
顾犇. 第76届国际图联大会编目相关论文评析. 中国图书馆学报, 2010,36(5):82-87
(p.83)FRBRoo即面向对象的FRBR(书目记录的功能需求),FRBRoo书目数据模型是CIDOC概念参考模型(CRM)形式化、普遍的本体的一部分,是国际图联推出的FRBR(书目记录的功能需求)与国际博物馆理事会下属的国际文献工作委员会提出的CIDOC CRM这个面向对象的概念参考模型之间协调的结果。促进FRBRer(实体- 关系的FRBR)和FRBRoo的持续发展是国际图联编目组2009/2011战略计划的一部分。……FRBRoo是为了弥补FRBR中的一些缺陷而提出的。

另外查到一个比较全面的PPT——台湾中兴大学图书资讯学研究所张慧铢2012年在“資訊組織進階班”上的《FRBR家族的發展與應用》,FRBRoo(译为“FRBR物件导向”)部分包括开发过程、简介、功能、架构、FRBR和CIDOC CRM间转换对照、表演艺术应用及未来发展。摘取对“事件”的解说部分:
– 书目产品是创作和生产过程的结果
• FRBR采取“静态”的观点为其构建模型,不包括任何相关事件(events)
• 在CIDOC CRM中,事件(event)是主要的概念,时间实体(temporal entities)扮演主要的角色,是连接物件【对象】与时间(time‐spans)、地点、和关系人(agents)的唯一方式
• FRBRoo的作品概念(F27)产生一个想法,然后内容表达创造(F28)同时产生了内容表达(F2)和它的第一个载体表现(以载体表现单件(F4)的形式出现),两者共同实現了一个作品(F1),见下图(引自CIDOC CRM网站)

Work and Time
作品与时间

《Europeana数据模型入门》笔记

Europeana原来的元数据方案称为《Europeana语义元素》(Europeana Semantic Elements, ESE),基于都柏林核心(DC),将不同来源、不同格式的元数据都简化到DC这个“公分母”,其结果是源数据中原有精确信息的损失。为改变这种状况,Europeana设计了开放、跨领域、基于语义网框架的《Europeana数据模型》(Europeana Data Model, EDM)

《Europeana数据模型入门》(摘译【理解】)
来源:Europeana Data Model (EDM) Documentation 
(原文中有较多RDF图,说明采用EDM对物件进行的语义描述)

1 导论
1.3 EDM准则
区分提供者提交的智力与技术创作(关于提供者保管的一个物件的资源包[元数据])、其涉及的物件、以及可通过Web获取的该物件的数字表达。
遵循支持数据网(语义网)方法的建模原则,即没有一种固定模式只提供一种表达数据方法。EDM为通用模型,至少可在语义层部分互操作,同时数据保持其原来的表达性与丰富度。它不要求改变本地方法,尽管鼓励改变本地实践以改善数据的跨领域有用性,如采用公共获取词表(对个人、地点、主题等)。
1.4 如何阅读
URI涉及的命名空间:【2015-2-8更新:以下URI应当只是示例。根据Definition of the Europeana Data Model v5.2.4,EMD未用FOAF/VIAF/rdaGr2】
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix dc: <http://purl.org/dc/elements/1.1> .
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix ore: <http://www.openarchives.org/ore/terms/> .
@prefix edm: <http://www.europeana.eu/schemas/edm/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix viaf: <http://viaf.org/viaf/> .
@prefix rdaGr2: <http://RDVocab.info/ElementsGr2/> .

2 EDM需求与设计原则提示
需求:
– R1. 区分被提供的物件与其数字表达
– R2. 区分物件与描述物件的元数据记录
– R3. 同一物件允许有多条记录,包含对物件潜在冲突的说明【因为记录可能有多个来源】
– R4. 支持由其他物件组成的物件【物件分层】
– R5. 兼容不同抽象度的描述(如遵循FRBR第一组的区分)【描述分层】
– R6. 提供可被专门化的标准元数据格式
– R7. 支持情景资源,包括来自受控词表的概念
基本动机是支持不同模型的集成,这样就可以收集并通过较高层概念关联所有原始描述。三项基本设计原则:
– D1. 允许在开放环境中集成数据:不可能预期所有贡献的数据【即不强制提供的数据格式一致】
– D2. 允许丰富功能性,可能通过扩展方式
– D3. 尽可能重用现有(标准)模型

4 数据表达为集合体(aggregation)
三个核心类资源:
• 文化遗产物件本身(edm:ProvidedCHO)【即“作品”】
• 该物件的一个或多个可访问的数字表达(edm:WebResource)某些可能被用作预览图【edm:hasView】
• 表达提供者活动结果的集合体(ore:Aggregation)【“真实的”物件(由其标识表达)与其数字视图之集合】
edm:aggregatedCHO和edm:hasView为ore:Aggregation的子属性。

5 EDM中的描述元数据
EDM包括一套“描述”和“情境”属性,捕捉资源的不同特性,同时在其情境中与其他实体关联。
描述元数据的可能方法可分为“物件中心”和“事件中心”,EDM同时遵循这两种方法。EDM还有“类”可抓取“丰富数据”。
5.1 物件中心法(Object-centric approach)
专注于所描述的物件:信息以陈述形式,直接关联所描述的物件与其特性——但只是字符串或是指示来自真实世界实体的更复杂资源。采用都柏林核心的大多数元数据实践属此(如创作者、题名、创作日期、前拥有者等)。
物件中心法对附于物件或事件的资源,并不指明特定的“语义丰富性”级别。
5.2 情景实体-更丰富的元数据(Contextual entities – richer metadata)【类】
描述元数据的某些值不关联到物件,而是关联到描述中的另一资源。如有关创作者的进一步细节——如其生卒地点与日期。在EDM中,这样的信息可使用表达创作者本人的实体来捕获。为支持对此种语义丰富的建模,并支持进一步丰富,EDM具有表达“情景”实体的“类”:
– edm:Agent 代理,用于代表个人或组织
– edm:Event 事件
– edm:Place 地点,用于空间实体
– edm:TimeSpan 时间范围,用于时间段或日期
– skos:Concept 概念,对来自如叙词表、分类法(包括某些地名辞典或个人规范档)……的知识组织体系的所有实体
5.3 事件中心法(Event-centric approach)
事件中心法认为物件描述应当关注描绘物件参与的不同事件,通过表达构成物件历史的事件,将导致建立更丰富的实体网络。此法基于CIDOC-CRM模型。
在EDM中使用三个属性表达:
– edm:wasPresentAt 参与事件的资源
– edm:happenedAt 事件发生的场所
– edm:occurredAt 事件与发生的时段
5.4 灵活的数据模型(EDM as a flexible data model)
确保语义层互操作的关键是映射,遵循语义网框架内的共同实践。
需要把专指属性映射到一个语义互操作核心,确保通用工具能利用至少部分语义。这种映射在RDF中典型地通过维护专指构建与核心构建间的语义关系来达到。
通用与专指层间的同现,允许如:
– 使用基于通用描述的索引搜索该物件【粗放索引】
– 使用由提供者制作的更精细度区别显示该物件的信息【精细显示】
这一机制事实上已经在EDM不同层的描述数据中起作用。如hasMet是指EDM中重用很多其他属性的超属性【可用于合并索引】,如创作者、贡献者、出版者。本属性将允许用户发现与某个人相关的物件,无论他们“遇到”的这个人是其主要的创作者、第二位的贡献者或是出版者。
5.5 ESE和EDM间关系
ESE所用大部分属性(DC属性)实际上构成EDM的语义互操作核心。
第一个差别是属性的使用。为兼容遗留数据及未丰富方式的数据,ESE/DC属性可用简单字符串作为值。但EDM推荐图8中首先引入的VIAF例子【即采用URI或ID】。
ESE和EDM利用同一属性方式的另一个差别是“一对一原则”的应用。ESE中,所有字段捆绑为一个记录,因之难以区分某个字段是应用于“真实世界”的物件、还是其数字表达、还是与该物件相关的任何其他实体的属性,如其创作者。而EDM允许做这种区分。

6 EDM和代理(proxies)
Europeana数据来自许多提供者,因而会有对同一资源的多个视图;此外,Europeana将试图增加对该资源的其自己数据,给出另一个视图。这些视图不会合并。在这种场合,元数据很可能不同,如同一创作者用不同名称。Europeana考虑来自ORE(对象重用与交换)模型的代理机制,可以在集合情景下表达资源,使得对同一资源有不同的视图。
6.1 代理导论
以《蒙娜丽莎》为例,有两条不同来源的记录。每个传递给Europeana的数据产生一个ore:Aggregation类的特定实例,用于组合来自同一个提供者的一个资源的所有元素。每个提供者贡献不同的数字对象集,有不同的解析度、不同的文件类型、不同的位置。
每个提供给Europeana的元数据记录也给出了所描述物件的专指代理,使用ore:Proxy资源建模。一个代理特定于一个给定的集合体,用于表达所提供物件的描述。通过代理,可能表达对所提供物件以不同的、可能冲突的信息,同时仍能追踪信息的出处。如两处《蒙娜丽莎》有不同的题名。
一个集合体对每个提供物件(CHO)只能有一个代理,因为它来自一个提供者的活动。
现阶段,如何、何时识别相同物件仍有讨论余地。如两个提供者为相同资源贡献了两个不同的URI,应采用某些识别机制在两个URI间推出owl:sameAs链接,以能“合并”资源。
6.2 Europeana代理和丰富数据(data enrichment)
Europeana为摄入的物件创建新数据,以期为用户提供更多价值。通过使用ESE格式处理标准化数据,用链接到情景实体在(词表、地名/人名规范档、主题词表)语义上丰富物件描述。这导致更丰富的功能,如提问扩展(使用创作者名称的交替形式)、使用语义关系推荐物件(关联艺术家创作的物件)等。这是关键方面,Europeana试图大规模处理这样的语义丰富,使用EDM为特定目的导入的类。
6.3 Europeana集合体和代理
Europeana集合体edm:EuropeanaAggregation是ore:Aggregation的子类,可以用来管理自己的IPR和访问限制等。
Europeana集合体采用ore:aggregates链接到所提供物件,也能集合其他资源,尤其是物件的数字表达,或使用edm:landingPage属性到其参考着陆页。关键一点是,Europeana集合体是集合关于相同物件的每个特定提供者的集合。
6.5 提供者应当提供EDM核心模式的什么部分?
期望来自提供者的最重要信息之一是区分物件本身的元数据和数字表达的元数据。
下一个问题涉及为不同物件提供URI标识符。第一个建议是提供者为网络可访问数字表达(如图片)和所提供的物件或已有永久标识的集合体提交URI。Europeana本身会注意为它创建的代理或集合体赋予或再赋予URI,它也会为所有edm:ProvidedCHO资源创建URI。【提供者和Europeana各自提供URI】
6.6 代理vs命名图(named graphs)
对于做EDM原型时,我们经常被问到为什么考虑ORE代理来表达特定资源视图,而RDF提供“命名图”的概念满足相同需求。因为命名图目前还非W3C推荐标准,但图的概念将出现在下一版RDF,到那时,Europeana当然将考虑将图放入EDM架构中。

7 高级EDM
EDM允许更复杂的表达,特别关注以下情况:
– 物件的等级
– 物件间关系,如表达作品间关系或艺术衍生
– 通过ORE资源地图明确表达数据包
本文件只表达简单的等级物件及表达链接。其他方面在未来版本详述
7.1 表达等级物件
以一幅来自荷兰的地图为例
– 用dcterms:hasPart and dcterms:isPartOf 表达包含链接
– 用edm:isNextInSequence表示物件各部分间的顺序
代理机制允许对相同物件配置多个等级视图。
7.2 物件间其他链接类型
– 两个物件描画同一地点巨石阵:
直接关联两幅图片,让用户从一个物件浏览另一个,采用Europeana目前带有十分精确信息的“进一步探索”功能,依赖于手头数据的精确程度,使用通用属性edm:isRelatedTo或(可能领域专用的)专用属性。
也可能非直接关联物件,通过说明其链接到相同资源。比如由空间覆盖判断为巨石阵(地点)
– 第二个例子是《蒙娜丽莎》的衍生作品-拼贴画,采用edm:isRelatedTo的子属性edm:isSimilarTo的专门edm:isDerivativeOf属性
Europeana还收割了一条描述《蒙娜丽莎》照片的记录,是19世纪法国摄影师所摄,采用edm:isRepresentationOf,说明这一历史图片与原画的关联

———译名说明———
(1)object=物件(正好与模型中提到的“event=事件”对应)
不采用“实物”:因为有digital object,译为“数字实物”比较奇怪,参考台湾译为“数位物件”
不采用“对象”:适应面太广、专指性不强,如“研究对象”
(2)contextual=情景
不采用“上下文”:大多数情况下并不涉及“文字”

卡萨诺瓦是个书痴(关于阅读、图书馆和图书馆员)

卡萨诺瓦是个书痴:关于写作、销售和阅读的真知与奇谈 / [美] 约翰·马克思韦尔·汉密尔顿;译者: 王艺。生活·读书·新知三联书店,2008(译自:Casanova was a book lover / John Maxwell Hamilton. Louisiana State University Press, 2000)

去年似乎因着莫言获诺奖,一度流行散布哪些名人曾经是图书馆员,但似乎没人提及欧洲赫赫有名的风流浪子卡萨诺瓦在其人生的最后岁月也是个图书馆员。(参见维基百科“卡萨诺瓦”词条)

本书内容实如副书名所示,是关于从写作到阅读的故事,而与卡萨诺瓦并没有太多关系。本书中与其有关的内容主要在前言(p.28-31),关于他的写作。

关注阅读的,可能会发现,在book lover眼里,美国人或者法国人其实也不怎么喜欢读书(p.22-23);同样,美国也有精英文化嘲笑简单阅读(p.27),如同我们的深阅读、浅阅读论。

书中很有一些与书有关的有意思内容,比如用精装书装点门面,并不只是中国人好这一套:
(p.25-26)还有一些网上购物公司提供的昂贵的皮革封面图书。有一个促销广告介绍说:“一百本史上最伟大的书——你家中应有的财富。”广告上把这些书的所有优点全都说了,比如“纯真高质皮革封面,……你的客人会惊讶地看到用精湛工艺压制的箔金书口,那可是有特殊作用的哦(比如防潮)”。广告词里唯一没有说的就是书名。书籍,正如诗人罗伯特·骚塞(Robert Southey)所说,是有钱人的家具

[update 2013-12-19: 慢慢地看此书,发现其实这是本臭写书人、出书人、买书人、卖书人、爱书人……的书]

作为图书生命周期中的一个环节,书中最后一章(第九章)专论“包罗万象的图书馆”,主要讲美国国会图书馆(LC),也兼及图书馆史的其他方面,有不少八卦。虽则原书出版于2000年,但仍有助于理解当前美国图书馆的状况:

把香槟装进易拉罐:LC现任馆长比林顿“热衷于讨好公众”以期获得纳税人支持,如此则可以解释为什么LC近些年开始做青少年服务:
(p.341)他的战斗口号是:“把香槟从酒瓶倒进易拉罐。”

– LC作为国会的图书馆,大力吸引私人捐款而非问国会要钱,导致与研究图书馆的关系微妙。不禁联想起在书目控制未来方面某些人对LC的不满。
(p.346)国会图书馆的重型资金筹募也会有害于国内其他依赖私人捐助才能保持健康发展的研究型图书馆的资金筹募。……更过分的是,一旦私人捐赠到位,国会就可以自觉地减少拨款。
有时候与国内一家研究型图书馆的馆长聊起国会图书馆的话题似乎都会是一种痛苦,国会图书馆并不是我们的国家图书馆——按照他们的竞争对手所说,我们并没有一个国家图书馆。他们批评比林顿那个自作主张的包罗万象的使命,他的“国家”数字图书馆计划看起来好像是要偷偷儿地把“国家”两个字安在他们图书馆的头上。

– 比林顿作为历史学家就任图书馆馆长,恐怕图书馆专业出身者很不以为然(不过他的前任也是一位历史学家):
(p.347)专业图书馆传统上是不愿意由比林顿这样一个历史学家而非图书馆学家来决定他们的未来的,虽然非图书馆学家更喜欢致力于现代图书馆的活动。

– 我们往往臆测国外图书馆员地位如何优于国内,其实哪里都是一样的。信息技术能够提高图书馆员地位?难道不是反之?
(p.352)从那个时候起[指亚历山大图书馆被烧毁],集中精力保护图书的需要就没有改变过,但是方式必须得改变了。一种过量无差别的信息就像被烧成灰的图书一样没有价值[指收藏的图书需要加入选择]。必须得有一些人去做选择,而图书管理人员比其他任何人都更胜任这一职责。若干世纪以来,他们已经受尽了没有地位的苦楚。卡萨瓦诺在杜克斯堡的领主约瑟夫·查尔斯·德·瓦尔登斯坦伯爵手下做图书管理员的时候度过了很郁闷的十三年。他感到无聊,而且如他所见,不断受到侮辱。在众多事情中,他抱怨说必须得和脚夫们一起在用人的餐厅吃饭。在未来的日子里,图书馆馆长会和皇室人员坐在一起。安东尼·史密斯(Anthony Smith)在二十年前一本关于信息技术的书中就预期了他们地位的提高。