PCC 2018-2021战略方向(摘译)

PCC是国际性合作编目组织,其强烈的专业使命感与行动力,使其战略方向与规划尤其值得关注。PCC近年发布的相关文件介绍博文附后,更多介绍可参见:PCC 2015-2017战略规划
《PCC 2018-2021战略方向》发布于2018-2-23,按说明每年重新评估,目前文本更新于2019-1-24。以前觉得愿景、价值、使命比较虚,现在体会到价值认同真的很重要,因此全译前面部分,战略方向仅列标题、具体的行动略过未译(与前引“PCC 2015-2017战略规划”介绍博文正好相反)。

PCC (Program for Cooperative Cataloging) Strategic Directions
January 2018-December 2021. February 23, 2018, Revised January 24, 2019

愿景(VISION)
PCC是一个多元化的联盟,由从业者、服务提供商和工具开发人员共同努力,充分利用元数据的潜力来促进和维持知识。

价值(VALUE)
协作(Collaboration):我们一起完成的工作比我们自己做得更多。
共享(Sharing):我们共享元数据、专业知识、培训、标准和最佳实践。
创新(Innovation):我们通过实验、冒险和实干来学习。
赋能(Empowerment):我们将理论付诸实践,使从业者能够在新环境中利用他们的技能。
包容(Inclusion):我们通过所有社区的参与、观点和经验的多样性而得到强化。
沟通(Communication):我们重视咨询、响应和透明度。

使命(MISSION)
PCC通过支持图书馆和其他文化遗产社区中的元数据生产者,以及与拥有共同目标的合作伙伴建立联盟,促进世界知识的发现和利用。PCC成员创建可信元数据并支持全球社区使用和重用
• 利用数据模型、词表和技术来支持灵活、可互操作和可扩展的生产方法
• 启用元数据的扩展、迭代增强、重用和开放交换
• 开发、记录和推广最佳实践
• 通过利益相关方之间的协议来推进各项举措
• 通过培训、教育和最新通告为元数据从业者提供支持
• 使用新技术进行实验并开发用于元数据创建和编辑的工具
• 与科学和文化遗产机构、出版商和供应商合作

战略方向和行动(STRATEGIC DIRECTIONS AND ACTIONS)
【回顾2015-2017战略方向(首次?)的成果】2015年,PCC采用了一项战略计划,该计划认可了组织在标准、质量和元数据专业知识方面的优势,并制定了从基于记录的环境转变为基于元数据声明/语句和身份管理的动态集合的环境的进程。战略方向主要侧重于扩大对新兴技术的集体理解以及与其他合作伙伴的联系。在若干领域取得了重大进展,包括【1】在当前MARC环境中容纳URI的工作,认识到需要可行关联数据实施和基础设施模型,以及【2】设想PCC在新兴身份管理环境中的作用。【如】PCC与“关联数据生产”(LD4P)和ISNI(国际标准名称标识符)国际机构合作,实验和试验新方法,并利用传统PCC成员之外个人的专业知识,以更好地理解和协调其他元数据社区的实践。
现在是时候超越关联数据相关的理论层面的知识和技能,进入到实施中。基于PCC为元数据创建者提供培训的强大传统,积极的实验和关联数据实践的试验将有助于为此类实践制定政策决策、培训和投入运作。随着我们转向更大数据共享的文化,通过让更多不同的成员参与PCC的工作以及与供应商、开源社区和其他人合作,扩展我们的社区至关重要。
过渡到关联数据环境提供了新的机会,并突出了PCC必须发展的领域。它将涉及改变实践,例如我们如何做规范工作或提供主题获取,以及审查遗留实践以确定可以放弃的内容,以保持PCC的可持续性。为了实施我们的计划,我们必须确保PCC作为一个组织的有效性:改进内部协调、沟通和跟进。此外,PCC的当前性质及其结构反映了其过去而非未来。过去是一个稳定的、由MARC主导的合作环境,而不是新兴的后MARC、广泛的协作环境。PCC的一个关键问题是其作为一个组织的法律地位。另一个问题是在这种新环境中成为PCC成员意味着什么。
政策委员会将每年评估和更新战略方向和行动,或根据情况需要更频繁地进行评估和更新。特别是,即将对RDA进行的修改将为重新评估PCC实施该标准的做法提供动力。【现在这个文本为2019年修订版】

战略方向1【SD1】:扩大我们的范围,使其更加多样化,包容性,以及与研究和文化遗产社区中的元数据创建者和其他机构和项目合作伙伴协作。
战略方向2【SD2】:最大化PCC的运营效率
战略方向3【SD3】:应用对关联数据的理解【2015-2017 SD1】
战略方向4【SD4】:加速在网站层面向无处不在的标识符创建和身份管理的转变【2015-2017 SD3】
战略方向5【SD5】:扩展使用关联数据取值词表,以增强并在可行的情况下替换现有元数据实践【新增】
战略方向6【SD6】:为PCC提供资源,支持PCC的战略方向和计划的整体可持续性【2015-2017 SD4】

——— 个人体会 ———
一、关键点
1、“现在是时候超越关联数据相关的理论层面的知识和技能,进入到实施中”:SD3-5
2、PCC的定位/法律地位:SD1/2/6
二、关键词
无记录环境(recordless environments)
混合MARC/关联数据环境(mixed / hybrid MARC/linked data environments)
外部数据增强元数据(augment / enhance / enrich … metadata)
唯一标识符(unique identifiers)
标识符创建(identifier creation)
身份管理(identity management)
确定可以放弃的内容:审查遗留实践以确定可以放弃的内容(what can be let go),以保持PCC的可持续性

—– PCC年近发布文件介绍 ——
PCC 2015-2017战略规划(2016-6-5)
PCC作品实体白皮书(笔记)(2018-4-13)
编目常见URI问题:什么时候开始用?RWO又是什么?(2018-3-7)
创制和获取URI的常用词表和参考源指南(2018-3-2)
RDA到BIBFRAME的映射报告(2017-11-12)
PCC书目记录应用RDA关系说明语指南(2015-2-24)
PCC的RDA记录实例(2012-10-2)

PCC作品实体白皮书(笔记)

近段日子一直关注馆里在做的方志库,其中涉及“作品”相关问题,首先是什么作为作品(合订本?丛编?),然后是如何从著录方式各异的书目记录中提取作品(并唯一标记、以便汇集所有载体表现),总之问题多多。想起PCC的作品实体白皮书,花几天时间仔细阅读,希望可以帮助理清思路,结果……不是没有收获,只是仍处于混乱中。

PCC SCS/LDAC Task Group on the Work Entity: Preliminary White Paper (1 October 2017) (69 pages)
Karen Coyle, Nancy Fallgren, Steven Folsom, Jean Godby, Stephen Hearn, Ed Jones (chair)

本白皮书汇集作品概念相关信息:历史(并非在FRBR中横空出世),不同标准建模差异(相同术语各自表述或不同术语含义近似),面对的问题。本报告没有答案、没有解决方案,但并非没有态度。

作品描述 将会取代 作品记录
作品描述:指描述一个作品实体的RDF三元组的任何图谱。采用开放世界假设,三元组集非预先定义:任何属性取一部作品为主体的三元组,都是该图谱的潜在成员。(1 导论,p.6)
任务组不认为未来的书目实践中会有单一的、规范的作品“记录”。作品将会存在于由RDF引入的元数据“后记录”视图中。(执行摘要,p.3)【可类比为情报检索语言中的“后组”】

“作品”历史回顾(2.1)
虽然“作品”术语到19世纪才由帕尼兹提出,但作为书目概念可以追溯到17世纪牛津大学图书馆目录(把不同题名出版物放在一起)。1979年时柳别斯基认为即将采用的AACR2有放弃作品的危险【不知所指为何】,1997年的FRBR则在理论上回归到了作品概念。
虽然在FRBR前“作品”没有明确定义,但在英美编目中长期具有中心作用。在1941年“统一题名”出现前,是以不同题名在目录中相互引用(意指不确定哪个是规范检索点)。一直与“作品”绑定的“作者”(创作香),则是随时间(即规则)而变的,在AACR2/RDA之前,所谓“名称-题名”中的“名称”曾经可以是编者、也可以是一般团体。

作品、作品描述、作品实体,编目政策、数据设计(2.2)
“作品”作为术语的3种含义:(1)识别出的作品(类别);(2)作品的描述;(3)作品实体。
是否每个被编目载体表现需要作品描述由编目政策决定;是否每个作品需要作品实体由数据设计决定。数据设计的决策在某种程度上受到作品如何在给定系统中确认与描述的影响。【书目数据的结构与质量决定能在多大程度上揭示作品实体】

面目不清的“作品”概念
现今各种相关标准对作品有不同认识(详见下,4 作品建模)。Richard Smiraglia著有《作品的性质》(The Nature of “A Work”. Lanham, Md.: Scarecrow Press, 2001),详述知识组织界对“作品”处理的细节。
尽管FRBR最终报告(1998)的作品定义是讫今为止对“作品”的书目概念的最准确说明,但开发FRBR的工作组本身承认,作品实体的边界会随实践界而异,因此作品和内容表达间的边界仅是研究目的的,并不在整个书目界有效。【这也就是BIBFRAME模型分三层的原因吧,因为要从现有书目记录中区分W和E更是困难——除了OCLC作品算法中识别的译本】

以显示串作为作品标识符并非最佳选择(3 标识符,p.11)
【用RDA术语,就是“代表作品的规范检索点”】规范工作花很多工夫在构建与确保规范检索点的唯一性,这是索引浏览环境下的必需,但在搜索驱动环境下可以有更灵活省力的方法帮助用户识别与选择资源。
妥善管理的标识符系统应当把标引与显示用元数据与标识分开,让数据随时间更稳定。但以“名称-题名”作为代表作品的规范检索点,最容易遇到作者名称形式的变化,比如不可避免的人过世(需要加上去世年)。

确定作品标识符的方法(3.2 作品标识符)
一个作品只有一个唯一标识符的想法是不现实的。不同环境如RDA和BIBFRAME中标识的作品会有不同的标识符。其管理可通过创建机器可操作的同等或相似陈述。确定作品身份(同等)的方法:
1、编目员决定:编码一套属性,属于该作品。【先组,如“名称-题名”】
2、作品身份在描述作品的属性中固有:Elaine Svenonius在《信息组织的知识基础》(The intellectual foundation of information organization. Cambridge, Mass: MIT., 2009. p. 33)中称为“集合理论”方法(“set-theoretic” method),即一套属性(如相同作者、相同题名)定义2个书目事项[记录]为相同作品。优点在于因为由算法确定,作品集成员具有一致性。【后组】

不同词表中的“作品”(4 作品建模)
目前以下词表(类和属性)还没有互相参见(只有BF Lite含少量与BF和其他RDF词表的“same as”关系)。假定未来会为方便互操作而增加。
4.1 FRBR
4.2 RDA:即使用采用RDA条款创建的编目数据,也未证明能够以合理的精度、可靠地抽取作品实体描述【现有CNMARC数据更是如此】
4.3 BIBFRAME:BF2.0词表进一步远离FRBR实体定义,因为不限制定义域。许多(如果不是大部分)属性定义为适合描述作品或实例或单件(而FRBR是用于单一定义域的)。BF三层对应FRBR四层:BF词表包含属性expresionOf/hasExpression可用于映射FRBR的作品-内容表达为BF的作品-作品关系,同时隐含保留FRBR作品和内容表达间的区别
4.4 BIBFRAME Lite:主要需求来自转换遗留数据而非以RDF创建新数据。作品本身属性很少,但继承来自超级类“资源”的附加属性
4.5 CIDOC CRM,FRBRoo,PRESSoo:引入时间实体、事件、时间过程;细化第1组实体(详见FRBRoo);分析创建和生产过程。FRBRoo对连续出版物的特例处理(单作品-单内容表达-单载体表现)被转至IFLA LRM,2018重新设计的RDA也会与之兼容
4.6 IFLA LRM:LRM在作品方面有2个变化,涉及集合体和连续出版物。
集合体:非作品【对应的集合体“作品”还是有的】,而是包含多个内容表达的载体表现,其中之一是称为集合作品的内容表达,即应用于载体表现的选择与安排准则。【集合体=载体表现(含N+1内容表达)】
连续出版物作品:集合体作品的一种类型,包含单个载体表现的单个内容表达【连续出版物作品->1个内容表达->1个载体表现】。LRM说明允许定义附加实体,包括其他纸版与Web版、不同语言版、本地版。但不清楚如何在实施中关联作品(增加属性?);目前也不知道RDA将如何表达。
4.7 Schema.org:对知识资源的高层术语是CreativeWork(直接在thing下),被用于FRBR所称的WEM。有20多个作品类型的子类,包括:文章、图书、地图、电影、照片、作曲、录音、电视连续剧、软件……。关系属性:作品样例、基于、部分,(书目扩展)作品翻译。Schema.org提供Web域名中各元素的使用范围,创作作品用得最多的类别是博客和文章(均超过百万域名),创作作品本身用于25-50万域名,图书1-5万域名;标识符属性有isrc和iswc,但未报告被使用。
4.8 DC:很少单独使用,最常与其他术语组合……适合作为词表间转换语言。
4.9 出版界和知识产权界标准:FRBR作品实体组装具有不同权利的内容表达,出版与知识产权界不关心。虽然出版社与知识产权标准不直接影响图书馆实践,但向图书馆资源发现服务提供的元数据会产生影响。
<indecs>【ONIX】:抽象概念(abstraction)=FRBR的内容表达(译本、版本)
ISTC:作品=FRBR内容表达
DOI:可应用于任何实体、任何粒度水平,如整个期刊、一期、一篇文章或特定格式的一篇文章。均不对应FRBR作品。
ISBN:可用于单册或多册集【FRBR载体表现】
ISMN:同上【FRBR载体表现】
4.10 图书馆界其他关联数据模型(未采用作品实体)
BLDM:不列颠图书馆数据模型(用于《英国国家书目》)
EDM:Europeana数据模型。定义“信息资源”类为=FRBR作品、内容表达、载体表现和CIDOC CRM实物的合并。
DPLA MAP:美国数字公共图书馆元数据应用纲要(基于EDM)
4.11 算法上实施作品:LC和OCLC均从事由MARC数据发现作品的类似工作,从MARC统一题名规范记录和书目记录开始(中文统一题名规范记录极少)。

5 开放问题【没有答案,但有观点】
5.1 作品和规范:FRBR意义中的作品和当今编目中定义的作品规范之间的关系是什么?
5.2 “一部作品”中包含什么:如何定义作品描述的范围? 它是否包含取自创作者和主题实体的属性?对于不同的功能如编目新的内容表达、用户显示等,需要多少图谱?
5.2a 以惯用总题名(汇编和集合体)特征化的作品【参见:规范检索点用惯用总题名后如何区分不同汇编(2018-4-8)】
5.3 作品实体:要求创建作品实体是出于什么功能需求? 是否需要为每个编目资源创建作品实体?
5.4 工作流程问题:与作品相关的编目工作流程如何考虑:(1)作品作为一个描述?(3)作品作为一个实体?
5.5 与知识产权界的作品相对应:我们如何与知识产权界创建的作品相关联?

编目常见URI问题:什么时候开始用?RWO又是什么?

合作编目项目(PCC)“MARC中URI工作组”完成了《创制和获取URI的常用词表和参考源指南》,为在MARC 21中使用URI热身。
参见:创制和获取URI的常用词表和参考源指南(2018-3-2)

工作组同时提供了一个“URI常见问题”,面对的是分裂的现状:一方面有人对URI知之甚少,另一方面有人已经想在MARC数据中添加URI。
URI FAQs (2018-2-6) :计有27个问答

面对不了解URI者的问题较多,以下几个与RWO相关的问题是我感兴趣的(下一行是我的理解、不是翻译):
– 什么是真实世界对象?(问题3)
Real World Object 简称 RWO = Thing 或 实体。在BIBFRAME由1.0发展到2.0过程中频频出现。
– 为什么在浏览器中使用URI,却发送不同的链接?(问题5)
这是由于“解引”(dereferencing),输入的是RWO的URI,最终显示的是RWO描述的URL(RWO本身无法显示吧)。
– $0和$1中的URI有什么不同?(问题11)
RWO的描述和RWO本身
– 为什么skos:Concept不是RWO?(问题12)
概念也可以是RWO,但skos:Concept是概念的说明。因此,不能说两个skos:Concept互相owl:sameAs,只能说两者完全匹配(skos:exactMatch)或近似匹配(skos:closeMatch),或具有相同的焦点/面对相同实体(foaf:focus),但本身不是同一个Thing。

对于急着想在MARC数据中使用URI的,特别注意以下信息,总体来说就是还需要再等上一年半载:
1、OCLC方面:尚未配置$1为有效子字段(问题7),计划2018年下半年接受$1(问题14);对于2017年12月加入MARC 21的758字段(资源标识符),OCLC可能在2018年下半年发布有关实施的技术公告(问题20)。
2、PCC方面:PCC指导委员会(标准和培训)将在2018年提供在MARC字段中使用URI、包括758字段的最佳实践(问题16、问题20)。
3、工具:添加过程最好是自动处理,但目前元数据编辑器中多半没有查询工具(问题22),有用的工具有MARCEdit的MARCNext、LOD/OpenRefine或者直接用SPARQL(问题24),验证URI工具有VapourVafu(问题23)。

关于MARCNext可参见MARCEdit开发者的博客:Terry’s Worklog: MarcEdit’s Research Toolkit – MARCNext (2014-8-23)