LRM到schema.org映射(荷兰国家图书馆)

荷兰国家图书馆(KB)从2015年开始发布关联数据,采用schema.org。2017年确定采用《IFLA图书馆参考模型》(LRM)、RDA及关联数据发布国家书目,因此制订LRM到schema.org映射作为应用纲要。(出处:René Voorburg. Linked Data Initiatives at the National Library of the Netherlands. Core Linked Data Interest Group forum, 2021-7-29。视频2’20”-16’45”

LRM to Schema.org Cheat sheet (v0.9.3, 2020-11-30) 

目前发布的并非完整映射表,而是一套指南、规则和样例。对于采用schema.org作为词表、以LRM建模时面临的问题有很好的指导,涉及WEMI类及其关系属性,各类连续出版物及其卷、册,Agent(尤其是其中的个人)及Nomen,元数据描述作为实体(不同于实体本身)。摘译如下(命名空间schema:有时简化为s:;编号为本人另拟)

一、WEMI实体

<Work> a schema:CreativeWork .
<Expression> a schema:CreativeWork, schema:ProductGroup.
<Manifestation> a schema:CreativeWork, schema:ProductModel .
<Item> a schema:CreativeWork, schema:IndividualProduct,  schema:ArchiveComponent.

二、连续出版物(表1 Classes for serial publications, groups and member)

 Series: 丛编Volume 卷Issue 期
Generic 通用s:CreativeWorkSeriess:PublicationVolumes:PublicationIssue
Books 图书s:Bookseriess:PublicationVolumes:Book
Periodicals 期刊s:Periodicals:PublicationVolumes:PublicationIssue
Newspapers 报纸s:Newspapers:PublicationVolumes:PublicationIssue
Comic books 漫画书s:ComicSeriess:PublicationVolumes:ComicIssue

三、个人(Person)

LRM和 schema:Person 的“个人”定义并不完全兼容, LRM 实体“个人”仅限于真实人物、明确排除虚构人物,而 schema.org 则包括虚构人物。例如,在 LRM 中,J.K. 罗琳(J.K. Rowling)、罗伯特·加尔布雷思(Robert Galbraith)和实际的乔安妮·罗琳(Joanne Rowling)作为“个人”是相同的;而在schema.org 中,允许将这三个角色(persona)视为三个不同的schema:Persons,可用关系schema:sameAs 将派生自一个LRM个人 的schema:Persons 链接在一起。注意schema:sameAs 与owl:sameAs的语义不同,owl:sameAs 背后的语义本质上会导致将两个 schema:Persons 合并为一个,如此以不同笔名出版的图书、无法推断其在图书上所用名称。

四、命名(Nomen)

不为 LRM命名实体提供对应的 schema.org,仅使用字符串文字或 URI。RDF 允许为字符串指定属性,例如其语言和文字(遵循 BCP4710)。示例:

<URI_of_publisher> schema:name "Paskov Dom"@ru-Latn .
<URI_of_publisher> schema:name "Пашков Дом"@ru .

另以schema:Person 实体聚类 Nomens(作为文字字符串),类似当前管理名称规范记录的做法。

五、WEMI内部关系(Table 2 Hierarchical relations for WEMI entities in schema.org

schema.org只有两层:schema:exampleOfWork(父实体)和schema:workExample(子实体),下表粗体为首选:

object:
subject:WorkExpressionManifestationItem
Works:workExamples:workExamples:workExample
Expressions:exampleOfWorks:workExamples:workExample
Manifestations:exampleOfWorks:exampleOfWorks:workExample
Items:exampleOfWorks:exampleOfWorks:exampleOfWork

六、其他关系

  • 派生:schema:isBasedOn
  • 翻译:schema:translationOfWork
  • 数字化:schema:isBasedOn(载体表现),schema:encodesCreativeWork(单件)
  • 部分与整体:schema:isPartOf / schema:hasPart

七、实体模板和片断

WEMI、个人和元数据共6种实体,提供模板和样例片断,基本包罗了常用元素/属性。如载体表现(其他实体略):

schema:publication [
a schema:PublicationEvent ;
schema:name "{publisher imprint as captured}" ;
schema:startDate "{yyyy}"^^xsd:gYear ;
schema:location "{place as literal <URI>}" ;
schema:publishedBy <{URI_of_Agent_/publisher}> ;
] .
schema:isbn "{isbn}" ;
schema:issn "{issn}" ;
schema:numberOfPages "{literal / integer}" ;
schema:height: "{literal}" ;
schema:width: "{literal}" ;
schema:material "{literal_or_URI}";
schema:image "content_URL or schema:ImageOject" ;
schema:bookEdition "{bookedition}" ;
schema:contributor <{URI_of_contributor}> ;

RDA管辖地:作品、地点、团体关系

在西编(AACR2/RDA)语境下,团体是个混合体:会议、管辖地(地点)都被归入团体范畴。如作为标目(例子均取自LC的MARC标准网站):

  • 团体:
  • (常见形式)110 2# $aNew York Public Library.
  • 会议(及节庆等):
  • (常见形式)111 2#$aWorld Peace Conference$n(1st :$d1949 :$cParis, France and Prague, Czechoslovakia)
  • (团体会议)110 2# $aCatholic Church.$bConcilium Plenarium Americae Latinae$d(1899 :$cRome, Italy)
  • (以地名为标目/罕见)111 1#$aParis.$qPeace Conference,$d1919.【在中国臭名昭著的“巴黎和会”规范名称竟然是这样的】
  • 管辖地:
  • (常见形式)110 1# $aBirmingham (Ala.)
  • (政府机构)110 1# $aUnited States.$bCongress.$bJoint Committee on the Library.
  • (政府首脑/不视为其本人)110 1# $aUnited States.$bPresident (1981-1989 : Reagan)

最近RDA-L邮件组由Adam Schiff提问而热烈讨论的管辖地元素Jurisdiction governed/Jurisdiction governed of,就涉及地点与团体关系问题。

RDA原有关系说明语 jurisdiction governed(治理管辖地),其定义为:受其他管辖地颁布的法律、法规等管辖的管辖地(附录I.2.2)。按定义,为小地域(下级)与大地域(上级)的关系。不过此关系说明语归在附录I.2.2,属于与作品(Work)相关的行为者(Agent),类似于作品的属性(即定义域是作品、值域是行为者/团体是行为者下位实体)。比如按原RDA,可以如此表示美国管辖其哥伦比亚特区的治理关系:

  • 110 1# United States, $e enacting jurisdiction.【颁布管辖地】
  • 245 10 Acts of Congress affecting the District of Columbia.
  • 710 1 $i Jurisdiction governed: $a District of Columbia【治理管辖地】

新RDA取消了关系说明语、转为属性元素,并明确 jurisdiction governed 的定义域是团体(Corporate body)、值域是新增实体地点(Place),即归入团体与地点关系。虽然定义如旧,却无法如上例使用了。前RSC主席Gordon Dunsire多次参与讨论。他认为法律作品可以使用上层元素与地点(管辖地)相关联“Work: related place of work”。这当然太粗了,但目前没有细粒度的元素。

这又涉及“管辖地是团体不是地点”问题,Gordon也提供了背景资料:2014年技术工作组曾分析管辖地并提出建议,当时JSC原则上接受,但没有按计划在2015年跟进,后结合3R项目、随IFLA图书馆参考模型进行了调整(6JSC/TechnicalWG/4 – Court and Jurisdiction in RDA)。

RSC秘书Linda Barnhart 对此次讨论表示非常高兴,称之为热烈而及时的讨论!因为RSC已准备在今年10月召开的年会上建立“地点/管辖地工作组”、为期两年(2022.1-2023.12),以准确解决此处提出的问题。她并邀请有兴趣者给她发邮件参加这个工作组。

RDA术语:元素超类型、上位元素以及超元素

德国斯图加特媒体大学的Heidrun Wiesenmüller教授是RDA-L邮件组最积极的提问者。她看RDA非常仔细,因为在参与编写德语社区RDA编目手册。7月14日她发邮件指出,RDA术语表中有“元素超类型 代:上位元素”【也有“上位元素 见 元素超类型”,以及“元素子类型 见 下位元素”等】,这说明应当使用术语“元素超类型”【或“元素子类型”】,但在RDA文本中两个术语却在不同位置同时使用。

  • 试查载体表现元素“声音特征”(sound characteristic):
  • 页面上部,预记录(Prerecording)说明:This element is an element supertype.
  • 页面最下,相关元素(Related Elements)列出:For narrower elements, see ……
  • Heidrun还说,在某些也有下位元素的页面(预记录部分)却没有如上这句。比如:creator person of work(难道是因为它既有上位元素、也有下位元素?)

有同行回应同时使用二个同义术语大概是“疏忽”,但一直没有RDA官方出来澄清。7月20日Heidrun忍不住吐槽官方是不是都在休假,终于RSC秘书Linda Barnhart出来回应:

  • 元素子类型(首选术语)=下位元素,元素超类型(首选术语)=下位元素
  • 另外实际上还有实体相对的:实体子类型=下位实体,实体超类型=上位实体
  • Linda并说明原因:大约一年前,RSC讨论了这个问题,这些交叉引用被添加了进来。 当时,该小组决定RDA应保留这“同一事物的两个名称”作为过渡方式——但该小组还认为,上位和下位应该在以后逐步淘汰,以支持一致(和首选)的术语。
  • 大概因为“超类型/子类型”是新名词,所以“添加”大家熟悉的“上位/下位”作为“过渡”,之后是要删除的。
  • Heidrun回应:更愿意保留“上位元素/下位元素”,这不仅更容易理解,而且还因为“元素超类型/元素子类型”有与“超元素/子元素”混淆的风险。
  • 杨百翰大学的Robert L. Maxwell表示赞同:没有理由用一个需要解释和讨论才能理解的新术语来代替一个众所周知的和得到理解的术语。
  • 我也持同样观点。
  • 综上所述,RDA中与元素有关的有三对术语:
  • 元素超类型/元素子类型 element supertype / element subtype(元素的上位类别/下位类别)
  • 上位元素/下位元素 broader element / narrower element(见上)
  • 超元素/子元素 super-element / sub-element
  • 超元素/子元素的术语表定义:
  • 超元素:从一个或多个子元素聚合数据值的元素(An element that aggregates data values from one or more sub-elements.)
  • 子元素:一种较大元素的组成部分,该较大元素从两个或多个元素聚合数据值。(An element that is a component of a larger element that aggregates data values from two or more elements.)
  • 比如:载体表现的超元素“出版说明”聚合子元素“出版地点”、“出版者名称”和“出版日期”。
  • Heidrun解释是整体/部分关系。

对于术语用词,她还有另外一个疑问:为什么一对拼写用连字符而另一对不用?看术语表里都作了互见,可见两种拼写在语言上都是正确的。