BIBFRAME关系草案

BIBFRAME在2014年上半年连续发布了规范、关系和(应用)纲要的草案。当时只写了规范,现在补写关系。
参见:BIBFRAME规范草案发布(2014年3月11日)

BIBFRAME Relationships, Draft Specification (25 April 2014)

BIBFRAME模型只有4个核心类:创作作品、实例、规范、注释。参见:Bibframe.org的类与属性发布(2014年1月27日)
BIBFRAME的关系也相对简单,只是作品(W)和实例(I)间的关系,排列组合计4类,即W-W、W-I、I-W、I-I。另有一类为未指定作品、实例的关系,不知道是不是也如RDA为让不采用WEMI模型者也能用自己的模型,因而刻意不作限制。详见所附“关系属性”,合计约50种关系。
BF关系以RDF三元组即主体/属性/客体表达,如:WorkA  bf:precedes  WorkB。

特别注意到以下两点:
1、内容表达:与FRBR/RDA妥协?
BF的关系中出现了“内容表达”(expression),作品关系中有“hasExpression”和“expressionOf”2个子属性。
如此则BF相对FRBR第1组的实体就由两级变三级了。此“内容表达”举的虽是译本的例子(见关系草案之3.1. Works, Expressions, Translation),当可与RDA概念对应。关系草案所举例子的虚拟URI,分别有http://bibframe.examples.org/work2和http://bibframe.rda.examples.org/work3(有rda)的形式,未知是否有与RDA映射之意。

2、外部关系:可直接采用其他命名空间定义的“关系”作为关系“属性”
BF关系不限于BF属性(即来自BF命名空间的属性)表达的关系。以下译自关系草案之“4. External Relationships”:
任何关系,只要主体资源与客体资源为BF作品或BF实例,均为BF关系,即使关系属性来自BF之外的命名空间,只要该属性的定义没有限制不能以此方式使用(即域名或范围排除BF作品与实例)。
作为一个假设例子,假定有一个描述博物馆实物的本体,其域名为…(前缀museum:)
假设BF作品A描述一个雕塑,作品B描述该雕塑的另一个铸件,而该博物馆本体定义了属性museum:castingOf,其域名与范围均包含bf:Work,则下述RDF三元组是BF关系:
bf:WorkB  museum:castingOf  bf:WorkA

———-关系属性(及等级)———-
顶级:relatedTo(相关关系)
二级:hasInstance(作品对实例)
二级:instanceOf(实例对作品)
二级:范围未指定(11种)
– hasEquivalent(等同)
– hasDescription / descriptionOf(描述)
– hasPart / partOf(部分)
– accompanies / accompaniedBy(配套)
– precededBy / succeededBy(先前/后继;多用于连续出版物)
– hasDerivative / derivativeOf(衍生)
二级:relatedWork(作品对作品,30种;同时为“范围未指定”相应属性的子属性)
– absorbed / absorbedBy
– absorbedInPart / absorbedInPart
– continues / continuedBy
– continuedBy / continuedInPartBy
– separatedFrom
– supersedes / supersededBy
– supersedesInPart / supersededInPartBy
– unionOf / mergedToForm / splitInto
(以上为“先前/后继”子属性)
– series / subseries / subseriesOf(丛编/子丛编;“部分”子属性)
– hasExpression / expressionOf(内容表达)
– originalVersion / otherEdition(原版/其他版本;“衍生”子属性)
– translation / translationOf(译本;“衍生”子属性)
– supplement / supplementTo(补编、增刊)
– index(索引)
– findingAid(检索工具)
(以上“配套”子属性)
– dataSource(数据源)
二级:relatedInstance(实例对实例:3种)
– issuedWith(合刊、合订)
– reproduction(复制;同时为“等同”子属性)
– otherPhysicalFormat(其他物理格式;同时为“等同”子属性)

数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)

今天参加上海市图书馆学会举办的2014年图书馆前沿技术论坛(IT4L)“数字人文与语义技术”。因为注册了这个会议,所以对数字人文就特别关注起来。其实今年2月OCLC发布研究报告《每个研究图书馆都需要一个数字人文中心么?》时就下载了的,但一直没有看。
Does Every Research Library Need a Digital Humanities Center? / Jennifer Schaffner , Ricky Erway. OCLC Research, February 2014. ISBN 978-1-55653-466-9. 18 p.

直觉“数字人文”就是用计算方式进行人文科学研究——比如以前就听说过的用文学作品语料库统计分析写作风格之类,只是那时可能没有用这个名词。今日午餐时和几位说起为什么没有数字科学,以为自然科学是通过实验做研究的、不似人文科学更依赖思辨,需要用计算的方式进行定量研究。待回到家中,才发现我的电脑收藏中不知何时已建有e-sci文件夹。查维基百科,自然科学和数字人文对应的,或许就是电子科学吧——当然采用的方法肯定不同,就是人文科学中也不会相同。
维基百科词条:Digital Humanities  vs e-Science 

———-“数字人文与语义技术”会议报告随记———-
刘炜《数字人文与关联数据》是入门课,从起源讲到“云中上图”。像上图这样的图书馆,还真有很多资源可做。
特别有感觉的是说数字人文不是学科,而是研究领域……(待看PPT)。

曾蕾《语义技术应用与知识再发现》举例说明如何用图情一直以来的强项,即基于图书馆资源的半结构数据,用语义技术做挖掘。报告中提到无结构的大数据、有结构的智慧数据(smart data)和半结构的XML文档(概念来自《数字人文杂志》:Big? Smart? Clean? Messy? Data in the Humanities / CHRISTOF SCHÖC)。
另外,第一次听说CCO(Cataloging Cultural Objects)图像标引三层次:一描述、二辨识(即主题)、三阐述(即意义)——有一种豁然开朗的感觉。

秦健《从欧美数字人文奖励项目说开去》对受资助项目做了归类。从数据类型上说,既包括非结构化的文本,也包括结构化的包括GIS数据集,以及数字和纸质地图、各种档案、音乐信息、语音文档、图像数据。

不同的人文科学肯定会有不同的数字人文方法,比如前述文学作品研究,与林海青《用GIS数据呈现历史事件》介绍的空间历史学,就完全不同。
除此报告外,其他报告所举例子也有不少地图应用。人文科学、社会科学研究中,与时间、地点相关的内容是相当重要的。
AHA 2014: Getting Started in Digital History Spatial History & hGIS Breakout Session

复旦大学张亮《数字人文中的IT推动力-以二十世纪中国人物志数字图书馆原型系统为例》,介绍了名为“数风流人物”的原型系统。数据来源是国家社科基金重大课题“中国人物传记数据库”,原库有5万余人,PDF全文检索。原型系统只取了十多个人(?),从时间、地理、人物关系等予以揭示。

上图杨佳《数字人文中的可视化技术》将可视化技术分为五类,举了不少例子,需慢慢消化。

上图夏翠娟《以书目框架建模的上图家谱知识库系统》介绍上图已用BIBFRAME构建了家谱本体,并对预期服务作了十分丰富的设想。可做的不少,能做到多少自然是另一个问题,夏MM自己提出了在数据加工、初始数据清洗、实例和规范数据提取、不同时代地理信息差别及纠错机制上的问题及困境。
雨师提问则是另一个问题:本体要做到何种深度,才能达到把金庸与徐志摩关联起来?答案是BIBFRAME是文献本体,还需要内容本体(要加上谱系本体)——深为受教。
对于夏MM提出的问题,张亮教授对数据清洗的看法我还是很同意的:清洗不可能准确,能做多少是多少。——大数据中,信息缺失或错误不可避免,未必影响结果,只是对采用的方法肯定有影响。

最后中科院生命科学信息中心陈涛、张永娟《关联数据在生化学会会员系统中的应用》,基于上海社科基金课题。利用PubMed数据,采用非关系型数据库、RDF数据进行关联,对中国生物化学与分子生物学会部分会员的个人发文信息、人际关系等进行揭示,还可对会员进行相关内容与会员的推荐。
系统做得相当好。比较遗憾的是如张亮教授提问所指出的,生化领域有PubMed的RDF数据可用,此法对其他领域未必适用。

注:下午迟到,很遗憾错过了上图王曼隽《上海年华的故事》。
P.S. 佩服sogg边听报告边给出提及内容链接的本事。

———联想的分割线———-
各报告介绍的众多实例、原型系统、设想,很有启发。期待PPT分享,再细细看过。
联想到本馆,有一个《中国年谱数据库》,一直以来用者了了。而年谱中可挖掘的数据,包括人物、时间、地点、事件、人物关系……完全可以比肩家谱。如果有意试水数字人文,倒也是个不错的数据源。
秦健教授在问答环节中指出:图书馆从提供数据资源,到提供数据产品。这大概就是图书馆要有一个数字人文中心的理由吧?

BIBFRAME规范草案发布

同事提示我BIBFRAME规范说明草案发布,查了BF论坛竟没有此消息。看后做编译如后(红色为本人所标)。

[update 2014-5-1: 同事继续提醒我有更新:Draft Specification (28 April 2014)。更新了2处,分别是2的图1A和4.2,已补充在下]

先总结BF规范类bf:Authority的子类及子子类如下,以便提醒自己BF规范的基本情况(参见:Bibframe.org的类与属性发布,2014年1月27日):
– bf:Agent 代理
— bf:Person 个人
— bf:Family 家族
— bf:Organization 组织机构
— bf:Jurisdiction 管辖地
— bf:Meeting 会议
– bf:Place 地点
– bf:Temporal 时间
– bf:Topic 论题

BIBFRAME Authorities Draft Specification (7 March 2014)
5个部分:1导论,2样例,3BIBFRAME规范说明,4表达职能,5主题

——— 1 导论 ———
BF规范是一种资源,代表与BF作品、实例或注释相关的个人、家族、组织机构、管辖地、会议、地点、论题或时间表达。F规范非设计以取代或与现有规范竞争,而是提供一个围绕它们的通用抽象层或包装。

——— 2 样例 ———
图1(BF作品及与规范的链接)一个有题名及链接到创作者的BF作品。创作者表达为BF规范,显示在样例的后半部分。

<bf:Work>
    <bf:title>Collage</bf:title>
    <bf:creator rdf:resource=”bnode-x24z100”/>
</bf:Work>
<!-- BIBFRAME Authority -->
<bf:Person rdf:id=”bnode-x24z100”>
    <bf:authorizedAccessPoint>Bartolozzi, Bruno</bf:authorizedAccessPoint>
    <bf:hasAuthority rdf:resource=”http://id.loc.gov/authorities/names/n80103954”/></bf:Person>

本例中BF规范是bf:Person类,其为bf:Authority的子类,包含一个“规范检索点”(AAP),以及到外部(真实)规范的链接。提供AAP是为了方便不能链接到外部规范、或者得到AAP就行的用户;提供外部链接是为了方便想要比AAP更多、能够跟随链接的用户。

[update 2014-5-1: Draft Specification (28 April 2014)增加了图1A。图1的BF规范为空节点,图1A的BF规范则是可重用资源形式。除图1A外,所有其余样例均为空节点:
Figure 1A: 相同样例,不同在于BF规范为可重用资源而非空节点
<bf:Work>
<bf:title>Collage</bf:title>
<bf:creator rdf:resource=”http://www.example.bibframe.org/authority/bartolozzi/”/>
</bf:Work>
<!– BIBFRAME Authority –>
<
bf:Person rdf:about=”http://www.example.bibframe.org/authority/bartolozzi/”>
<bf:authorizedAccessPoint>Bartolozzi, Bruno</bf:authorizedAccessPoint>
<bf:hasAuthority rdf:resource=”http://id.loc.gov/authorities/names/n80103954”/></bf:Person>

]

图2(主要规范与参引规范)有多个外部规范链接的BF规范。主要规范(属性bf:hasAuthority)最多只能有一个,AAP衍生自此规范;参引规范(属性bf:referenceAuthority)可以有任意数量,可能与主要规范有不同标目。【bf:referenceAuthority似未在BF的类与属性清单中

<!— BIBFRAME Authority  -->
<bf:Person>
    <bf:authorizedAccessPoint>Cutright, Paul Russell, 1897-</bf:authorizedAccessPoint>
    <bf:hasAuthority rdf:resource=http://id.loc.gov/authorities/names/n80022903”/>
    <bf:referenceAuthority rdf:resource=”http://viaf.org/viaf/91312848/”/>
</bf:Person>

图3(内联规范)不包含任何链接的BF规范,以内联提供规范信息。内联根据规范本体提供信息,采用该本体的命名空间。本例采用的是MADS:

<!— BIBFRAME Authority  -->
<bf:Person>
    <bf:authorizedAccessPoint>Cutright, Paul Russell, 1897-</bf:authorizedAccessPoint>
    <bf:hasAuthority>
<!-- -->
<madsrdf:PersonalName>
    <madsrdf:authoritativeLabel>Cutright, Paul Russell, 1897-</madsrdf:authoritativeLabel>
    <madsrdf:elementList rdf:parseType="Collection">
       <madsrdf:FullNameElement>
                <madsrdf:elementValue>Cutright, Paul Russell,</madsrdf:elementValue>
       </madsrdf:FullNameElement>
       <madsrdf:DateNameElement>
                <madsrdf:elementValue>1897-</madsrdf:elementValue>
       </madsrdf:DateNameElement>
    </madsrdf:elementList></madsrdf:PersonalName>
<!-- -->
    </bf:hasAuthority>
</bf:Person>

图4(仅由AAP组成的BF规范)不包含规范(无论是主要规范还是参引规范),隐含如果有规范的话,规范标目就是这个。

<!— BIBFRAME Authority  -->
<bf:Person>
    <bf:authorizedAccessPoint>  Cutright, Paul Russell, 1897-</bf:authorizedAccessPoint>
</bf:Person>

图5(仅由标签组成的BF规范)在不清楚规范检索点的情况下,非正式引用bf:label作为一个“标签”,代替AAP

<!— BIBFRAME Authority -->
 <bf:Person>
    <bf:label>Paul Russell Cutright</bf:label>
</bf:Person>

——— 3 BF规范说明 ———
BF规范是类bf:Authority(或其子类,如bf:Person等)的RDF结构,包含:
* 一个规范检索点(AAP)或标签:包含其中之一或同时,但每个都不超过一个。如果同时提供,其值应当完全相同。如果提供主要规范,则应当提供规范检索点。
* 主要规范(经由属性bf:hasAuthority)可选,不可重复
* 参引规范(经由属性bf:referenceAuthority)可选,可重复

图6(不采用直接方法)【仅针对BF规范有此限制,如图9作品主题可以采用
注意:早先BF文章中曾建议如下“直接方法”,现为不合法形式:

<bf:Work>
<bf:title>Florida Mobile Home Act</bf:title>
<bf:creator rdf:resource=”http://id.loc.gov/authorities/names/n79053995″/>
</bf:Work>

——— 4 表达职能(代理及其职能) ———
代理可能通过职能与BF资源相关。BF中有两个泛指职能属性bf:contributor和bf:creator,更专指的潜在职能本质上是无限的,不可能由BF属性表达,而代之以外部词表中的受控代码或术语来表达,我们称之为“职能词表”。实例见 http://id.loc.gov/vocabulary/relators(LC关系词词表)。职能词表中的款目可被当作属性。

图7(由词表代码表达职能)插图者职能由属性relators:ill表达,其对象 为BF规范bf:Person。

<bf:Work xmlns:relators=”http://id.loc.gov/vocabulary/relators”>
<bf:title>Mogie: the heart of the house</bf:title>
<relators:ill rdf:resource=”bnode-x31p54”/>
</bf:Work>
<!– BIBFRAME Authority–>
<bf:Person rdf:id=”bnode-x31p54”/>
<bf:authorizedAccessPoint>Rosenthall, Marc, 1949-</bf:authorizedAccessPoint>
<bf:hasAuthority rdf:resource=”http://id.loc.gov/authorities/names/n92008281″/>
</bf:Person>

前缀relators:代表LC关系词词表的命名空间,因此relators:ill成为http://id.loc.gov/vocabulary/relators/ill,即术语“插图”的关系词代码。

[update 2014-5-1: Draft Specification (28 April 2014)增加了4.2“职能表达为串”及图8;原4.1“职能表达为属性”。
图8 职能表达为文字,使用BF职能词
……
<bf:Relator rdf:nodeID=”bnode-q90w87”>
<bf:relatorRole>original author</bf:relatorRole>
<bf:relatorAgent rdf:nodeID=”bnode-y65v32″/>
</bf:Relator>
……
]
——— 5 主题 ———
BF主题由属性bf:subject表示,其对象为BF规范或作品,即bf:Agent:, bf:Place, bf:Temporal, bf:Topic(以上均为bf:Authority的子类)和bf:Work。作品及其主题的表示:

图8(主题规范-论题)

<bf:Work rdf:about=”http://bibframe/work/w72x43”>
<bf:title>History of the Peloponnesian War</bf:title>
<bf:subject rdf:resource=”bnode-t24x38”/>
</bf:Work>
<!– BIBFRAME Authority–>
<bf:Topic rdf:id=”bnode-t24x38”/>
<bf:label>Greece–History–Peloponnesian  War, 431-404 B.C.</bf:label></bf:Topic>

图9(作品主题为另一作品)对上述作品的分析,以作品为主题

<bf:Work>
<bf:title>Analysis of Thucydides History of the Peloponnesian War</bf:title>
<bf:subject rdf:resource=”http://bibframe/work/w72x43”/>
</bf:Work>

【注意:采用“直接方法”,因为BF作品不是BF规范的子类,不受图6所说的限制】

图10(主题规范-地点)

<bf:Work>
<bf:title>Gunmen of Winslow</bf:title>
<bf:subject rdf:resource=”bnode-p622k123″/>
</bf:Work>
<!– BIBFRAME Authority–>
<bf:Place rdf:id=”bnode-p622k123″/>
<bf:authorizedAccessPoint>Winslow (Ark.)</bf: authorizedAccessPoint>
<bf:hasAuthority rdf:resource=”http://id.loc.gov/authorities/names/n88198885″/></bf:Place>