BIBFRAME使用案例与需求

继续补BIBFRAME。2013年8月,BF发布了《BIBFRAME使用案例与需求》讨论稿。似乎关联数据项目提出使用案例是惯例,通过假定(或真实)的使用案例,了解需要通过项目满足什么需求,设计实现这些需求的方法。
本讨论稿有两个主要部分,前一部分提出15个使用案例,既有最终用户的使用场景,也有图书馆工作人员的使用场景,甚至设想超出图书馆的使用,所用也不限于BF词表。每个使用案例最后列出不同的设计目标,后一部分即相应的12个需求与设计目标。

BIBFRAME Use Cases and Requirements (21 August 2013)

———-使用案例———-
第1-4及14为最终用户使用场景,其他为馆员(尤其是编目员)使用场景。特别感兴趣的是自适应及自动提醒,是目前系统缺乏的功能。自动提醒有二种方式:主动的Web触发器、被动的HTTP响应头,能有效地帮助编目员维护数据,同时提高数据的质量(以往因没有适当的提醒机制,很多方面维护形同虚设)。

1. Books near me (Identify holdings of Instance)
读者用移动客户端目录查询,根据当前位置,返回附近图书馆的查询结果。[地图应用,现在目录查询已经能够实现]
2. Mobile Reading (Discover Instances by Type)
读者用平板注册进图书馆网络后,查询图书默认只显示适合其平板阅读格式的电子书。[更可设计个人待看书单,登录后自动查询并提示结果]
3. Broadening Search (Discover Adaptations of a Work)
相关作品扩检[目录基本功能]
4. Searching for an Author (BIBFRAME Authorities)
作者查询[目录基本功能]
5. Find a Work for cataloging (Local annotation)
套录[基本编目功能]
6. Cataloging new Instance (Linking)
纸本图书的电子版编目:套录,并关联本地纸本记录
7. Adapting an existing Work (Forking)
同一作品不同语种版本:套录后修改,作为新记录保存;生成Web触发,自动向原作品所有者发出提醒,该作品有了新译本,原所有者可根据本地政策/联盟实践更新原记录[修改自动提醒功能]
8. Local Cataloging Practices (Extensibility)
本地扩展(加本地ID),包容本地命名空间[BF纲要]
9. Local Subject Classification (Authority Updates)
新增本地主题词(规范),说明与LCSH的关系:保存后触发“BIBFRAME链接者”(一种开源RDF数据收割与链接遍历机器人),同时为该LCSH主题创建反向链接,提醒LCSH编辑考虑修改。[修改自动提醒功能]
10. Acquisition-Cataloging Record Update (Notifications)
采访套录联盟目录记录,并加上馆藏标记;收到图书编目时,得到联盟目录已更新提示,确认后接受更新(即下载覆盖)
11. Name/Authority reconciliation (Web Notification)
校园系统中也采用BIBFRAME,教师改名,当修改教师规范记录后,生成一个HTTP请求,以Etag和最后修改时间表明资源已经变化,本地Web缓存会更新。(不同于Web触发的提醒方式)
12. Name/Authority reconciliation (Merging and de-dupe)
同一作者多个名称,创建owl:sameAs等同关系。[未做实际合并与删除]
13. Collapsing Multiple Works (Merging and de-dupe)
作品记录合并,创建owl:sameAs等同关系。[未做实际合并与删除]
14. Local description services (Multiple holdings for single instance)
读者用智能手机查询,在本地地图上标绘查询结果。[本地的室内地图应用,现在目录查询已经能够实现]
15. Multilinguage display to cataloging interfaces
通过人读标签实现多语种界面[现在系统可以实现]

———-需求与设计目标———
1. Web Oriented Architecture 面向Web架构
2. Resource Identity 资源标识
“按RDF说法,BF资源可以是一个断言的主体或客体。BF的需求是,这些资源用URI作为手段表示,支持书目资源的消歧和重组。”
3. Property Identity 属性标识
“BF定义一套词表术语,描述不同资源类型、资源间关系及与资源相关的属性。每个词表术语由一个URI定义,这样可解决相同名称元素或特性间的歧义。”
4. Vocabulary Evolution 词表进化
“现在定义的概念和术语,既没有对所有社区穷尽,也不与现在开始数十年所需相同。BF词表必须支持社区扩展该词表,以支持其发展需求。”
5. Localized Extensibility 本地扩展
“为最大化BF潜力,模型和词表必须以支持系统弹性的方式,支持方便地集成其概念到其他本地或特定领域词表。”
6. Third Party Value Add 第三方增值
“在LC的《数据时代的书目框架(2011-10-31)》声明中,新的书目框架要求一种途径“适应和区分专家、自动和自生成元数据,包括注释(评论)和使用数据”。BF的一个需求是在资源生命周期中,由自动和人工贡献过程增加元数据的能力。”
7. Defined serialization to support interchange 定义序列化以支持交换
“由于BF(类似于RDF模型)可被分解为URI、链接和人读标签,任何包括这三个的序列化均可作为BF交换格式。”
8. Minimize Ontology Mechanics 最小化本体力学
9. Web Oriented Search 面向Web查询
“SPARQL是支持这样查询的一种RDF查询语言”
10. Support Legacy and Existing Search Technologies 支持遗留与现有查询技术
SRU、Z39.50、OAI PMH
11. Enabling Web Triggers 启用Web触发器
12. Internationlization / Internationalisation 国际化

2014中国图书馆年会笔记(附推国家典籍博物馆)

前几天在北京开会,先参加10-11日的中国图书馆年会学术会议,11日下午在第19分会场“知识组织揭示”有一个发言;13日参加“资源描述”国家标准的工作会议。

原未打算参加年会开幕式,因而10日中午才到京。不巧长假末身体出了点意外,所幸未影响出行,只是不能久坐。为保证完整参加第19分会场,整个学术会议其他部分只听了半场开放获取主题论坛,是历年开会中最不投入的一次了。

———-(主题论坛)开放获取:图书馆的挑战与机遇 ———-
关注OA多年,总觉得我国政策层面没有足够支持,因而一直有置身事外的感觉。前一阵北大期刊网上线,只把它当作图书馆进入出版的事例,未往OA上想。听了此次OA主题论坛,倒是有一点紧迫感了。政策面也在向好,2012温家宝、2014李克强分别表示支持OA,社科自科基金对资助项目OA也有了各自规定,感觉现在不应该再驻足观望了。

1、张晓林:学术信息开放获取的趋势和对图书馆机制的挑战
讲到OA最大障碍是图书馆。这个我倒没有感觉到,似乎图书馆一直很无私地支持OA。但OA本质上是减少中间环节,图书馆作为中介机构,确实会受到不小的影响。报告最后说:0A需要图书馆、图书馆更需要OA。

2、曾燕:研究型图书馆开放获取战略与实践
介绍中科院文献情报中心绿色OA+金色OA并重的实践。首次听说该中心对若干OA刊取得折扣,中科院作者由该中心资助50%出版费的做法。

3、聂华:高校开放获取机构知识库建设与服务
介绍了国内外高校图书馆的IR实践,国内的一些做法如与科研处合作存缴论著、收集课程相关资源,在IR中引入替代计量分析工具等,都是可以借鉴的。数量方面:北大机构成果元数据回溯约40万条;农大18万元数据,原文11万;清华1万多学者;厦大与汤森路透合作批量申请ID,批导入数据等。
另CALIS的IR建设与推广项目名为Chair,CALIS机构知识库网站http://ir.calis.edu.cn/未见此名,之前也不知道,可见自己关注太少。查到聂馆长2012年的一个PPT:CHAIR: CALIS机构知识库 建设与推广,反思与展望

4、郝继英:研究机构开放获取机构知识库实践
谈到一些提供增值服务的内容,如可视化等。中科院文献情报中心以机构排行推进中科院机构支持IR,也是很值得借鉴的做法。刚查了下,该IR全名为:中国科学院机构知识库服务网格

———-(第19分会场)知识组织揭示:技术、方法与实践 ———-
本分会场报告较多涉及语义网,且都或多或少结合实际应用。而我的报告恰恰略掉了BIBFRAME序列化部分,且相对务虚,夹在整场报告中自觉有点不和谐。

1、孙坦:语义环境下知识组织问题的几点思考
内容较多,听得有点走神。其中说到本体的必要性,知识抽取等等。

2、胡小菁:BIBFRAME:模型与词表(slideshare上传出错,稍后更新[update 2015-10-25上传完成])
BIBFRAME作为一个关联数据模型,包括BF模型、BF词表、BF模型序列化和支持工具4个部分,因时间所限,只涉及前2个部分。

3、孙辉:国史知识库构建与语义检索
以三元组方式建设中华人民共和国史知识库。提供“国史百科”,可用自然语言检索(识别不同模式),可视化结果展示,链接来源与详细信息,可发现人物关系,等等。未查到网址,很期待实际使用。
历史最有意思的是不同来源信息可能不一致,哪怕是权威文件。因而会后向孙老师询问如果不同来源信息冲突如何处理,答案是目前涉及的都是基本没有争议的内容,由专家人工判断择一。

4、王乐春:一“页”一菩提
由不同网站(百度、calis、cadal、国科图、nstl等)检索结果页面入手,介绍国图资源梳理整合而成的“文津搜索”。

5、乔晓东:汉语科技词系统建设与应用
介绍已经开发多年的汉语科技词系统:细化传统词表关系,根据W3C对词系统(Vocabularies)的定义,属于简化的本体。作为轻量级本体,定义了20种关系、16种属性。
已发布5个重点领域词系统,可以多种格式导出(数据库、RDF、OWL);并发布有移动知识服务应用。
比较特别的是提供一个开放平台,可注册后自建领域本体。

6、真溱:知识图谱:知识组织工程化的新思路
介绍以图层叠加方式,按知识图层、资源图层实现可视化展示。
其中提到横向关联、纵向索引,没有完全理解。

7、钱庆:KOS在医学信息挖掘与处理中的利用
介绍了很多医学词表、本体及工具,以及在机器辅助标引、智能检索方面的实践。

8、张智雄:STKOS概念关系的可视化揭示方法研究与实现
介绍STKOS(科技知识组织体系共享服务系统)的可视化展示。感觉与前面知识图谱报告类似,因为有多个维度(定义了6种关系),一个图例展示不可行。看网站,目前术语也均在医学领域。

———-推荐:国家典籍博物馆———-
开会常去北京,却总是来去匆匆。此次两会之间隔着一个休息天,有时间玩了一天。上午重游故宫、下午二小时参观国家图书馆新建的国家典籍博物馆。上下午的参观内容还有小小的呼应:上午到了养心殿旁那个小小的三希堂,下午看到了三希堂法帖;上午到了文渊阁,下午看了四库全书及永乐大典——第一次看到永乐大典,开本真大。
参观典籍博物馆后的感叹是:国图好东西太多!博物馆共9个主题展馆,实物丰富,背景与配套图片解释详尽,相关知识整理给参观者提供很好指导。辅以透明触摸屏、体感设备、电脑游戏互动及其他时新技术的应用,可以说相当精彩。二小时参观只是蜻蜓点水,细细看看、玩玩,一天时间不多。

BIBFRAME纲要草案(摘译)

BIBFRAME在2014年上半年连续发布了规范、关系和(应用)纲要的草案。草案,是在“讨论稿”基础上形成的半成品 ,目前注释(Annotation)还处于讨论稿状态(BIBFRAME Annotation Model, BIBFRAME Community Draft, 26 August 2013),而同期形成的规范讨论稿已经进化成草案了。
暑假中,前些天补写了关系草案。今天继续补写纲要草案,是为带理解的摘译。
——关于“Profiles”(配置文件),因为有与之类似的DC“应用纲要”的译法,所以参照译成“纲要”。以下BIBFRAME Profiles简写为“BF纲要”。
——近年来一直很困惑的另一个词是“community”,直译为“社区”,与国人对社区的一般感受差异太大。“社团”的范围太小,“领域”的范围又太大。以下暂译为“共同体”。[update 2014-8-31: 按“老马”留言建议,今后将译为“社群”]

BIBFRAME纲要:引言与说明书(2014年5月5日草案)
BIBFRAME Profiles: Introduction and Specification, Draft — 5 May 20141 导言

1 导言
– BF是采用Web技术,发现与交换图书馆和其他记忆组织信息的框架或元模型。BF元模型设计为轻量,灵活,能够适应现有的(RDA、DACS、VRA等)和未来开发的共同体词汇的需求。
– 为最佳适应这些共同体,BF的RDF Schema特意不指定诸如领域和范围(domain and range)方面的限定。如此灵活的代价就是没有一种途径限定这些词汇,诸如规范工具就不能对特定词汇及衍生模型的内容作者提供指引。BF纲要就提供这样的补充描述
– BF纲要是一个或一组文件,将一份纲要(如本地编目实践)放在更广泛的功能需求、领域模型、句法与使用指南及可能的数据格式的环境中。
– 本BF纲要文件描述一个信息模型及参引序列化,以支持一种识别和描述结构限定的方法。一个纲要定义一个方法,其中可限定一个资源,列举可用于描述它的属性,以及可给出该属性值代理的途径。
– 一个BF纲要主要是一个应用工具,如编目工具,指导编目员创建或修改一条BF记录。但是这类纲要也可用于其他方面,诸如与内容描述标准(如RDA、DACS等)有关的限定的一个正式表达,或约定互操作的表示。
– BF纲要仅包含正式句法限定,要为一个共同体充分利用,需与人类可读信息、语义表达、使用指南等组合。然而设计BF纲要信息模型,意在方便合并BF信息和上述各类外部信息。因此除本文件所列说明书,BF纲要由其共同体拥有和维护,完全独立于BF。这个独立性是支持多共同体需求的关键。

2 基本结构(层次嵌套,各级模板所用属性见第7部分语法)
2.1 纲要 Profile
– 2.2 资源模板 resourceTemplates
— 2.3 属性模板 propertyTemplates
— 2.4(属性)值限定 valueConstraint
—- (资源)值模板参引
—- 2.5(文字)值数据类型 valueDataType

3 校验
校验部分还处在研发的初步阶段,仅列大纲:
为检查特定的实例数据集是否匹配特定的纲要,需校验三个部分:
– 描述与资源模板绑定,评估每个资源模板对所描述资源的限定;
– 语句【三元组】与属性模板绑定,评估属性限定;
– 评估数据类型限定:描述集中所有元数据都已绑定一个模板,所有限定都可被验证。

4 序列化
当前采用JSON,未来还考虑用龟标(Turtle)

5 使用场景
5.1 限定资源
5.2 限定属性
BF“代理”资源,带3个属性模板:
1、查LC名称规范档(不可重复)
“propertyURI”: “http://bibframe.org/vocab/hasAuthority”
“propertyLabel”: “Lookup”,
“type”: “resource”,
“valueConstraint”: {
“repeatable”: “false”,
“usesValuesFrom”: [
“http://id.loc.gov/authorities/names”,
]
}
2、提供规范检索点(不查名称规范或查不到)
“propertyURI”: “http://bibframe.org/vocab/authorizedAccessPoint”,
“propertyLabel”: “Authorized access point”,
“type”: “literal”,
3、提供FOAF名称(必备)
“propertyURI”: “http://xmlns.com/foaf/0.1/name”,
“propertyLabel”: “Name”,
“mandatory”: “true”,
“type”: “literal”

5.3 限定(资源值)
属性值可以在多个资源中选择。
“主题”除了“论题”,也可能是各种“名称”(个人、团体、地点)
“propertyURI”: “http://bibframe.org/vocab/subject”,
“propertyLabel”: “Subject”,
“type”: “resource”,
“valueConstraint”: {
valueTemplateRefs“: [ “bfp:Agent:Person”,
“bfp:Agent:Organization”,
“bfp:Authority:Place”
]
}

5.4 限定(数据类型)值
属性值需符合特定格式。
要求日期格式符合ISO 8601
“valueConstraint”: {
valueDataType“: {
“dataTypeURI”: “http://bibframe.org/vocab/proposed/ISO8601”,
“dataTypeLabel”: “ISO 8601”,
“dataTypeLabelHint”: “ISO”
}
}

5.5 注意事项
– BF纲要对限定及层次没有特别要求。共同体可以根据其需求,采用严格或宽松的机制配置其纲要。过于严格的限定会降低词汇应用或发展的灵活性,过于宽松的期望则会降低互操作层次。
– BF纲要不凌驾或取代由RDF Schema或OWL定义的语义限定,而是为共同体提供一个定义其所需类与属性集的工具。

6 样例
6.1 缺省BF纲要作为简单编辑界面
用BF纲要当作专著编辑模板

6.2 以RDA作为一个BF纲要
BF的WEMI纲要:在概念层次上将RDA的WEMI表达为BF类(作品-实例)
BIBFRAME WEMI Profile

6.3 以VRA作为一个BF纲要
以BIBFRAME/RDA模型反映VRA核心语义。包含9种资源:
1、作品 bfp:work(自身描述)
2、描述 bfp:depicts(图像大小)
3、代理 ULAN:Agent(Getty Union List of Artist Names)
4、(主题)规范 bfp:AAT:Authority(Getty Art & Architecture Thesaurus)
5、时期 bfp:AAT:Period
6、技术 bfp:AAT:Technique
7、作品类型 bfp:AAT:WorkType
8、地点 bfp:TGN:Place (Getty Thesaurus of Geographic Names)
9、语言 bp:language
作品、描述和语言3个资源采用BF本身(resourceURI=http://bibframe.org/vocab/…)
作品资源的属性主要采用VRA(propertyURI=http://bibframe.org/vocab/vra/…),也用BF本身(propertyURI
=http://bibframe.org/vocab/…),还用到LC的关系词(propertyURI=http://id.loc.gov/vocabulary/relators/
…);取值大量用到其后若干资源规定的Getty专业词表
代理、规范、时期、技术、作品类型、地点6个资源采用RDA(resourceURI=http://bibframe.org/vocab/rda/…)(作品类型或指“内容类型”或“作品形式”,技术或可归“制作方法细节”);取值则为Getty的专业词表

7 纲要的详细语法
Profile ::= id | title | description | date | contact | remark | resourceTemplates*
resourceTemplates ::= id | resourceURI | resourceLabel | remark | propertyTemplates*
propertyTemplates ::= propertyURI | propertyLabel | mandatory? | repeatable? | type | valueConstraint | remark
valueContraint ::= valueLanguage | languageURI | languageLabel | valueDataType | valueTemplateRefs | editable | defaultURI | remark(valueDataType前适用文字literal,valueTemplateRefs后适用资源resource,最后为备注remark)
valueDataType ::= dataTypeURI | dataTypeLabel | dataTypeLabelHint | remark
valueTemplateRefs ::= editable | defaultURI | defaultLabel
(以下省略)

8 实施
BF纲要的实施很可能是作为编目输入工具。如果编目工具指向BF纲要,则工具向使用者提供的总是BF纲要的最新版本,能够在BF纲要间切换而不必改变工具本身的基本代码。

9 历史及与其他工作关系
BF纲要几乎是DCMI“描述集纲要”(Description Set Profiles)的镜像,不同之处在于其符合RDF而非DC抽象模型,并且使限定功能最小化,以避免与RDF Schema及OWL冲突。

10 工作人员名单
BF纲要由Eric Miller为首的Zepheira团队起草,LC的Kevin Ford编辑。

参见:
BIBFRAME规范草案发布(2014年3月11日)
BIBFRAME关系草案(2014年8月21日)
DCMI Description Set Profiles: A constraint language for Dublin Core Application Profiles (2008-3-31)