OCLC – 第 8 页 – 编目精灵III

2017年BIBFRAME更新论坛

自2012年1月ALA仲冬会议起，美国国会图书馆（LC）会在每年2次的ALA冬、夏年会上举办BIBFRAME更新论坛。LC介绍BIBFRAME开发进展，邀请其他机构介绍与BIBFRAME相关的应用等，这些机构主要是高校和厂商，几乎不可缺的常客是OCLC和Zepheira（BIBFRAME初始协约开发者）。今年的2次已召开，会议报告如下：

2017年1月，ALA 2017仲冬会议更新论坛（BIBFRAME Update Forum at ALA Midwinter Meeting 2017）
– LC近期开发更新
Update on Recent Developments at the Library of Congress / Sally McCallum（LC网络开发与MARC标准办公室主任）-
– LC试验2生产计划 【列在日程上，网站未提供PPT】
LC Plans for Production Pilot 2 / Beacher Wiggins（LC采访与书目获取部主任）
– 表演音乐关联数据：为音像产品与档案编目扩展BIBFRAME 2.0
Linked Data for Performed Music : an extension to BIBFRAME 2.0 for production & archival cataloging of sound recordings & music videos / Nancy Lorimer（斯坦福大学图书馆元数据部主任）
原标题：Music Development for BIBFRAME in LD4P (Linked Data for Production)
– 把MARC带到BIBFRAME
Bringing MARC forward to BIBFRAME / Wayne Schneider（Indexdata公司工程师）
– OCLC在作品上的工作
OCLC’s Work on Works / Roy Tennant（OCLC高级项目主任），Jean Godby（OCLC高级研究科学家）

2017年6月，ALA 2017年会更新论坛（BIBFRAME Update Forum at ALA Annual Conference 2017）
– 国会图书馆试验二：更完整、更多参与者, 更多互动
Library of Congress Pilot Two: more complete, more participants, more interactive / Beacher Wiggins, Sally McCallum
– BIBFRAME作品与OCLC作品：定义模型，发现证据
BIBFRAME and OCLC Works: defining models and discovering evidence / Jean Godby, Diane Vizine-Goetz（OCLC高级研究科学家）
– LD4P曳光弹/示踪子弹：RDF套录编目管道
LD4P Tracer Bullet 1: an RDF copy-cataloging pipeline / Philip Schreur（斯坦福大学技术与获取服务助理馆长）
– 成为数据原住民：BIBFRAME可扩展性如何向图书馆提供了走向可伸缩的革命性进化之路
Becoming Data Native: How BIBFRAME Extensibility Delivers Libraries A Path to Scalable, Revolutionary Evolution / Eric Miller（Zepheira公司总裁）
原标题：Transformation, BIBFRAME, and the Library.Link Network

总结下BIBFRAME现状大体如下：
– LC目前的重点是第2阶段试验（Pilot 2），面向实际编目环境。除了已经完成的原有记录转换，更重要的是书目和规范的原编。
– OCLC与LC在协调对于FRBR“作品”的实践差异。OCLC的结论是WorldCat作品可以对应BIBFRAME创作作品，尽管有不同层次的属性。对于已有数据，作品识别算法仍需改进。
– 斯坦福大学等的关联数据生产（LD4P）项目，应用BIBFRMAE的进展：（1）BIBFRAME的表演音乐扩展（未来会有面向不同领域的更多扩展）；（2）套录MARC记录转换为BIBFRAME并进而利用的流程，复杂的过程，有待自动化处理。
2016年的2次BIBFRAME更新论坛上也有LD4P项目的报告。
– 关联数据图书馆应用Library.Link（采用BIBFRAME 1.0变体bibfra.me）
– 厂商开始从MARC转向BIBFRAME之路

参见：
重量级图书馆关联数据项目LD4P获得资助（2016-5-10）
BIBFRAME和BIBFRA.ME（就差一个点）（2015-5-10）
LC和OCLC关于BIBFRAME和Schema书目扩展的白皮书（2015-2-12）

先前部分BIBFRAME更新论坛，参见：
LC书目框架转换行动：首届更新论坛（2012-2-7）
ALA 2014仲冬会议中的BIBFRAME（2014-2-5）
ALA 2016仲冬会议的BIBFRAME更新论坛（2016-1-29）
2016 ALA年会BIBFRAME更新论坛（2016-8-27）

关联数据应用现状：2015国际关联数据实施者调查的分析

OCLC研究部在2014年面向国际关联数据实施者进行过一次问卷调查。参见：OCLC 关联数据项目调查结果：机构、成果、消费、发布、技术、建议（2014-9-25）。
由于缺少欧洲几个著名的关联数据项目，因此OCLC研究部在2015.6.1-7.31再次做了同样的调查。两次调查去重后合计有20国90个机构参与，主要是图书馆，大部分项目主要是实验性质的。主持者Karen Smith-Yoshimura在D-Lib上发文，综合两次调查结果，并对2015年调查中提供详细信息的112个项目/服务进行了详细分析。文章最后有调查回复者对其他考虑关联数据项目者的建议。
Smith-Yoshimura, Karen. Analysis of International Linked Data Survey for Implementers. D-Lib Magazine, 22(7/8) doi:10.1045/july2016-smith-yoshimura

如何评估关联数据项目是否成功？参加调查的项目很少做了评估，但有46个认为项目是成功或基本成功的。评估点涉及：数据重用、增加可发现性、新知识创建、思想领导力、为语义网做准备、运作成功、组织发展、组织转型。个人感觉最有意思的是“思想领导力”和“组织发展”两个方面：前者是用“关联数据工作证明，机构正在采取主动，为未来不同环境奠定基础”，后者认为“即使缺乏计量法证明关联数据对其他方面的价值，关联数据项目仍对员工提供了专业发展。”也就是说，做关联数据项目本身并非唯一目的，机构形象及员工发展也是重要考量。
以下为文章编译。

——— 参与调查机构基本数据 ———
【2014年和2015年全部90个机构按国别】依次是美国39个占43%，西班牙10个、英国9个、荷兰6个、挪威4个、加拿大3个，澳大利亚、法国、德国、意大利和瑞士各2个，奥地利、捷克、匈牙利、爱尔兰、日本、马来西亚、葡萄牙、新加坡和瑞典各1个。
【2015年71个机构按图书馆类型】国家图书馆14个占20%（2014年4个），高校图书馆23个占31%，多机构网络9个占14%，政府7个占10%，学术项目6个占8%，公共图书馆5个占6%，博物馆、学会各3个各占4%，出版社1个。
2015年的71个机构报告168个项目，其中112个有不同程度的详细描述。2/3项目在运行中，其中运行超过2年的“成熟”项目比2014年增加了一倍（46对24，表1）。有10个项目是“私有的”，仅供本机构使用。
如何利用关联数据（表2，2015对2014）：消费关联数据（38对25），发布关联数据（10对4），同时消费与发布（64对47）。【只是消费的项目也有1/3！】

——— 发布的关联数据 ———
– 数据类型，依次是：书目数据56，规范数据45，描述元数据43，本体/词表30、数字馆藏26、地理数据18、数据集16,、博物馆实物数据10、编码档案描述5、组织数据5、有关研究者或馆员数据2。
– 数据集大小（三元组数量）：大部分数据集很小。67个报告数据集大小，39个少于1千万，19个多于1亿。超过10亿的仅3个：北莱茵-威斯特伐利亚图书馆服务中心（10-15亿），挪威理工大学不同关联数据项目合计150亿，OCLC的WorldCat关联数据150亿。【欧洲确实有相当大的关联数据项目】
– 访问量（日均请求数）：大部分已实施项目近6个月平均少于1千。
超10万的7个数据集是：Europeana, Getty词表3个，LC关联数据服务超过50个词表，日本国会图书馆NDL搜索，北莱茵威斯特伐利亚图书馆服务中心的LOD服务，OCLC的WorldCat关联数据，OCLC的VIAF。
另有6个数据集为1-5万：美国钱币学会nomisma词表，法国国家图书馆data.bnf.fr，不列颠图书馆英国国家书目，日本国会图书馆规范数据，OCLC的WorldCat作品，OCLC的FAST分面主题词表
– 使用的RDF词表和本体：数据集使用不同RDF词表和本体，很多使用多个。按提及频率，依次是【仅列10次以上，计数由本人据原始数据统计】：
1. Simple Knowledge Organization System (skos)【59】
2. Friend of a Friend (foaf)【55】
3. DCMI Metadata Terms (dcterms)【52】
4. Dublin Core Metadata Element Set (dce)【约49】
5. Schema.org vocabulary (schema)【30】
6. The Bibliographic Ontology (bibo)【25】
7. 本地词表【19？】；VOCABS rda【链接RDA第2组实体间关系，非官方版】【约19】
8. Europeana Data Model vocabulary (edm)【15】
9. ISBD elements (isbd)【13】；WGS84 Geo Positioning (geo)【13】
10. BIBFRAME Vocabulary (bf)【15？】
11. Expression of Core FRBR Concepts in RDF (frbr)【链接2005非官方版】【11】
– 许可：26个项目未宣布明确的许可，同样数量采用CC0 1.0。
– 可访问性：在74个发布关联数据的项目中，19个目前不能在机构外访问【超过1/4】。其他大多数提供多种（访问）方法。最通用的方法是网页，其后依次是：内容协调、文件转储、SPARQL端点、SPARQL编辑器和应用。
– 序列化：最通用的是RDF/XML，其他依次是：Turtle, JSON-LD, N-Triples, RDFa Core, RDF/JSON, Notation3 和 N-Quads。
– 技术：形形色色，最常使用多种技术。见表4。
– 障碍：发布关联数据的主要障碍依次是：
1、员工的陡峭学习曲线
2、选择适当的本体以表达数据
3、建立链接
4、对如何建立系统鲜有文档或建议【缺少先例】
5、缺少工具
6、不成熟的软件
7、弄清谁拥有数据【版权】
其他障碍：限制性许可，资源不足，数据集太大不能作为整体发布（且难以供他方消费），机构支持不足，适应当前关联数据技术的基础结构。

——— 消费的关联数据 ———
– 消费资源：2015年调查被12个及以上项目消费的依次是（星号来自参与调查机构）
1、VIAF *
2、DBpedia
3、GeoNames
4、id.loc.gov *
5、自己转换为关联数据的资源
6、AAT *
7、FAST关联数据 *
8、WorldCat.org *
9、data.bnf.fr *
10、DNB德国国家图书馆关联数据服务 *
从被消费看，以上可视为成功的关联数据发布方。参加调查的图书馆消费其他来源时，总体上选择图书馆领域的来源而不扩展到非图书馆来源，DBPeida和GeoNames是两个例外。
– 障碍：消费关联数据的主要障碍依次是：
1、匹配、消歧和校准来源数据及关联数据资源
2、映射词表
3、发布为关联数据的，不总是可重用的或者缺少URI
4、缺少规范控制
5、数据集不更新
6、RDF存储的大小；使用前了解数据如何结构化的
7、存储的数据格式的波动性
8、缺少工具；端点不稳定
9、难以让其他机构做对象与概念之间的协调；服务可靠性
10、难以跨语言术语消歧
其他障碍：许可比ODC-BY更限制，机构把关联数据当作研究项目而非基础结构，本地感兴趣的关联数据集数量不足，API限制，结合消费关联数据到日常工作流程的资源不足。

——— 项目实例（按机构类型）———
– 国家图书馆：16个国家图书馆项目，美国、法国、德国居12个消费最多项目之列。
英国国家书目的SPARQL Query Viewer（图1）
德国国家图书馆的4个项目：国家书目，德国集成规范档GND，BIBFRAME原型，实体事实（图2）
日本国会图书馆的5个项目：书目数据、规范数据、日本图书馆和相关组织的国际标准标识符ISIL、有关2011年关东大地震的集成资源、日本十进分类法
– 网络：
美国数字公共图书馆DPLA
欧洲Europeana
德国北莱茵威斯特伐利亚图书馆服务中心(hbz）：发布最大关联数据集之一（10-15亿三元组），其关联开放数据API提供访问hbz联合目录的2000万书目记录及4500万馆藏，德国集成规范档（GND），以及图书馆地址数据（来自图书馆及相关组织德国国际标准标识符注册库ISIL）。
OCLC：发布抽取自自MARC记录和图书馆规范档的200亿RDF三元组，是世界上最大的图书馆集成关联数据资源，其中FAST、VIAF和WorldCat居2015年调查10个最高关联数据来源。
– 高校图书馆：大部分高校馆的关联数据项目是实验性质的
– 公共图书馆：很少公共馆参与调查，仅2个有项目运行中，其一是【Zepheira公司】LibHub项目的早期采用者；另一是奥斯陆公共图书馆，转换MARC目录为RDF关联数据，用外部收割来的信息强化，由SPARQL更新查询构建，挪威图书馆所写书评集链接到书目数据。
– 博物馆：很少博物馆参与调查
– 学术项目【由原始资料转换为结构化数据、生成三元组】
Dalhousie University’s Institute for Big Data Analytics：集成全世界一战档案中数据。从数字化文献中抽取数据，转换为可支持进一步研究的结构化数据库
Pratt Institute’s Linked Jazz project：“关联爵士乐”项目：从5个爵士乐档案的访谈文字内容生成三元组，即从数据而非转换现有元数据。（参见：BIBFRAME试验项目培训资料）
Nomisma：美国钱币学会主持的国际协作项目，提供钱币术语和标识符的关联数据叙词表。
– 出版社
斯普林格是唯一参与调查的出版社。正把科学会议数据，以LOD提供关于出版物、作者、论题和会议的信息，方便探索、促进分析作者、研究机构和会议的生产力和影响。

参见：
hangingtogether.org: More on international linked data survey for implementers (2016-7-11) by Karen Smith-Yoshimura
圖書館觀點：全球關聯數據(Linked Data) 實施情況（2016-8-1）

WorldCat 45周年 & OCLC API访问每天300万

上月OCLC的WorldCat庆祝了它的45周年。1971年8月26日，当时名为OCLC联机联合目录的WorldCat在那天接受了来自俄亥俄大学编目员联机编目的133种图书。45年后，WorldCat已收录3.8亿多条记录、涉及世界各国图书馆24亿多件馆藏。资料类型包括图书、连续出版物、乐谱、地图、录音、视频资料、DVD、计算机文档、电子书、数字资源、混合资料等，涉及491种语言文字，其中62%为非英语。看WorldCat记录实时增长（Watch WorldCat Grow），最近加入的是哪条记录，哪个机构上传？

也是在上月，OCLC的API每天点击超过了300万。OCLC在2003年开始Open WorldCat项目，试验结束时每天的点击是4千，已被认为相当成功。之后OCLC开始提供API，目前有十多种，超过4500机构个人申请了API Key，用这些API开发的应用超过了100种。
用得最多的是WorldCat Search API，有超过50种应用，使用机构超过500家，贡献了约一半的点击。
现在甚至可以通过API，用手机向WorldCat提交简编记录，这就是供非馆员使用的Bib It，采用的是WorldCat Metadata API。

Bib It

相关：
OCLC News release: Celebrating 45 years of WorldCat (DUBLIN, Ohio, 26 August 2016)
Next: 3 million knocks on library doors every day (2016-8-3)
参见：OCLC的Open WorldCat计划（2004-10-28）

——— OCLC的Web Service一览（Gallery） ———
– Article Exchange API
– Classify
– FAST API
– OpenURL Gateway
– QuestionPoint knowledge base API
– Terminology Services
– VIAF API
– WMS Acquisitions API
– WMS Collection Management API
– WorldCat Basic API
– WorldCat Discovery API
– WorldCat Identities
– WorldCat Metadata API
– WorldCat Recommender Service
– WorldCat Registry
– WorldCat Search API
– WorldCat knowledge base API
– xID API