2018年国际关联数据实施者调查

OCLC研究部在2014和2015年进行了2次关联数据实施者调查,调查结果都曾公布,原始数据(除联系信息)也在网站提供(Results of Linked Data Surveys for Implementers, 2014 & 2015)。
参见:
OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)
关联数据应用现状:2015国际关联数据实施者调查的分析(2016-9-4)

目前,OCLC研究部正进行2018年国际关联数据实施者调查(International Linked Data Survey for Implementers 2018),调查对象是已经实施或正在实施关联数据项目或服务的工作人员,可以是将数据发布为关联数据、也可以是将关联数据资源摄入自己的数据或应用程序中。项目可以是未参加过先前调查的、也可以报告先前实施项目的变化。截止日期为2018年5月25日
调查内容略多,虽然不是所有问题都必填,还是需要对项目各方面有比较全面深入的了解。好在填写时不需要一次性完成,也不限当天,只要是同一台电脑、同一个浏览器,在点击最后的“Done”提交前,都可以用“Prev”“Next”修改填写内容。
希望这次能够看到国内的关联数据项目参与调查

面向采编人员的R入门在线课程

看到美国ALCTS(图书馆馆藏与技术服务协会,Association for Library Collections and Technical Services)开设面向采编人员的R入门课程,不禁有点好奇:采编也要用R语言了?显然,做采编并不是只要会下订单、会编MARC记录,还需要对手头丰富的数据进行有效处理,用数据说话。

Introduction to R for Libraries

* 课程说明:
图书馆现在可以访问丰富的数据,反映我们的馆藏、用户和服务的多个方面。示例包括从ILS中提取的馆藏数据、电子书和数据库使用数据、大学入学数据和本地用户人口统计数据。这些数据通常很大、不整齐并且难以在传统的电子表格软件中使用。
“R”是用于数据处理、分析和可视化的免费开源编程语言。它比电子表格软件更强大、更灵活,可以在很短的时间内运行复杂的操作。本系列将对在R Studio软件环境中使用R处理数据进行软性介绍。参与者将学习如何使用R Studio,读入和探索数据集,了解错误消息,执行一些简单的操作,如取子集和重命名,并创建一个基本的可视化。

* 学习成果:
本次网络研讨会系列探究R所做的工作以及如何在R环境中进行导航,并将包括R语法的基础知识,理解R Studio中不同窗格的用途,理解错误消息并获得帮助。
参与者将学习如何阅读数据集并对其进行一些基本探索。他们将运行一个非常简单的子集操作,并创建一个简单的条形图。它将包括一个电子书使用情况的训练数据集和一些随机生成的使用统计数据,以帮助语境化和加强使用R的优势。

* 课程对象:
那些将数据作为其工作核心部分的人员。这可能包括连续出版物馆员、编目馆员、档案管理员和馆藏发展馆员。

* 注册费
课程分3次,每次1小时(2018年5月9日、23日、30日),收费依会员/非会员分别是$43/59(单次)和$103/142(全部)。

如名称所示,这是个初步入门课程。折合成RMB价格不便宜,想学的话,或可以到MOOC里去找免费课程?
在中文平台(学堂地线、中国大学MOOC、网易公开课)没有找到入门课,多是结合统计的课程。Coursera里也只查到约翰霍普金斯大学开设的R编程(R Programming),是“数据科学”专项课程之2。
查了下3年前的学习笔记,此部分主要讲编程思路,不是R入门。但“数据科学”专项中前几门课并没有深入到统计部分,本身也是很好的R入门,尤其是课程引入的RStudio中的swirl包确实是交互学习R的好工具。而且,前4门课有中文字幕。值得再推荐一次:
Coursera专项课程《数据科学》(Data Science

参见:MOOC《数据科学》学习体验(2015-6-28)

BIBFRAME扩展:bibliotek-o(及ArtFrame和RareMat)

LC的BIBFRAME开发仍在进行中,美国研究者已经开始对其进行扩展。保持核心词表含最基本术语,其他制定专门扩展,schema.org的这种做法应该也会被LC采用吧。
安德鲁梅隆基金资助的LD4L系列项目(LD4L,LD4P,LD4L Labs),其中2016-2018的2项很重要的一部分工作,就是对BIBFRAME词表/本体进行扩展。项目都在GitHub上。
去年LD4L-labs和LD4P已经发布BIBFRAME基本扩展bibliotek-o。目前LD4P在做艺术和珍本资料方面的扩展(Art and Rare Materials BIBFRAME Ontology Extension),包括:
ArtFrame:哥伦比亚大学与北美艺术图书馆学会编目咨询委员会 (ARLIS CAC) 协作,针对二维和三维艺术作品的描述
RareMat (Rare Materials Ontology Extension):康奈尔大学与大学与研究图书馆协会珍本图书与手稿部书目标准委员会 (RBMS-BSC) 协作,对复杂的珍本资料建模,提供BIBFRAME中未涉及的单件级描述。

已经完成的bibliotek-o,最新版本是2017.7.6发布的1.1.0 ,有独立域名:bibliotek-o.org:
bibliotek-o: a BIBFRAME Ontology Extension
bibliotek-o在类、属性和取值上都有扩展,包括直接采用BIBFRAME之外的其他词表/命名的类(如foaf、dcterms、prov、oa等),作为定义域和值域:

——— 类 classes ———
大量新增类,共计261个,大致可归为以下几种:
– 题名【补齐245子字段、246字段第2指示符对应元素,有些BIBFRAME本身可能增加 】
bf:Title:新增5个子类:Abbreviated title, Concise title, Distinctive title, Key title, Parallel title
新增部分题名类:Title element,及5个子类:Main title element, Non-sort element, Part name element, Part number element, Subtitle element
新增题名来源:Origin(见下“取值)
– 可访问性【残障使用友好】
bf:Content accessibility:新增2个子类及子子类:Accessibility feature(31子类), Accessibility hazard(6子类)
– 载体类型【由取值词表变成类】
bf:Instance:新增17个子类(+57子子类,交叉去重实际40个):Belt,Card,Cartridge,Cylinder,Disc,Film,Flip chart,Microform,Overhead transparency,Projected,Reel,Roll,Sheet,Slide,Tape,Video,Volume
bf:Electronic:新增6个子类(3个多重上位类):Computer card,Computer chip,Computer tape cartridge(重复),Computer tape cassette(重复),Computer tape reel(重复),Online resource
– 标识符【将OCLC控制号从bf:Local中独立出来】
bf:Identifier:新增1个子类:OCLC identifier
– 内容类型【由取值词表变成类;计算机程序从文本中独立出来】
bf:Audio:新增3个子类:Performed music,Sounds,Spoken word
bf:Text:新增1个子类:Source code
– 作品【内容类型?】
bf:Work:新增3个子类:Software,Stereograph(影像图),Tactile
– 活动【大量增加】
新增:Activity,及140个子类:Abridger,Acquisition,Actor……Creator【多为各种责任者】
新增:Meeting(上位类:foaf:agent, schema:event)【会议作为活动】

——— 属性 object properties———
新增互逆属性21个、13对(有些直接用已有词表,有些无逆属性),前后括号内分别为定义域、值域:
题名:(bf:Title)is title of/bf:title
首选题名:has preferred title(bf:Title)/is preferred title of
题名来源:has origin
行动者:has agent(foaf:agent)/is agent of
活动:has activity(Activity)/is activity of
授予:granted by(foaf:agent)/grants
位置:at location(prov:Location)/is location of
使用对象:is target of(oa:Annotation)/oa:hasTarget
主题:is subject of/dct:subject
范围:covered in/covers
封面:has cover art
来源:has source/is source of
拥有:(bf:Item)held by(foaf:agent)/holds

——— 取值 named individuals ———
新增取值30个,用于4个类:
– 题名来源:Origin,9个(added title page、binder、caption……)
– 动机/目的:oa:Motivation,15个(cataloging、describing supplementary content、linking table of contents……)
– 状态:bf:Status,4个(current、deprecated、invalid、status)
– 投影特征:bf:ProjectionCharacteristic,2个(three dimensional projection characteric、two dimensional projection characteristic)

参见:
LD4P : un « grand soir » pour les bibliothèques américaines ? (03/05/2017)
面向机器应用的RDA(2018ALA仲冬会议上的RDA-续)(2018-2-24)
重量级图书馆关联数据项目LD4P获得资助(2016-5-10)