WorldCat 45周年 & OCLC API访问每天300万

上月OCLC的WorldCat庆祝了它的45周年1971年8月26日,当时名为OCLC联机联合目录的WorldCat在那天接受了来自俄亥俄大学编目员联机编目的133种图书。45年后,WorldCat已收录3.8亿多条记录、涉及世界各国图书馆24亿多件馆藏。资料类型包括图书、连续出版物、乐谱、地图、录音、视频资料、DVD、计算机文档、电子书、数字资源、混合资料等,涉及491种语言文字,其中62%为非英语。看WorldCat记录实时增长(Watch WorldCat Grow),最近加入的是哪条记录,哪个机构上传?

也是在上月,OCLC的API每天点击超过了300万。OCLC在2003年开始Open WorldCat项目,试验结束时每天的点击是4千,已被认为相当成功。之后OCLC开始提供API,目前有十多种,超过4500机构个人申请了API Key,用这些API开发的应用超过了100种。
用得最多的是WorldCat Search API,有超过50种应用,使用机构超过500家,贡献了约一半的点击。
现在甚至可以通过API,用手机向WorldCat提交简编记录,这就是供非馆员使用的Bib It,采用的是WorldCat Metadata API。

Bib It

相关:
OCLC News release: Celebrating 45 years of WorldCat (DUBLIN, Ohio, 26 August 2016)
Next: 3 million knocks on library doors every day (2016-8-3)
参见:OCLC的Open WorldCat计划(2004-10-28)

——— OCLC的Web Service一览Gallery) ———
– Article Exchange API
– Classify
– FAST API
– OpenURL Gateway
– QuestionPoint knowledge base API
– Terminology Services
– VIAF API
– WMS Acquisitions API
– WMS Collection Management API
– WorldCat Basic API
– WorldCat Discovery API
– WorldCat Identities
– WorldCat Metadata API
– WorldCat Recommender Service
– WorldCat Registry
– WorldCat Search API
– WorldCat knowledge base API
– xID API

Schema.org 3发布(附:书目扩展和旅馆业词表)

Schema.org在2011-6-2首次发布(0.X版),2013-4-5发布1.0a版,2015-5-12发布2.0版,2016-5-4发布3.0版
3.0版包括了正式版(Finalized first release)汽车扩展和书目扩展,这是托管扩展的首次正式发布。对书目扩展来说,这应该是很重要的消息,但其W3C社区wiki上最新信息仍停留在一年前,最相关的是2015年6月24日宣布bib.schema.org。

3.0版同时新增3个扩展:元扩展、待定扩展和健康-生命科学扩展。
– 元扩展(meta.schema.org):用于schema.org本身(2个类:类、属性;5个属性:类别、定义域、值域、反向属性、替代)
– 待定扩展(pending.schema.org):收录未批准术语,其中术语可能被接受、也可能有变化,使用需谨慎。
– 健康-生命科学扩展(health-lifesci.schema.org):这是个庞大的扩展,目前有99个类、179个属性、149个取值词表。
核心词表中医学/健康相关术语移入此扩展。这应该是首次对核心词表做某种程度的瘦身(参见:Schema.org: Web上结构化数据的演变(笔记),发布时297个类、187个关系,四年后增加至638个类、965个关系)。

2016-8-9发布的3.1版对旅馆相关词表(hotel/accomodation vocabulary)做了较多增补。网站上还有一个专门网页(Markup for Hotels),详述住宿行业如何在旅馆、房间、订单三个层次使用schema.org。样例所用描述旅馆的元素基于STI Accommodation Ontology

via schema blog: schema.org update: hotels, datasets, “health-lifesci” and “pending” extensions… (AUGUST 9, 2016)

——— 附:书目扩展与OCLC ———
书目扩展(Finalized first release)
Comics Types (5)
ComicCoverArt, ComicIssue, ComicSeries, ComicStory, CoverArt
Comics Properties (7)
artist, colorist, inker, letterer, penciler, publisherImprint, variantCover
Comics Enumeration values (1)
GraphicNovel

Types (6)
Atlas, Audiobook, Chapter, Collection, Newspaper, Thesis
Properties (11)
abridged, duration, inSupportOf, pageEnd, pageStart, pagination, publishedBy, readBy, translationOfWork, translator, workTranslation

对照书目扩展(Final review),正式版把漫画部分抽出来单列(参见:Schema.org扩展机制(及汽车&书目扩展),2016-2-18)。
与OCLC最初设想的“Schema.org的图书馆扩展”(2012-6-22)相比,现在的版本少了很多内容。部分原因可由“解惑Schema书目扩展”(2014-1-29)得知。
OCLC等不及官方扩展,在Schema.org 2.0版宣布可以有外部扩展前,自己弄了个定制版(参见:OCLC低调注册BiblioGraph.net扩展Schema.org,2014-12-1),目前为BiblioGraph.net Version 1.1(2015-2-16发布)、基于Schema.org Version 1.93(2015-02-04发布),之后未同步更新
经初步比对类,其中包括Schema.org书目扩展中的4个类:Atlas,Chapter,Newspaper,Thesis。

扩展阅读:私人定制版Schema.org(2016-2-18)

研究数据管理元数据(附OCLC研究报告《搭积木:为研究数据管理项目奠定基础》)

由于众多研究资助机构要求受助者让数据可公共获取,研究数据管理(RDM,数据监护Data Curation的近义词)在欧美相当受重视,一些图书馆开始主动寻求满足研究者在这方面的需求。OCLC研究部2016年4月13日发布研究报告《搭积木:为研究数据管理项目奠定基础》,为高校启动研究数据管理项目提供指引。从初级的提供信息(第1部分)到实际推出服务(第2部分),报告提供了大量参考资料,包括各机构实施样例与可用资源。

研究数据管理中离不开元数据。“数据只有在可被理解时才是有用的。鼓励研究者提供有关其数据的结构化信息,提供情景与含义,让其他人查找、使用并适当引用数据。至少建议研究者清楚告知他们的故事:如何收集和使用数据、为什么目的。这样的信息最好放在readme.txt文件中,并包含项目信息、项目级元数据,以及有关数据本身的元数据(如文件名、文件格式、所用软件、题名、作者、资助者、版权所有者、描述、关键词、观察单元、数据种类、数据类型和语言)。”(第8页)
对研究者来说,提供元数据可能是个负担,也需要获取帮助——对图书馆来说,就是提供培训;在实施阶段,也包括代研究者做质量控制与清洗。

本报告“元数据”提供的参考资料,包括如何撰写、可用工具、元数据标准清单:
• Cornell University. “Guide to Writing ‘readme’ Style Metadata.” 康奈尔大学(准备元数据文档)
• DMPTool. “Data Management General Guidance: Metadata Data Documentation.” (元数据文档制作工具)
• DCC. “Disciplinary Metadata.”  (英国)数据监护中心:学科元数据一览(生物、地球科学、通用研究数据、物理学、社会与人文科学)
• Research Data Alliance (RDA). “Metadata Directory.” 研究数据联盟:元数据标准目录(艺术与人文科学、工程、生命科学、物理学和数学、社会和行为科学、通用研究数据)

元数据中有“唯一标识符”,包括个人ID、数据集ID及数据集的引用格式,可用于追踪下载、引用及影响测度。数据集有DOI、Handle、ARK(档案资源键),个人有ORCID和ISNI(没提ResearcherID),相关参考资料:
• California Digital Library, University of California Curation Center. “EZID.” 加州数字图书馆、加州大学监护中心:EZID(有偿提供DOI和ARK创建与维护,每年300-2500美元不等)
• International DOI Foundation. “DOI Registration Agencies.”
• ORCID, Inc. “Register for ORCID ID.”  个人ID(开放研究者与贡献者ID)
• ISNI International Agency. “Do you have an ISNI?” 个人ID(国际标准名称标识符)
• DataCite. https://www.datacite.org/

via hangingtogether.org: Metadata for research data management / Karen Smith-Yoshimura (2016-4-18)

——— 搭积木:为研究数据管理项目奠定基础 ———
Erway, Ricky, Laurence Horton, Amy Nurnberger, Reid Otsuji, and Amy Rushing. Building Blocks: Laying the Foundation for a Research Data Management Program. Dublin, Ohio: OCLC Research, 2016.

第1部分:打下基础
需求评估
提供信息(培训,数据管理规划,活动数据管理,元数据,权利与隐私,数据发布、保存与存档)
通告、推广与宣传
第2部分:建立与推出
需求评估(单位、研究者)
定义政策、指南与策略
提供服务(培训,数据管理规划,活动数据管理,元数据,数据发布、保存与存档)
通告、推广与宣传(社区参与与告知,在线呈现,合作发展)

参见荔园图志:OCLC Research发布“建立科研数据管理新基础”的报告 (2016-6-1)