LC提供2500万书目记录免费批下载(附LC在Library.Link)

2017年5月,美国国会图书馆(LC)宣布免费提供2500万条书目记录批下载。时间段为1968-2014年,应该就是2014年前LC制作的所有MARC记录。很多年前LC的书目记录就可以通过Z39.50逐条获取,但批量数据以前是付费订购的。虽说“主要供研究与开发利用”(MARC Open-Access),但因为并未限制使用目的,估计很多书目服务商听到消息第一时间就去下载备用了。
根据LC网站的 MARC Distribution Services (data set) 网页上的FAQ说明,本次免费提供的数据截止到2013年12月,以后可能每年更新。订购数据则更及时,目前截止2015年12月底,同时提供每日、每周更新。
开放MARC数据的目的是希望书目数据得到原有目的之外的、更广泛的利用。LC采访与书目访问部主任Beacher Wiggins在报道中说:“为了更有效的信息分享、更方便可视化与其他不可预知的分析,我们希望社会科学家、数据分析师、开发者、统计学者及其他人在工作中使用数据,对大数据集做创新工作,强化新知识的学习与生成”。
via Fortune: The Library of Congress Just Made 25 Million Records Available for Free (2017-5-17)

——— Library.Link中的LC书目数据 ———
今天看到Library.Link中,对LC书目记录经关联数据转换后发布。LC宣布开放数据是2017-5-17,数据被载入Library.Link是2017-6-12,发布是2017-6-15,可谓反应迅速。不知道是不是最早的公开发布应用。
关于Library.Link,参见:2016 ALA年会BIBFRAME更新论坛(2016-8-27)

LOC.Library.Link
LC像其他加入Library.Link的图书馆一样,有一个主页。如果有帐号,可以看访问统计。
右栏是“资源”,即由MARC记录转化后的Bibfra.me类(共16个)及数量,字顺排列:
Agent 2338223
Collection 667912 (由相关题名字段转换而来?)
Concept 6546780
CopyrightEvent 564
Family 25860
Form 9336
Instance 12898932
Meeting 228118
Organization 1200225
Person 4891149
Place 634135
ProviderEvent 6005730
Series 958273
Temporal 8906
Topic 303503
Work 13649505

每次在新形态下看发布的书目数据,总不免看到一些原本埋没着不知道的原始数据错误,如以前看分面OPAC,现在看关联数据。选择“个人”随意浏览,本当为人名,但排序在前几页的都是非字母开头的(标点符号、数字),有些可能是非拉丁字母转化的字符问题,还有相当部分应该是原始数据有问题。
比如有个”16 juli 1993″,根据题名返回到LC目录查原记录,LCCN=94124897(https://lccn.loc.gov/94124897),果然有:
7001_ |a “16 juli 1993.”
本书1993年出版,可能把500误作700了。

接下来还有不少以冠词A起始的,很有意思,比如:A 1st class boy, A British officer, A Californian, A lady of this city …
比如:A lady of this city
LC目录中查到原记录LCCN=16009701(https://lccn.loc.gov/16009701)
245 04 $a The life of the beautiful and accomplished danseuse, Mademoiselle Fanny … $c … Selected and comp. by a lady of this city.
700 0# $a A lady of this city.
原来还有这样直接用题名页上称呼做个人名称检索点。

IFLA关联技术分委员会公开征求委员

IFLA标准委员会(IFLA Committee on Standards)下属关联技术分委员会(Linked Data Technical Sub-Committee, LIDATEC) )现正寻找热心者参与。分委会的主要工作是对IFLA命名空间的维护与管理,目前IFLA已经发布了FRBR家族、ISBD和UNIMARC三个词表。
本分委会至多由7人组成,全志愿,主要在线工作;每年IFLA年会碰一次面,注册费有优惠。
申请截止期为2017年6月30日,发送邮件到 elections@ifla.org,提供姓名、所属机构,并简单描述个人背景,以及与关联数据和RDF相关的专长(约250词)。
分委会成员将在7月确定,希望入选者能参加8月在波兰举行的IFLA年会。

Via IFLA Committee on Standards News. Call for nominations for the Linked Data Technical Sub-committee / By Joanne Yeomans (9 June 2017)

Code4Lib Journal 十周年

code{4}lib

Code4Lib 是图书馆程序员组成的志愿者集体,从2003年秋天邮件讨论组开始,经历并保持着邮件组、聊天室、博客、各种社交网络、面对面会议(2005年开始的年会)以及编辑一份在线期刊——Code4Lib Journal。

Code4Lib Journal (ISSN 1940-5758)
本刊为季刊,2007-12-17发布第1期,今年是十周年。其宗旨是:在对图书馆、技术与未来交叉点感兴趣者中培育社区、共享信息。
2017年4月20日出版的第36期,编辑 Peter E. Murray 回顾了期刊的十年:
Editorial: Reflecting on the success and risks to the Code4Lib Journal
作为开放获取的在线期刊,本刊既不收版面费也不付稿费,十年累计网页浏览150万(来自中国的不少),标签云显示前35期333篇文章的关注热点:数据,数字,开放,元数据……。

该刊文章特别具有时效性,反映当前图书馆的技术热点。第36期文章概要如下:
Linked Data is People: Building a Knowledge Graph to Reshape the Library Staff Directory / Jason A. Clark and Scott W. H. Young
蒙大拿州立大学图书馆,采用 schema.org 发布员工名录,改善SEO,同时以可视化方式展示馆员的专长、学科领域及与其他馆员的关系。【可视为试手用schema.org发布关联数据】

Recommendations for the application of Schema.org to aggregated Cultural Heritage metadata to increase relevance and visibility to search engines: the case of Europeana / Richard Wallis, Antoine Isaac, Valentine Charles, and Hugo Manguinhas
建议采用 schema.org 集成 Europeana 的文化遗产元数据,以增加对搜索引擎的相关性与可见性。【第1作者Richard Wallis当年曾致力于Schema.org的图书馆扩展】

Autoload: a pipeline for expanding the holdings of an Institutional Repository enabled by ResourceSync / James Powell, Martin Klein and Herbert Van de Sompel
洛斯阿拉莫斯国家实验室的机构库LARO,只收到10%全文。通过“资源同步”(ResourceSync)标准,结合机构库Solr索引曝光元数据,自动发现未收的内容。原型 solrSync 应用,使用 Python 的 resync 库。

Outside The Box: Building a Digital Asset Management Ecosystem for Preservation and Access / Andrew Weidner, Sean Watkins, Bethany Scott, Drew Krewer, Anne Washington, Matthew Richardson
休斯顿大学图书馆,2015年承诺升级数字文化遗产馆藏的数据为开源保存与获取系统。使用关联数据词表管理器 Cedar:基于DPLA MAP(美国数字公共图书馆元数据应用纲要)的本地 SKOS 词表。

Medici 2: A Scalable Content Management System for Cultural Heritage Datasets / Constantinos Sophocleous, Luigi Marini, Ropertos Georgiou, Mohammed Elfarargy, Kenton McHenry
文化遗产数据集内容管理系统“美第奇2”:项目由NCSA、亚历山大图书馆、塞浦路斯学院合作开发,属于欧洲项目“欧洲和东地中海2 关联科学计算”,得到以下机构资助:美国国家科学基金NSF、美国档案与记录管理局NARA、美国国立卫生研究院NIH、美国国家人文基金会NEH、美国海军研究所ONR、美国环境保护署EPA及其他私营机构。【如此多公共基金资助,应当免费吧?不知道哪里可下载】

An Interactive Map for Showcasing Repository Impacts / Hui Zhang and Camden Lopez
显示机构库影响的交互地图。使用Google Analytics,近乎实时的机构库实际访问可视化,显示浏览或下载的城市,以及题名、到该页面的超链接。