关联数据 – 第 18 页 – 编目精灵III

IFLA关联技术分委员会公开征求委员

IFLA标准委员会（IFLA Committee on Standards）下属关联技术分委员会（Linked Data Technical Sub-Committee, LIDATEC) ）现正寻找热心者参与。分委会的主要工作是对IFLA命名空间的维护与管理，目前IFLA已经发布了FRBR家族、ISBD和UNIMARC三个词表。
本分委会至多由7人组成，全志愿，主要在线工作；每年IFLA年会碰一次面，注册费有优惠。
申请截止期为2017年6月30日，发送邮件到 elections@ifla.org，提供姓名、所属机构，并简单描述个人背景，以及与关联数据和RDF相关的专长（约250词）。
分委会成员将在7月确定，希望入选者能参加8月在波兰举行的IFLA年会。

Via IFLA Committee on Standards News. Call for nominations for the Linked Data Technical Sub-committee / By Joanne Yeomans (9 June 2017)

Code4Lib Journal 十周年

Code4Lib 是图书馆程序员组成的志愿者集体，从2003年秋天邮件讨论组开始，经历并保持着邮件组、聊天室、博客、各种社交网络、面对面会议（2005年开始的年会）以及编辑一份在线期刊——Code4Lib Journal。

Code4Lib Journal (ISSN 1940-5758)
本刊为季刊，2007-12-17发布第1期，今年是十周年。其宗旨是：在对图书馆、技术与未来交叉点感兴趣者中培育社区、共享信息。
2017年4月20日出版的第36期，编辑 Peter E. Murray 回顾了期刊的十年：
Editorial: Reflecting on the success and risks to the Code4Lib Journal
作为开放获取的在线期刊，本刊既不收版面费也不付稿费，十年累计网页浏览150万（来自中国的不少），标签云显示前35期333篇文章的关注热点：数据，数字，开放，元数据……。

该刊文章特别具有时效性，反映当前图书馆的技术热点。第36期文章概要如下：
Linked Data is People: Building a Knowledge Graph to Reshape the Library Staff Directory / Jason A. Clark and Scott W. H. Young
蒙大拿州立大学图书馆，采用 schema.org 发布员工名录，改善SEO，同时以可视化方式展示馆员的专长、学科领域及与其他馆员的关系。【可视为试手用schema.org发布关联数据】

Recommendations for the application of Schema.org to aggregated Cultural Heritage metadata to increase relevance and visibility to search engines: the case of Europeana / Richard Wallis, Antoine Isaac, Valentine Charles, and Hugo Manguinhas
建议采用 schema.org 集成 Europeana 的文化遗产元数据，以增加对搜索引擎的相关性与可见性。【第1作者Richard Wallis当年曾致力于Schema.org的图书馆扩展】

Autoload: a pipeline for expanding the holdings of an Institutional Repository enabled by ResourceSync / James Powell, Martin Klein and Herbert Van de Sompel
洛斯阿拉莫斯国家实验室的机构库LARO，只收到10%全文。通过“资源同步”（ResourceSync）标准，结合机构库Solr索引曝光元数据，自动发现未收的内容。原型 solrSync 应用，使用 Python 的 resync 库。

Outside The Box: Building a Digital Asset Management Ecosystem for Preservation and Access / Andrew Weidner, Sean Watkins, Bethany Scott, Drew Krewer, Anne Washington, Matthew Richardson
休斯顿大学图书馆，2015年承诺升级数字文化遗产馆藏的数据为开源保存与获取系统。使用关联数据词表管理器 Cedar：基于DPLA MAP（美国数字公共图书馆元数据应用纲要）的本地 SKOS 词表。

Medici 2: A Scalable Content Management System for Cultural Heritage Datasets / Constantinos Sophocleous, Luigi Marini, Ropertos Georgiou, Mohammed Elfarargy, Kenton McHenry
文化遗产数据集内容管理系统“美第奇2”：项目由NCSA、亚历山大图书馆、塞浦路斯学院合作开发，属于欧洲项目“欧洲和东地中海2 关联科学计算”，得到以下机构资助：美国国家科学基金NSF、美国档案与记录管理局NARA、美国国立卫生研究院NIH、美国国家人文基金会NEH、美国海军研究所ONR、美国环境保护署EPA及其他私营机构。【如此多公共基金资助，应当免费吧？不知道哪里可下载】

An Interactive Map for Showcasing Repository Impacts / Hui Zhang and Camden Lopez
显示机构库影响的交互地图。使用Google Analytics，近乎实时的机构库实际访问可视化，显示浏览或下载的城市，以及题名、到该页面的超链接。

MARC数据转换为RDF流程：芬兰国家图书馆实践

GitHub上芬兰国家图书馆的 bib-rdf-pineline ，包含各种脚本和配置，供转换MARC书目记录为RDF，对有意实施类似项目者当有不少参考价值。
芬兰国家图书馆的关联数据采用Schema.org，以BIBFRAME作为转换MARC格式的中间步骤。如果直接采用BIBFRAME，步骤当可简化，而汇集“作品”的部分必然会有所不同。
翻译repo中的README文件中的转换步骤备记：

1、ILS系统导出的全部MARC记录文件
2、分割为较小的批处理文件
3、使用unix工具（如grep和sed）除去MARC记录中本地特殊内容
4、使用Catmandu转换为MARCXML并强化MARC记录
5、运行LC的 marc2bibframe2 转换MARC为BIBFRAME的RDF
6、计算”作品“键（如：作者+题名组合），供后续合并相同创作作品的数据
7、转换BIBFRAME数据为Schema.org的RDF，N-Triples格式
8、按相同作品合并Schema.org数据
9、转换原始Schema.org数据为HDT格式，如此完整数据集可通过命令行用SPARQL查询
10、统一数据，如通过重写URI，把主题移到原始作品
11、转换统一后的数据为HDT
12、（待续）
13、获益！

查了下其中提到的另外两个陌生的名词：Catmandu、HDT，附后。

关于marc2bibframe2，参见：MARC到BIBFRAME 2.0转换工具：使用报告（2017-3-24）

——— Catmandu数据处理工具 ———
Catmandu：命令行工具，从数字图书馆、研究服务或任何其他开放数据集，访问和转换数据。
性能：
– 通过多种协议下载数据，包括：OAI-PMH, SRU, SPARQL 和 Linked Data Fragments
– 转换格式，如：MARC, MODS, Dublin Core 等等
– 生成 RDF，说语义网的语言
– 索引数据到数据库如：Solr, Elasticsearch 和 MongoDB
– 使用简单的 Fix 语言，转换元数据为任何格式

——— HDT格式 ———
HDT (Header, Dictionary, Triples) 头标、词典、三元组
RDF的紧凑数据结构和二进制序列化格式，压缩大数据集以节省空间，同时维持查询和浏览操作而无需预先解压缩。是在Web上存储和共享RDF数据集的理想格式。