Code4Lib Journal 十周年

code{4}lib

Code4Lib 是图书馆程序员组成的志愿者集体,从2003年秋天邮件讨论组开始,经历并保持着邮件组、聊天室、博客、各种社交网络、面对面会议(2005年开始的年会)以及编辑一份在线期刊——Code4Lib Journal。

Code4Lib Journal (ISSN 1940-5758)
本刊为季刊,2007-12-17发布第1期,今年是十周年。其宗旨是:在对图书馆、技术与未来交叉点感兴趣者中培育社区、共享信息。
2017年4月20日出版的第36期,编辑 Peter E. Murray 回顾了期刊的十年:
Editorial: Reflecting on the success and risks to the Code4Lib Journal
作为开放获取的在线期刊,本刊既不收版面费也不付稿费,十年累计网页浏览150万(来自中国的不少),标签云显示前35期333篇文章的关注热点:数据,数字,开放,元数据……。

该刊文章特别具有时效性,反映当前图书馆的技术热点。第36期文章概要如下:
Linked Data is People: Building a Knowledge Graph to Reshape the Library Staff Directory / Jason A. Clark and Scott W. H. Young
蒙大拿州立大学图书馆,采用 schema.org 发布员工名录,改善SEO,同时以可视化方式展示馆员的专长、学科领域及与其他馆员的关系。【可视为试手用schema.org发布关联数据】

Recommendations for the application of Schema.org to aggregated Cultural Heritage metadata to increase relevance and visibility to search engines: the case of Europeana / Richard Wallis, Antoine Isaac, Valentine Charles, and Hugo Manguinhas
建议采用 schema.org 集成 Europeana 的文化遗产元数据,以增加对搜索引擎的相关性与可见性。【第1作者Richard Wallis当年曾致力于Schema.org的图书馆扩展】

Autoload: a pipeline for expanding the holdings of an Institutional Repository enabled by ResourceSync / James Powell, Martin Klein and Herbert Van de Sompel
洛斯阿拉莫斯国家实验室的机构库LARO,只收到10%全文。通过“资源同步”(ResourceSync)标准,结合机构库Solr索引曝光元数据,自动发现未收的内容。原型 solrSync 应用,使用 Python 的 resync 库。

Outside The Box: Building a Digital Asset Management Ecosystem for Preservation and Access / Andrew Weidner, Sean Watkins, Bethany Scott, Drew Krewer, Anne Washington, Matthew Richardson
休斯顿大学图书馆,2015年承诺升级数字文化遗产馆藏的数据为开源保存与获取系统。使用关联数据词表管理器 Cedar:基于DPLA MAP(美国数字公共图书馆元数据应用纲要)的本地 SKOS 词表。

Medici 2: A Scalable Content Management System for Cultural Heritage Datasets / Constantinos Sophocleous, Luigi Marini, Ropertos Georgiou, Mohammed Elfarargy, Kenton McHenry
文化遗产数据集内容管理系统“美第奇2”:项目由NCSA、亚历山大图书馆、塞浦路斯学院合作开发,属于欧洲项目“欧洲和东地中海2 关联科学计算”,得到以下机构资助:美国国家科学基金NSF、美国档案与记录管理局NARA、美国国立卫生研究院NIH、美国国家人文基金会NEH、美国海军研究所ONR、美国环境保护署EPA及其他私营机构。【如此多公共基金资助,应当免费吧?不知道哪里可下载】

An Interactive Map for Showcasing Repository Impacts / Hui Zhang and Camden Lopez
显示机构库影响的交互地图。使用Google Analytics,近乎实时的机构库实际访问可视化,显示浏览或下载的城市,以及题名、到该页面的超链接。

MARC数据转换为RDF流程:芬兰国家图书馆实践

GitHub上芬兰国家图书馆的 bib-rdf-pineline ,包含各种脚本和配置,供转换MARC书目记录为RDF,对有意实施类似项目者当有不少参考价值。
芬兰国家图书馆的关联数据采用Schema.org,以BIBFRAME作为转换MARC格式的中间步骤。如果直接采用BIBFRAME,步骤当可简化,而汇集“作品”的部分必然会有所不同。
翻译repo中的README文件中的转换步骤备记:

1、ILS系统导出的全部MARC记录文件
2、分割为较小的批处理文件
3、使用unix工具(如grep和sed)除去MARC记录中本地特殊内容
4、使用Catmandu转换为MARCXML并强化MARC记录
5、运行LC的 marc2bibframe2 转换MARC为BIBFRAME的RDF
6、计算”作品“键(如:作者+题名组合),供后续合并相同创作作品的数据
7、转换BIBFRAME数据为Schema.org的RDF,N-Triples格式
8、按相同作品合并Schema.org数据
9、转换原始Schema.org数据为HDT格式,如此完整数据集可通过命令行用SPARQL查询
10、统一数据,如通过重写URI,把主题移到原始作品
11、转换统一后的数据为HDT
12、(待续)
13、获益!

查了下其中提到的另外两个陌生的名词:Catmandu、HDT,附后。

关于marc2bibframe2,参见:MARC到BIBFRAME 2.0转换工具:使用报告(2017-3-24)

——— Catmandu数据处理工具 ———
Catmandu:命令行工具,从数字图书馆、研究服务或任何其他开放数据集,访问和转换数据 。
性能:
– 通过多种协议下载数据,包括:OAI-PMH, SRU, SPARQL 和 Linked Data Fragments
– 转换格式,如:MARC, MODS, Dublin Core 等等
– 生成 RDF,说语义网的语言
– 索引数据到数据库如:Solr, Elasticsearch 和 MongoDB
– 使用简单的 Fix 语言,转换元数据为任何格式

——— HDT格式 ———
HDT (Header, Dictionary, Triples) 头标、词典、三元组
RDF的紧凑数据结构和二进制序列化格式,压缩大数据集以节省空间,同时维持查询和浏览操作而无需预先解压缩。是在Web上存储和共享RDF数据集的理想格式。

TextExt:DBpedia开放文本抽取挑战赛

TextExt – DBpedia Open Extraction Challenge

DBPedia日前宣布举办持续性的开放文本抽取挑战赛,目的在于解决从维基百科文章文本(而非信息盒)中抽取三元组问题,并进而使相关技术普遍化,以及开发更细粒度的质量测度与准则,帮助判断是否信任这些数据。摘译网站信息如下:

背景
DBPedia和Wikidata目前主要专注于表达维基百科信息盒(infobox)中包含的事实知识。但是,大量信息包含在非结构化的维基百科文章文本中。通过“DBpedia开放文本抽取挑战赛”,我们旨在促进由维基百科文章文本的知识抽取,以显著扩大和深化结构化DBpeida/维基百科数据的数量,并为评估不同抽取工具提供一个基准平台。

使命
维基百科已经成为无处不在的世界知识来源,使人类能够查找定义、快速熟悉新论题、研读新闻事件的背景信息……。DBpedia的总使命是收割维基百科的知识,加以提炼与结构化,然后为IT用户和业界,以自由和开放的方式在网络传播

方法
“DBpedia开放文本抽取挑战赛”与语言技术和其他领域的其他挑战赛有很大不同,它不同一次性的,而是持续增长和扩大的,关注*可持续地*推动现状,超越*系统化*方法的边界。DBPedia协会及本次挑战赛主办者承诺提供必要的基础设施,无限期地推动本挑战赛,同时有可能扩展该挑战赛到维基百科以外。

我们定期提供由9种不同语言的维基百科文章抽取并清洗过的全文文本供下载,并作为机读NIF-RDF格式的Docker。要求挑战赛选手以Docker images容纳其NLP(自然语言处理)及抽取引擎,然后提交给我们。我们将定期运行参赛者工具以抽取:
1、事实、关系、事件、术语、本体为RDF三元组(三元组追踪)
2、有用的NLP注释,如位置标记、依赖关系、共同参照(注释追踪)

【每年举办多次会议】允许在所选会议前2个月前提交。实施技术要求、提供充分描述的参赛者将能出席会议,并加入年度会议录。每次会议,挑战赛委员会将在参赛者中选择一位获胜者,可得1000欧元。

成果
每年12月,我们将发布参赛者提交的文章摘要和会议录。首个会议录计划在2017年12月发布。

对参赛者的要求
三元组Track(知识抽取)
提交的主要目标是N-Triples格式的一个或多个文档,内容为由维基百科文章文本抽取的事实。三元组将按以下准则评介:
– 抽取数据的数量
– 抽取数据的质量(正确性,适用性,一致性和简洁性)
– 抽取类型:除了事实,也希望术语和词典、本体知识(新类型、分类法、格言/原理、定义域/值域)
语言多样性:抽取自多种语言
– 能够在所要求的NIF格式中保持适当的出处

文章指引
附4-10页文章……不要求方法原创,作者只顺专注于简洁、独立描述再现结果的所有必须信息。尽管强烈鼓励所用工具或系统是免费、公开可访问的,但这不是必要条件。