珀尔修斯数字图书馆(从人类可读信息到机器生成知识)

珀尔修斯数字图书馆项目(Perseus Digital Library Project)始于1985年,专注古希腊及古罗马的历史、文学与文化,是一个由领域专家主持的数字化项目。主编Gregory R. Crane是塔夫茨大学教授,一位数字人文的早期实践者。
项目于今年5月发布了珀尔修斯目录(The Perseus Catalog) ,目标是包括所有主要的古希腊和古罗马作者、每人至少收录一部联机版作品。发布当时包括3,679部作品,以及1.1万余全文链接(其中谷歌图书6,419部、互联网档案5,098部、HathiTrust为593部)。
目录细览页有全文时,按行分页显示,左栏为文字导航、上面为条形导航。点击全文中任意词,会跳转到该词的分析页,包括词典解释、出现统计等。如埃斯库罗斯的希腊文版《阿伽门农》

该目录采用了图情与IT领域的不少通用技术,有不少可圈可点之处:
元数据格式:通用的采用LC的MODS和MADS,专业方面采用Homer Multitext Project开发的Canonical Text Services及CTS-URN protocols(应该是做某些强化)
软件界面:采用开源的Blacklight及Solr
输出格式:目前为HTML和ATOM,但对所有文本组、作品、版本及译本提供稳定、可链接的标准URI后续版本将提供RDF三元组(语义网与关联数据世界又将多一个数据来源)
目前该项目已把MADS格式的作者规范数据贡献给了虚拟国际规范档(VIAF),未来也将在目录中提供到VIAF的链接。

项目网站的Research部分谈到其使命,最后说明其关注三个方面,并有详细解释:
– 人类可读信息
– 机器可操作知识
– 机器生成知识
从前面部分行文看,似乎写于2008-2009年,尽管没有出现语义网或关联数据字样,但后两个方面应该正是抓住了这一趋势。

参见:珀尔修斯数字图书馆目录项目的博客:The Perseus Catalog Blog
Announcing The Perseus Catalog, release 1.0 / by LISA M. CERRATO (2013-5-10)
Contribution to the Virtual International Authority File / by ANNA KROHN (2013-11-25)

从NISO工作组看当前技术热点

美国信息标准化委员会(NISO)目前有三个专题委员会即商务信息、内容与馆藏管理、发现到传递,每个委员会下面有若干工作组或委员会。”NISO工作组与委员会专辑”,是NISO Newsline季度附刊,提供各工作组、委员会的信息。2013年4月号,包括各工作组/委员会的网络工作空间(Workroom)链接——通常有丰富的资料,以及刚完成或正在制订的标准或推荐实践(Recommended Practices)的情况,或可由此了解当前技术热点。
Working Group Connection. April 2013

———-Business Information Topic Committee 商务信息专题委员会———-
* Demand Driven Acquisitions Working Group 需求驱动采购工作组——有关DDA或PDA的标准
* I2 (Institutional Identifiers) Working Group 机构标识符(I平方)工作组(4月刚发布推荐实践NISO RP-17-2013;工作组与ISNI(国际标准名称标识符)国际局的协作协议是,采用ISNI标准(ISO27729),而不单独发布自己的标识符)
* PIE-J (Presentation & Identification of E-Journals) Working Group 电子期刊展示与识别工作组(3月下旬发布推荐实践NISO RP-16-2013;提供电子期刊展示指导,尤其在题名展示、精确使用ISSN和引用实践方面。希望解决连续出版物馆员长期关注的某些问题,最终帮助用户在联机环境中工作,更方便地使用引文元素获取基于文章的资料)
* SERU (Shared E-Resource Understanding) Standing Committee 共享电子资源理解(SERU)指导委员会( 2012年更新了最初创建于2008年的推荐实践NISO RP-7-2012,使之更灵活地用于电子期刊之外的联机产品)(SERU注册)
* SUSHI (Standardized Usage Statistics Harvesting Initiative) Standing Committee 标准化使用统计收割项目(SUSHI)指导委员会(3月上旬更新的SUSHI标准ANSI/NISO Z39.93-2013,及COUNTER-SUSHI实施文档NISO RP-14-2012)——电子资源使用统计收割
* Z39.7 Data Dictionary Standing Committee 数据字典指导委员会(ANSI/NISO Z39.7)(持续维护中的联机标准“信息服务与利用:图书馆与信息提供者的计量与统计-数据词典”,目的是帮助信息界指明并定义有用的可量化信息,测量图书馆的资源与表现,提供一批有关美国图书馆的有效且可比较的数据;最新更新版已经作为标准修订得到投票批准,只等ANSI批准后出版;相关ISO标准:ISO 2789“国际图书馆统计”和ISO 16439“评估图书馆影响的方法与过程”)——图书馆测评用标准

———-Content & Collection Management Topic Committee 内容与馆藏管理专题委员会———-
* Digital Bookmarking and Annotation Sharing Working Group 数字书签与标注共享工作组(致力于联机引用与标注共享的系统需求与句法规范。在数字环境中(尤其是电子书),需要跨越多种硬件平台、乃至跨越不同版本,定位参引点、共享引用及标注;尚处于起步阶段,界定与“开放标注协作”(Open Annotation Collaboration)间的关系)
* Journal Article Versions (JAV) Addendum Working Group 期刊文章版本(JAV)补遗工作组(2008年开发的期刊文章版本推荐术语集(NISO RP-8-2008)用于一篇文章生命周期中的各个版本(iteration),可作为出版者、图书馆员、集成者、索引者及最终用户的可靠工具。JAV被采纳,但发现“校样”(proof)一词的范围不太准确、难以应用,因而建议发布补遗;小组还将考虑提出可结合JAV术语的元数据框架或词典。计划6个月提出推荐)
* Standardized Markup for Journal Articles (JATS: Journal Article Tag Suite) Working Group 期刊文章标准化标记(JATS:期刊文章标签套件)工作组(2012年下半年出版ANSI/NISO Z39.96-2012,延续NLM期刊存档与交换标签套件3.0版的;已成立与ANSI兼容的持续维护机制JATS指导委员会)(专用网站jats.niso.org;一套描述期刊文章的文本及图像内容的XML元素及属性集,也可用于某些非文章资料如来信、编者按及图书与产品评论)
* NISO/NFAIS Supplemental Journal Article Materials Project 期刊文章补充资料项目(与全国高级信息服务联盟(NFAIS)合作项目,推荐实践2013年上半年发布,说明围绕出版才包含、处理、显示及保存补充期刊文章材料相关问题;由A和B两部分组成,A为商务政策与实践,说明语义与政策问题;B为技术考虑与实施推荐,说明“如何”实施链接、封装和存档)

———-Discovery to Delivery Topic Committee 发现到传递专题委员会———-
* IOTA (Improving OpenURLs Through Analytics) Working Group 通过分析改进OpenURL(IOTA)工作组(评估与比较内容供应者OpenURL实施的质量;面向链接解析器供应者的推荐实践,将于下月经发现到传递专题委员会批准出版;正考虑升级为委员会)(网站:openurlquality.niso.org)
* NISO/UKSG KBART (Knowledge Bases And Related Tools) Phase 2 Working Group 知识库及相关工具(KBART)第2阶段工作组(支持第1阶段推荐实践NISO RP-9-2010;第2阶段推荐实践专门针对电子图书与会议录元数据,及通过联盟封装许可领域;另外探索开放获取资料领域,以及其元数据如何在知识库中出版与共享;第2阶段推荐实践的公示草案计划5月底公布)(KBART注册[在GoogleSite上,有墙])
* NCIP (NISO Circulation Interchange Protocol) Standing Committee NISO流通交换协议(NCIP)指导委员会(2012年出版NCIP最新版2.02;4月会议讨论了通用图书馆通信框架(SIP及其他))
* Open Discovery Initiative Working Group 开放发现项目工作组(ODI致力于定义基于索引检索的新一代图书馆发现服务的标准和/或最佳实践,自2012年1月以来经常开会,近几个月四个子组开展工作:技术格式,图书馆索引权/层次的沟通;公平链接的定义;使用统计。计划5月末形成一个公示草案)
* ResourceSync Working Group 资源同步工作组(研究、开发、原型、测试与布署大规模Web资源同步,意在同步对象本身,不仅仅是其元数据,建立在OAI-PMH策略上。核心小组得到斯隆基金资助,也得到包括其他产业及研究伙伴(部分受JISC赞助)的助力;年初发布公示了beta版规范,希望5月底完成最终规范供投票批准;实施规范包括Python和Jave代码库,以及DSpace专用Java实施,正进行中,马上会提供)
* Specification for Open Access Metadata and Indicators Working Group 开放获取元数据与指示符规格工作组(刚起步。开发标准化书目元数据及可视指示符,除潜在描述期刊文章如何“开放”外,也描述其可获得性;首先聚焦描述与OA文章相关的阅读权的元数据元素)(出版商在开放获取(OA)、增强获取、公共获取或其他描述的旗帜下,含义各不相同。目前没有标准化的书目元数据,能提供特定文章是否免费可读、读者有何重用权的信息;在不同出版商、甚至同一出版商的不同期刊中,表明文章开放性的可视指示符或图标的设计与使用也不一致)
* Standard Interchange Protocol (SIP) Working Group 标准交换协议(SIP)工作组(SIP于1993年由3M引入,允许ILS应用与自助服务设备间无缝通信,已成为世界范围的事实标准。工作组将现SIP 3.0版规范纳入NISO标准,2012年10月启动,考虑4个重要领域,即:SIP3文档本身,包括修订/更正/增补、解决歧义等;维护机构;SIP3相关的隐私标准与安全性;与NCIP的关系)

SUSHI协议成为NISO正式标准Z39.93-2013

SUSHI全称Standardized Usage Statistics Harvesting Initiative,是为收割COUNTER格式的电子资源使用统计数据而制订的标准。SUSHI曾作为标准草案发布,于2006.9.20-2007.5.20间试用征求意见,[成为正式标准Z39.93-2007]。事隔五年,SUSHI在经重新审阅、做了两处小修改后,日前[2013.2.26]作为正式标准[第2版ANSI/NISO ]Z39.93-2013发布。

尽管当初是针对COUNT报告而开发的,但SUSHI是一个通用协议,也适用于定制的非COUNTER使用报告

NISO的SUSHI网站:http://www.niso.org/workrooms/sushi
有标准文本下载,[有开源的收割工具介绍……]

[update 2013-3-8]
via NISO news: NISO Publishes Maintenance Revisions of Dublin Core and SUSHI Standards (05 Mar 2013)
同时,DC元数据基本集也小做修改,更新为Z39.85-2012:Dublin Core Metadata Element Set (ANSI/NISO Z39.85-2012)
癔测:所谓“维护修订”,大概就是标准每隔比如5年要修订一次,以说明此标准仍在维护中,并未废弃吧。

———-附:COUNTER———-
COUNTER(Counting Online Usage of Networked Electronic Resources)网站:http://www.projectcounter.org/(有目前使用标准的文本下载)
COUNTER始于2002.3,2003年首次发布COUNTER Code of Practice,针对联机期刊和数据库。
最新为Release 4:COUNTER Code of Practice for e-Resources (2012.4出版),包含各类电子资源(期刊、数据库、图书和参考作品、多媒体等),取代COUNTER Code of Practice for Journals and Databases(Release 3,2008.8出版)和COUNTER Code of Practice for Books and Reference Works(Release 1,2006.3出版)。最迟实施日为2013.12.31,之后如不符合Release 4标准的,将不视为与COUNTER兼容。
为配合SUSHI收割利用,[和Release 3一样,]Release 4在原电子表格格式的基础上,要求COUNTER报告必须提供XML格式(详见Release 4, 3. SUSHI)。