珀尔修斯数字图书馆(从人类可读信息到机器生成知识)

珀尔修斯数字图书馆项目(Perseus Digital Library Project)始于1985年,专注古希腊及古罗马的历史、文学与文化,是一个由领域专家主持的数字化项目。主编Gregory R. Crane是塔夫茨大学教授,一位数字人文的早期实践者。
项目于今年5月发布了珀尔修斯目录(The Perseus Catalog) ,目标是包括所有主要的古希腊和古罗马作者、每人至少收录一部联机版作品。发布当时包括3,679部作品,以及1.1万余全文链接(其中谷歌图书6,419部、互联网档案5,098部、HathiTrust为593部)。
目录细览页有全文时,按行分页显示,左栏为文字导航、上面为条形导航。点击全文中任意词,会跳转到该词的分析页,包括词典解释、出现统计等。如埃斯库罗斯的希腊文版《阿伽门农》

该目录采用了图情与IT领域的不少通用技术,有不少可圈可点之处:
元数据格式:通用的采用LC的MODS和MADS,专业方面采用Homer Multitext Project开发的Canonical Text Services及CTS-URN protocols(应该是做某些强化)
软件界面:采用开源的Blacklight及Solr
输出格式:目前为HTML和ATOM,但对所有文本组、作品、版本及译本提供稳定、可链接的标准URI后续版本将提供RDF三元组(语义网与关联数据世界又将多一个数据来源)
目前该项目已把MADS格式的作者规范数据贡献给了虚拟国际规范档(VIAF),未来也将在目录中提供到VIAF的链接。

项目网站的Research部分谈到其使命,最后说明其关注三个方面,并有详细解释:
– 人类可读信息
– 机器可操作知识
– 机器生成知识
从前面部分行文看,似乎写于2008-2009年,尽管没有出现语义网或关联数据字样,但后两个方面应该正是抓住了这一趋势。

参见:珀尔修斯数字图书馆目录项目的博客:The Perseus Catalog Blog
Announcing The Perseus Catalog, release 1.0 / by LISA M. CERRATO (2013-5-10)
Contribution to the Virtual International Authority File / by ANNA KROHN (2013-11-25)

LC关联数据服务现状

在MARC21标准网站首页,看到MARC Code Lists as Linked Data,点击后链接到的是规范与词表网站(http://id.loc.gov/),现名:
LC Linked Data Service: authorities and vocabularies

该网站从2009年5月上线LCSH开始,四年来内容已经大大丰富了。目前包括三个部分:
– 规范部分(主题、名称、分类)
LC Subject Headings
LC Name Authority File
LC Classification
LC Children’s Subject Headings
LC Genre/Form Terms
Thesaurus for Graphic Materials

– 保存词汇表(Preservation Vocabularies)
Preservation Vocabs (all)
Actions Granted
Agent Type
Content Location Type
Copyright Status
……(共15种)

– MARC代码部分
MARC Relators(含12种RDA和2种BIBFRAME)
MARC Countries
MARC Geographic Areas
MARC Languages
ISO639-1 Languages
ISO639-2 Languages
ISO639-5 Languages
Extended Date/Time Format

参见:
关联数据的鸡与蛋(2010年6月7日)
关联数据:官方版与山寨版(DDC和LCSH)(2009年8月21日)

———-延伸阅读———-
前些天,看到LC转向免费提供电子版编目工具书(2013年7月13日),觉得至少能够提供免费的PDF版,已经很不错了。但Diane Hillmann却对Web版被阻挡在付费门槛后相当不满,因为新闻中并未提及id.loc.gov上的LCSH,实际上此版本既不完整也不是最新的,将影响关联数据应用。上下两篇博文均提及id.loc.gov,比较长、待细看。
参见:Metadata Matters
VERSIONS AND SERVICES, PT. 2 (2013.7.23)
VERSIONS AND SERVICES, PT. 1 (2013.7.23)

JSC会议有关RDA注册的讨论与决定

RDA元数据注册,至今6个元素集全都未得到批准、近70个取值词表出版的也不过十多个。当年的注册主持人Diane Hillmann已经不参与此事。从RDA注册的元素集、词表的历史记录看,2011年以来,主要是JSC的ALA代表John Attig在维护,Gordon Dunsire也偶有参与。Gordon目前是JSC的英国协会CILIP代表,是IFLA的FR系列及ISBD元素集的注册者,熟悉该领域;同时他与Diane关系密切,还在Metadata Matters博客上一同写博,应该与她有很好的沟通,也了解她的设计。由他参与完成RDA注册的最终出版,应该说是个相当合适的人选。
2012年11月5-8日举办了今年的JSC会议,6日讨论了不少与RDA元素集、取值词表的开放元数据注册相关的问题,几个讨论文件分别由John和Gordon提出。Gordon未能到场,但远程虚拟参会,还将承担很多后续工作。记得JSC曾经表示RDA注册要在2012年底前全部出版,目前来看应该来不及,但行动已经开始加速。

相关讨论文件如下。有些建议注明JSC同意,有些未注明,或表明尚无定论。[以下方括号部分为个人看法]

1、6JSC/ALA Rep/4: RDA vocabularies: Miscellaneous issues
ALA代表就“开放元数据注册”(OMR)上出版RDA词表问题所列清单,讨论结果:
(1)术语的单复数:JSC同意应采用单数形式。现有复数形式在词表出版前删除。
(2)RDA有条款要求使用不同词表中术语,如“数量”使用“载体类型”词表。Gordon提出,这类重复可以在应用纲要中指明,将就此问题做进一步分析
(3)不完整术语:RDA某些指定术语不构成独立术语,如“约”、“折叠”、“不完全”“未编号”。其中某些可通过定义复合术语处理,如“折叠叶”或“未编号页”;其他不完整术语需进一步研究。Gordon再次志愿承担。
(4)《圣经》图书组:JSC已同意从OMR中删除这一词表,因为通过规范记录处理更好。现已从OMR中删除。
(5)单个或多个词表:有时一个词表有不同子集,如“静态图像数量”、“文本数量”。JSC表示倾向于将其处理为一个词表,在说明中冠以“文本数量”作为标记,而非作为正式元素的子类型。[如此对系统设计会增加复杂性,不方便根据不同类型资源选取词表──按Diane的看法,是不方便“为特定目的扩展元素词表”吧:本来可以增加一个新的词表,这样就变成维护原有词表了]
(6)“顶层内容”:某些词表分散为各有抬头的部分,如“载体类型”词表分成“音频载体”、“计算机载体”等,这些是上位术语,但其本身非有效术语。JSC认为没有理由不将这些作为有效术语。[Diane的“载体类型”词表中有这些上位术语,但不知道为什么2012年1月批准出版时,这些上位术语未获批准,目前仍为“新提出”而非“出版”状态]

2、6JSC/ALA Rep/5: References in the RDA Glossary and the RDA namespace

3、6JSC/CILIP Rep/1: Machine-actionability and interoperability of RDA value vocabularies
CILIP代表提出对RDA取值词表的机器可操作与互操作的五个建议:
(1)定义需与范围注释分离:JSC同意。CILIP将开发一个建议,更正现有问题。[目前只有“定义”,没有“范围注释”]
(2)更新内容类型、媒介类型和载体类型词表与RDA/ONIX框架间关系的文件。JSC同意。将由Gordon和John准备文件。
(3)在OMR中开发一个RDA/ONIX框架的RDF表达,如此其他词表可映射到它:JSC同意。RDA/ONIX组会获取一个命名空间,Gordon将创建并出版词表。
(4)分析扩展RDA使用RDA/ONIX框架的可能性。Gordon承担。[RDA/ONIX框架的内容比RDA的最终采用的内容/媒介/载体类型丰富且灵活,不明白当初是如何做决定的]
(5)创建RDA/ONIX框架的管理开发组。Alan Danskin正与ONIX方面联系,将建立这样一个小组。

4、6JSC/CILIP Rep/2: RDF representation of RDA relationship designators
CILIP代表就RDA关系指示词的RDF表达问题,提出11项建议。
OMR重要问题之一是,关系指示词是作为元素集(RDF属性),还是作为取值词表[目前是作为元素集]。
(1)让名称所用URI一致且含RDA品牌。JSC同意。 [不明]
(2) 以RDF属性表达关系指示词。JSC同意。 [保持不变。不过建议11又同意同时作为取值词表中的概念]
(3)增加“代理”(Agent)作为超级集合指代个人、家族和团体。JSC同意。 [FRBR Entities for RDA中,有agent作为类,个人、家族和团体为其子类。但关系指示词中没有]
(4)从元素集中移除冗余非限定属性,为此,需要定义非限定属性。[针对不限用于FRBR实体的属性]
(5)将非限定元素移至独立注册,保留限定元素在RDvocab命名空间。JSC决定要这样作,且限定和非限定元素集均应视为JSC承认的RDA内容。ALA出版社将为非强制元素集获取命名空间。[保持元素集的简洁。强调“非限定元素集……应视为JSC承认的RDA内容”,保存了Diane Hillmann想让RDA成为大伞的设想]
(6)一旦非限定元素集移至独立命名空间,删除只用于区别非限定与限定元素的WEMI限定词,保留需用于区别两个或多个限定元素的限定词。Gordon将承担。[简化,却不能一目了然了]
(7)开发与注册反向属性。[IFLA注册的FR系列也无]
(8)改变关系指示词属性标签为动词短语,如:有作者/是作者 [现为名词词组。IFLA注册的FR系列,对属性采用动词短语]
(9)改变元素标签为动词短语,如:有载体类型 [与上类似]
(10)不用RDF“类”表达关系指示词。JSC同意。[目前为“属性”]
(11)除表达关系指示词为属性(建议2)外,也作为取值词表中的概念。JSC同意这样做也许有用,但是要求Gordon准备一份处理建议7,8,9和11的讨论稿。[同时作为元素集和取值词表的原因、目的何在?]

via Resource Description and Access: ALA Rep notes
Report of the Meeting of the Joint Steering Committee, 6 November 2012
By JOHN ATTIG on November 6, 2012 10:31

参见:Diane谈RDA元数据注册的设计(2012年11月18日)

[update 2012-12-6] 官方消息发布:Outcomes of the 2012 JSC Meeting, Held in Chicago, USA, November 5-9, 2012