珀尔修斯数字图书馆(从人类可读信息到机器生成知识)

珀尔修斯数字图书馆项目(Perseus Digital Library Project)始于1985年,专注古希腊及古罗马的历史、文学与文化,是一个由领域专家主持的数字化项目。主编Gregory R. Crane是塔夫茨大学教授,一位数字人文的早期实践者。
项目于今年5月发布了珀尔修斯目录(The Perseus Catalog) ,目标是包括所有主要的古希腊和古罗马作者、每人至少收录一部联机版作品。发布当时包括3,679部作品,以及1.1万余全文链接(其中谷歌图书6,419部、互联网档案5,098部、HathiTrust为593部)。
目录细览页有全文时,按行分页显示,左栏为文字导航、上面为条形导航。点击全文中任意词,会跳转到该词的分析页,包括词典解释、出现统计等。如埃斯库罗斯的希腊文版《阿伽门农》

该目录采用了图情与IT领域的不少通用技术,有不少可圈可点之处:
元数据格式:通用的采用LC的MODS和MADS,专业方面采用Homer Multitext Project开发的Canonical Text Services及CTS-URN protocols(应该是做某些强化)
软件界面:采用开源的Blacklight及Solr
输出格式:目前为HTML和ATOM,但对所有文本组、作品、版本及译本提供稳定、可链接的标准URI后续版本将提供RDF三元组(语义网与关联数据世界又将多一个数据来源)
目前该项目已把MADS格式的作者规范数据贡献给了虚拟国际规范档(VIAF),未来也将在目录中提供到VIAF的链接。

项目网站的Research部分谈到其使命,最后说明其关注三个方面,并有详细解释:
– 人类可读信息
– 机器可操作知识
– 机器生成知识
从前面部分行文看,似乎写于2008-2009年,尽管没有出现语义网或关联数据字样,但后两个方面应该正是抓住了这一趋势。

参见:珀尔修斯数字图书馆目录项目的博客:The Perseus Catalog Blog
Announcing The Perseus Catalog, release 1.0 / by LISA M. CERRATO (2013-5-10)
Contribution to the Virtual International Authority File / by ANNA KROHN (2013-11-25)

图书馆书架上的QR码标识

图书馆用QR码推广资源的例子很多,以前自己也曾介绍过一些,主要是从实体馆藏导向电子资源(见:移动,如何动。有墙)。
不过有很长时间,对远洋师讲的美国有图书馆在书架上贴相应的QR码架标,让读者可以手机拍下后直接查馆藏目录,却一直不解:人已经在书架边了,直接按号取书不就是了,为什么还要用手机拍下再查这么麻烦呢?后来才想明白,其实某一书架上的书并非全部馆藏。比如本馆同一分类号(甚至索书号)的书,可能分散在多个不同的馆藏地(新书库、某借阅区、保存书库等等);再如现在很多图书馆都把低利用率的书放到了存储书库。如此在书架边以相应的分类号查馆藏目录,就可以看到所有馆藏——如果可以限定检索排除当前馆藏地的馆藏,则更有推荐意义,且相对来说检索结果数量较少,让人更有信心浏览下去。

最近,杜威十进分类法(DDC)官博正在推动一个“基于DDC标识的QR码试验项目”,进一步扩展QR码推介实体馆藏的功能。从介绍看,主要是解决用户找到相关(或部分相关)馆藏后,希望知道是否还有其他相关(或更相关)的馆藏。通常对于同一论题,如果从不同学科角度研究,在分类法中属于不同类别,这样即使所有馆藏都在同一馆藏地,由于类号不同,相关的馆藏也是排在不同架位的。
本项目目前正征求采用DDC的图书馆参与,DDC官方会提供DDC类号的“见”与“参见”一览表,各馆根据用户(及馆藏)情况选择部分类号制作QR码,贴到相应的书架上。官博提供的QR码标识,上部文字为相关的“类名+类号”,下部的QR码为用相应DDC号查馆藏目录的链接(采用短网址http://oc.lc/),当然格式并非是固定,完全可以自行定制:
基于DDC的QR码

 

 

 

 

 

 

这个,大概是在关键词检索正一统江湖、放弃DDC之声屡屡见诸媒体的现状下,延长分类法生命的一种努力吧。

——题外话1:通常馆藏目录的分类检索途径并不提供“见”或“参见”的功能——这是规范档的功能,但DDC(及其他分类法)大概不会提供给图书馆做规范档。如果可以在馆藏目录查询中实现分类法的“见”与“参见”功能,是不是同样(或更加)对用户有所帮助?
——题外话2:印象中《中图法》中“见”和“参见”不多,类似功能没有太大意义?

参见:025.431: The Dewey blog(有墙)
DDC-Based Signage and QR Codes Pilot Project: What’s Needed from You (October 18, 2013)
征求图书馆参加试验项目,要求说明
Is This All They Have? (September 06, 2013)
较早的项目功能说明

[update 2013-10-27] 官博又提出了使用QR码标识做相关参见,如DDC的383邮政服务,相应书架放置769.56集邮的QR码链接;796运动,放置617.1027运动医学QR码链接。难道DDC的参见没有包括这类?如何取得这些相关参见对照表?文中并未说明。
参见:Is This All They Have? Part 3 (October 24, 2013)

OCLC元数据管理研究:食谱探测器与同种作品推荐

看到@银河发呆指南 8月7日在新浪微博上介绍OCLC发布食谱书目数据库Cookbook Finder,很是吸引人:“该书目库收录世界各国图书馆藏食谱及食物、营养相关图书数千种,检索途径有人物、地点、主题(如课程、配料、方法等),浏览途径有主题、作者,如果Hathi Trust或Gutenberg项目中有全文,记录将提供全文链接”。于是前往一观:

OCLC Research: Explore cookbooks and more from libraries around the world with new Cookbook Finder app (05 August 2013)
介绍称为app,其实并非手机应用,是WorldCat的一个实验项目,界面也与worldcat.org相似。从介绍看,最大的特点是基于FRBR的作品,worldcat.org也号称基于作品,除了内容有所限定外,两者在功能上有何不同呢?

食谱探测器(项目页面):Cookbook Finder
访问界面:WorldCat Cookbook Finder

在检索结果上,比worldcat.org明显有改进的是细览页下部:
相关作品推荐,包括同一作者作品及类似作品,显示图书封面。
相似作品采用称为“Kindred Works(同种作品)的实验服务,通过分类号、主题标目、体裁等检索相关资源。
同种作品推荐服务提供API(Recommender API),可面向个别成员馆馆藏做定制。
Kindred Works也有自己的网页界面,首页与Cookbook Finder很像:WorldCat Kindred Works

各种版本,列出同一作品其他版本的封面及基本书目信息,链接到worldcat.org(worldcat.org只在检索结果一览中显示版本数)
比较奇怪的是,与worldcat.org对照,两者汇集的版本并不相同,似乎采用了不同的算法。足见在没有作品ID的情况下,集中同一作品真不是件容易的事。以De’ Medici Stucchi, Lorenza, 1926- 的“Pizza”为例:
— Cookbook Finder汇集了1993-1996年之间的5个版本,其中2个为1993年的;另外在相关作品里还有一个同作者、同书名的,点击该记录链接到WorldCat,是同一出版社1992年的,似应计入成为第6个版本。
— 而在WorldCat中,同一OCLC控制号26404157下汇集的只是3个1993年的版本
两相对比,Cookbook Finder中少了澳大利亚1993年出版的记录(McMahons Point, N.S.W. : Weldon Owen),似也应加入成为第7个版本。

Cookbook Finder目前收录数显然已不止数千,查”food”的结果就有26097条。其中包括电子书记录,比如2.0鼎盛时期谷歌大厨所写的“Food 2.0”,就有电子书。可惜检索结果没有如worldcat.org那样按年份限定,无法方便找到年代较早的图书,也就不知道Hathi Trust或Gutenberg的图书以何种形式提供访问链接(记录在链接到WorldCat的细览页后,有“在线查找”,列出相应的电子资源,包括封面图片等相关资源)。

附记:Cookbook Finder与Kindred Works均属于OCLC研究部的元数据管理活动:Activities——Metadata Management,其中有近20项研究,包括FAST(主题数据术语分面应用)、Classify、WorldCat的MARC使用、Worldcat Identities等,均值得关注。