国外的索引编制软件

复旦大学图书馆百年馆庆期间,于2018.10.18-19举办“发展中的世界索引事业”国际学术研讨会暨2018年中国索引学会年会。本次会议也是国际索引联盟(ICRIS, International Committee of Representatives of Indexing Societies)三年会,开幕式后第一版块就是联盟成员工作交流,各国索引学会介绍各自3年工作(9家成员与会7家)。提问时似乎是超星副总问及索引软件,答主要有3种。
第2天上午有两个分会场,本人投稿论文《面向电子书的书后索引编制法》因为以地方志为例,被安排在地方志分会场发言(PPT分享)。与会的联盟外国成员不知为何几乎全部参加了地方志分会场,提问阶段其中一位问及采用何种软件——我答所述只是自己的想法、还没有软件实现——然后被告知属于嵌入式(embedding),已有软件。
自知对索引是外行,因为被“理事”,出于交作业的想法写了文章,只是针对国内索引编制现状、结合数字出版环境发展,属于开脑洞型,并不了解国外索引情况。会后必须补点课。

看联盟成员网站,了解国外索引编制工具,特别关注嵌入式。
在英国索引家学会(Society of Indexers)网站的“标引职业”版块下看到了3种软件。另外记录下2018-1-1学会建议对普通文字做索引的基本价格是:25英镑/小时,2.75英镑/页,7.5英镑/千词(自然是指原文而非索引篇幅)。
美国索引学会(American Society for Indexing (ASI))网站在软件版块介绍了更多类型的索引编制工具,有或没有实例。

——— 索引编制软件(来自ASI) ———
* 独立或专用工具(Standalone or Dedicated tools),通常用于书后索引(back-of-the-book indexes),标引与出版资料完全分离。
Sky Software https://www.sky-software.com/
Cindex https://www.indexres.com/
Macrex http://www.macrex.com/index.html
TExtract book indexing software http://www.texyz.com
wINDEX (for DOS) http://www.abbington.com/holbert/windex.html
【看了前3种软件各自网站上的介绍(类似国内的“索引之星”),Macrex后者属轻量级工具,前两者功能较多。Sky Software有在Word文档中嵌入索引款目功能:单独编索引——并排打开索引数据库(按页排序视图)、Word文档——在索引中选款目/记录——拖到Word文档相应位置——由Word生成索引。Cindex也有嵌入索引款目到其他文档(Word、RTF)的类似功能。据说是有些客户要求,因为“嵌入”是额外工作、要多花很多时间,因此英国索引家学会建议多收费。】

* 嵌入标引法(Embedded indexing),在文档的电子文件中处理创建索引款目,工具包括:
FrameMaker, Microsoft Word, Adobe InDesign (旧版 PageMaker), Madcap Flare, Quark Xpress
标记语言:SGML, HTML, XML, TeX/LaTeX
【Word以前试过,索引功能过于简单;粗看FrameMaker和InDesign介绍,均为Adobe功能强大的排版工具,支持多种索引】

* 标签法(Tagging),使标引代码在标引完成后嵌入电子文本。索引员在文件中插入编号的虚拟标签,然后单独构建索引。最后一步使用宏,在文件中的每个标签处插入标引。出版企业内部用。

* 关键词法(Keywording),主要用于在线帮助材料。 它可以是硬编码的跳转,类似于WWW链接,或者它可以作为嵌入式编码插入并由软件内置为一个列表。

* 自动标引软件(Automated indexing software),现在伴随大多数文字处理软件的工具,从处理过的文件构建语词索引或单词列表。虽然制造商经常声称这些包构建索引,但实际结果是单词和短语列表,有时在构建索引的开始阶段很有用。……【自动标引现状】

* 自由文本和加权文本搜索工具(Free-text and weighted-text searching tools),这里不讨论,却是索引员非常感兴趣的信息检索方面。

* 网站标引软件(Web Indexing)【举例略】

* 插件(Utilities and Add-ons)。为Word、Excel及前述独立或专用工具增强索引功能。【举例略】

机构库开源软件Hydra改名Samvera

Hydra是基于Fedora的开源软件,可用于机构库或特藏库等。Hydra为希腊神话中的九头蛇,作为项目显示其多用途。Samvera则为冰岛语“亲密无间”,表达协同工作。

Hydra is now Samvera (7 July 2017)(Digital Preservation Coalition 新闻)
Hydra项目始于2008年,由英国赫尔大学、美国弗吉尼亚大学、斯坦福大学和Fedora发起,目前有35个成员参与软件开发与支持。可根据需要部署,包括本地定制工具套件 Hyrax,通用全包解决方案 Hyku,多媒体库 Avalon
考虑到现在已不再是一个项目,为反映社区的重要性,成员同意改名为Samvera社区,反映软件未来通过协作活动发展及持续的相互支持。

Samvera

官网:http://www.samvera.org
Samvera是草根开源社区,为图档博创建最佳的经典数字资产管理解决方案。针对不同内容类型,提供灵活、丰富的用户界面。

Samvera基于4个主要组成部分:
Fedora存储库软件,提供健壮、持久的存储库层,维持和管理数字对象管理。
Solr索引,提供快速访问有关机构资源的信息。
Blacklight,Ruby on Rails插件,在Solr之上,提供分面搜索、浏览和定制的对象视图。
Samvera宝石:Ruby on Rails组件,集成构建基块,形成完整、灵活且可扩展的数字存储库解决方案。

SAMVERA PARTNERS
网页上部为成员名录,下部为非成员但使用产品的机构,以下几个有使用Hydra制作的机构库/特藏库链接:
* Digital Commonwealth (Massachusetts Collections Online) (https://www.digitalcommonwealth.org/) 图档博大型库
* Johns Hopkins University (levysheetmusic.mse.jhu.edu/) 乐谱特藏库(在线浏览、PDF下载)
* Museum of the Performing Arts (MAE) of the Theatre Institute of Barcelona (colleccions.cdmae.cat) 大型库
* Northeastern University (repository.library.northeastern.edu) 机构库(示范性)

关于Hydra,参见论文
几种典型新型开源机构知识库软件的比较分析 / 张旺强 祝忠明 卢利农(中科院国家科学图书馆兰州分馆). 现代图书情报技术, 2014-02-25
开源仓储软件在清华大学图书馆的研究应用与思考 / 曾婷; 董丽; 邹荣; 姜爱蓉 图书馆杂志 2012-05-15
文末“思考与建议”值得参考,特别是“永久的数据,短暂的系统”。

ContentDM试用记

一直很关注OCLC,却很晚才知道它的数字馆藏管理软件ContentDM,也就是我们一般所谓的自建数据库软件,据介绍已有近2000个组织在使用。
Marcia的数字馆藏元数据课程(Metadata for Digital Collections)中有一节是使用ContentDM,她发来教学用的用户名与密码,让我有机会做了一次试用。顺便推荐此课程,详尽的大纲附PPT、参考资料、练习等丰富资料与链接。

回到ContentDM,教学指导Using ContentDM让人喜欢,因为只要简单地跟着做,一下就上手了。指导包括三个部分:
一、看一个用ContentDM的实例(明信片数据库),感受一下,并下载图片作为接下来自已练习建库时上传的数字对象(自然元数据也可以照抄)。

二、在已有库(Colletion)中加入2条数据(Item),发布后即时看效果。这部分没有对软件功能的逐个介绍,完全是实际操作,指导性强、很容易上手。只要三个步骤:
添加item(数字对象及元数据)──审核并索引──浏览结果(View Collection)

三、修改库(Colletion)的字段,也就是元数据方案或应用文档。系统缺省设置是DC元数据,可以直接使用,也可以修改。虽然建库首先是设计元数据方案,但因为之前的课程已经学习过,在学习软件使用时先看发布效果,而把元数据设计优化部分置后,能使学习者更有兴趣。

ContentDM当然不只这么简单的功能。在跟着指导做完后,把软件的其他功能浏览了一遍,有些还试做了一下。软件有三个层次:Server, Collections, Items。服务器层没有访问权限,馆藏层不能新增,其他功能基本都可用。用户界面的功能也试用一遍,有收藏及检索提示功能。整个过程做了截图(ContentDM, 2010-04-15)。

[截图更新2010-04-18]

Collection功能
配置(介绍文字,访问限制,图片分辨率、PDF转换等)
字段(字段名、DC对照、数据类型、完全显示否、索引否、显示否、必备否、控制词表)[update 2010-04-18 如果选控制词表,用非控词审核将无法通过]
图像显示
统计报告
导出(元数据,Tab分隔文本、XML或OCLC SiteSearch)
帮助

Items功能
审核(含编辑、删除[update 2010-04-18:可选审核、索引同做])
索引(添加、审核、编辑、删除后[update 2010-04-18:可设置在空闲的时间做])
添加(审核后发布)
编辑(及删除)[update 2010-04-18 编辑时可将多个记录组成复合对象]
替换(单字段或所有字段元数据,或更改字段)
锁定记录管理(解锁)
帮助

用户界面功能
浏览
高级检索(检索无结果时有提示)
显示设置(布局、排序、每页显示数及色彩)
我的收藏

要有更深入的体验,恐怕得仿真做一个库,才知道功能是否够用、用起来是否方便。目前控制词表有十个可选,也可从文件导入。

说明:
OCLC网站上CONTENTdm可以申请60天免费评估。