若有所思 – 第 287 页

计算机识别代替编目员著录?

    最近印度的Durga Sankar Rath和A.R.D. Prasad研究如何用计算机识别印刷图书书目信息。
    其一，根据图书的题名页确认图书的书目信息。做法是：首先扫描题名页，然后由字符识别扫描页并产生保留原字体大小信息的HTML文件，再用计算机程序进行识别信息。
    主要工作是通过统计分析500种题名页上题名、作者、出版者、出版地、版本、卷册、丛编、出版年等出现的位置、字体、标点符号、连接词等信息，建立识别程序。
    比如题名识别的推导方式是：
        出现在题名页的上部或上中部
        出现在题名页之首（75.15%，少数情况是作者或丛编）
        题名字体比其他都大（94.99%）
        如果题名和副题名出现在同一行上，则由冒号或短横分隔
        题名可能含有数字和标点符号
        题名通常含有”The”, “An”,”Introduction”, “Theory”, “in”, “to”
    作者用识别程序试验了50个题名页，有46个得到了正确的结果。

其二，二位作者以同样做法研究了从题名页背页获取书目信息的方法。如对出版年的判断方法是：
1、如果发现4位数字，且以19或20起始，则该信息可能是出版年；
2、如果以上述方法获得1个以上年份，其中最高顺序值可能是出版年。
其它主要工作是分析在版编目信息。AACR2的主要款目规定给他们识别题名、责任者添了很大麻烦。

该文所述对各书目信息判断的文字描述，可用于新编目员培训。当然，其判断方法仍然比较简单，值得改进之处不少。如出版年，所获得的最高值很可能是印刷年。

原文见：
Heuristics for identification of bibliographic elements from title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)
Heuristics for identification of bibliographic elements from verso of title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)

参见：1987年Ling Hwey Jeng的博士论文（The University of Texas at Austin）
“题名页作为书目描述信息源”Thetitle page as the source of information for bibliographic description:An analysis of its visual and linguistic characteristics

杜兰大学图书馆编目部主页之主题标引

Cataloging Department, Howard-Tilton Memorial Library, Tulane University

编目资源部分Cataloging Resources链接了很多有用的资源，既有工具性的，也有资料性的。基本上涵盖了编目的各个方面。只是其中部分有使用限制（IP或口令）。

内部文献部分Local Documentation收录了内部资料，既有与其工作流程有关的资料，也有一般指导性的资料。可作编制本部门工作文件的参考。特色：主题标引方面的资料。针对LCSH的某一方面进行总结归纳，并附实例说明，对了解与掌握LCSH标引极有帮助。内容包括：

导论：

Introduction to LC Subject Headings

子标题：

地理标题：

文学标题：

（2005/6/2更改标题，原题：编目部主页之美国杜兰大学图书馆）

AACR终于准备出第3版了

AACR第2版1978年出版，至今虽然经过多次修订，但近三十年仍是第2版。今天通过LISFeeds.com看到CatalogABlog介绍AACR3的消息，便到AACR联合修订指导委员会JSC/AACR网站去看个究竟。关于AACR3的消息如下：

暂定题名：AACR3 : Resource Description and Access
计划出版日期：2007
大纲：导论 — 一般原理
      第一部分 — 著录
      第二部分 — 选择检索点
      第三部分 — 检索点的形式
主编：Mr. Tom Delsey
(主编情况介绍另见：Tom Delsey appointed as AACR3 editor)

AACR2将在2005年作最后一次修订。
AACR3的背景信息见：AACR3: Resource Description and Access (Jan. 2005) [PDF格式]
AACR3的宣传见：AACR3 Promotion