计算机识别代替编目员著录?

    最近印度的Durga Sankar Rath和A.R.D. Prasad研究如何用计算机识别印刷图书书目信息。
    其一,根据图书的题名页确认图书的书目信息。做法是:首先扫描题名页,然后由字符识别扫描页并产生保留原字体大小信息的HTML文件,再用计算机程序进行识别信息。
    主要工作是通过统计分析500种题名页上题名、作者、出版者、出版地、版本、卷册、丛编、出版年等出现的位置、字体、标点符号、连接词等信息,建立识别程序。
    比如题名识别的推导方式是:
        出现在题名页的上部或上中部
        出现在题名页之首(75.15%,少数情况是作者或丛编)
        题名字体比其他都大(94.99%)
        如果题名和副题名出现在同一行上,则由冒号或短横分隔
        题名可能含有数字和标点符号
        题名通常含有”The”, “An”,”Introduction”, “Theory”, “in”, “to”
    作者用识别程序试验了50个题名页,有46个得到了正确的结果。

    其二,二位作者以同样做法研究了从题名页背页获取书目信息的方法。如对出版年的判断方法是:
1、如果发现4位数字,且以19或20起始,则该信息可能是出版年;
2、如果以上述方法获得1个以上年份,其中最高顺序值可能是出版年。
    其它主要工作是分析在版编目信息。AACR2的主要款目规定给他们识别题名、责任者添了很大麻烦。

    该文所述对各书目信息判断的文字描述,可用于新编目员培训。当然,其判断方法仍然比较简单,值得改进之处不少。如出版年,所获得的最高值很可能是印刷年。

原文见:
Heuristics for identification of bibliographic elements from title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)
Heuristics for identification of bibliographic elements from verso of title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)

参见:1987年Ling Hwey Jeng的博士论文(The University of Texas at Austin)
“题名页作为书目描述信息源”Thetitle page as the source of information for bibliographic description:An analysis of its visual and linguistic characteristics

 

杜兰大学图书馆编目部主页之主题标引

Cataloging Department, Howard-Tilton Memorial Library, Tulane University

编目资源部分Cataloging Resources链接了很多有用的资源,既有工具性的,也有资料性的。基本上涵盖了编目的各个方面。只是其中部分有使用限制(IP或口令)。

内部文献部分Local Documentation收录了内部资料,既有与其工作流程有关的资料,也有一般指导性的资料。可作编制本部门工作文件的参考。特色:主题标引方面的资料。针对LCSH的某一方面进行总结归纳,并附实例说明,对了解与掌握LCSH标引极有帮助。内容包括:

导论:


子标题:

地理标题:

文学标题:

 

(2005/6/2更改标题,原题:编目部主页之美国杜兰大学图书馆)

 

多语种在线翻译网站

    以前看到Google的语言工具,有多语种文本翻译和网页翻译等功能,包括中文。只是不知道是不是在中国水土不服,经常的翻译结果是”该页无法显示”。
    今天找到一个网站Langenberg,其中的语言翻译Translation,在同一界面下集成了多个翻译网站的翻译功能,包括多语种文本翻译、网页翻译等。文本翻译包括如下6个网站:

Google的语言工具
Altavista的Babel Fish Translation
Free Translation
Dictionary.com
WorldLingo的Free Online Translator
Translation Experts

    试译了一段德语:”eine buchhandelsausgabe besorgt der westdeutsche verlag, wiessbaden.”从德-英翻译结果看:

Free Translation最为地道,结果是:
The west german publishing house, wiessbaden provides a book-trade edition.
Babel Fish TranslationDictionary.comFree Online Translator三个网站结果相同,或许用的同一翻译软件?都是:
an expenditure for book trade procures the West German publishing house, point-bathes.
Google照例是”该页无法显示”,而Translation Experts翻译结果夹杂着很多未译原文,不堪一读。
    一般翻译语种中即使有汉语也只能与英语互译,所以见到Free Online Translator有汉语和德语对译,很兴奋。不过上句德语汉译结果是:”开支为帐面交易获得西德出版房子, 点沐浴。”不单词序有问题,词汇也有问题。

    如果直接到所列各网站,可能包括更多的语种对译。或许是Langenberg网站没有及时更新的缘故。
    Langenberg的语言翻译部分还有二个猜测语言的网站,也很有意思。Fuzzums只是提供一个属于不同语言的概率(百分比),试下来准确性值得怀疑。施乐Xerox的Language guesser比较准确。如果不幸要处理一本自己也不知道是什么语种的书,或者要看一个不知道什么语种的网站,可以试一下这个网站,先确认语种,然后着手让在线翻译网站帮着翻译。

    另:Langenberg是一个综合性元搜索网站,内容很丰富,其中的参考Reference除翻译外,还集成诸如词典百科全书首字母缩略语词典。差不多是个宝藏,值得细细挖掘。

参见:”中文搜索引擎指南”2003-12-04邢志宇”网页在线即时翻译“。试了其中有非英语汉译的几个,可用性仍待加强。