计算机识别代替编目员著录?

    最近印度的Durga Sankar Rath和A.R.D. Prasad研究如何用计算机识别印刷图书书目信息。
    其一,根据图书的题名页确认图书的书目信息。做法是:首先扫描题名页,然后由字符识别扫描页并产生保留原字体大小信息的HTML文件,再用计算机程序进行识别信息。
    主要工作是通过统计分析500种题名页上题名、作者、出版者、出版地、版本、卷册、丛编、出版年等出现的位置、字体、标点符号、连接词等信息,建立识别程序。
    比如题名识别的推导方式是:
        出现在题名页的上部或上中部
        出现在题名页之首(75.15%,少数情况是作者或丛编)
        题名字体比其他都大(94.99%)
        如果题名和副题名出现在同一行上,则由冒号或短横分隔
        题名可能含有数字和标点符号
        题名通常含有”The”, “An”,”Introduction”, “Theory”, “in”, “to”
    作者用识别程序试验了50个题名页,有46个得到了正确的结果。

    其二,二位作者以同样做法研究了从题名页背页获取书目信息的方法。如对出版年的判断方法是:
1、如果发现4位数字,且以19或20起始,则该信息可能是出版年;
2、如果以上述方法获得1个以上年份,其中最高顺序值可能是出版年。
    其它主要工作是分析在版编目信息。AACR2的主要款目规定给他们识别题名、责任者添了很大麻烦。

    该文所述对各书目信息判断的文字描述,可用于新编目员培训。当然,其判断方法仍然比较简单,值得改进之处不少。如出版年,所获得的最高值很可能是印刷年。

原文见:
Heuristics for identification of bibliographic elements from title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)
Heuristics for identification of bibliographic elements from verso of title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)

参见:1987年Ling Hwey Jeng的博士论文(The University of Texas at Austin)
“题名页作为书目描述信息源”Thetitle page as the source of information for bibliographic description:An analysis of its visual and linguistic characteristics

 

古腾堡计划提供收录文献的MARC记录

    在LISNew.com上看到Project Gutenberg Catalog available — as MARC / Rochelle on Sunday January 02,全文如下:

pamplemousse writes “I haven’t seen this announced anywhere, except on the PG lists, but Project Gutenberg now makes available a complete catalog of their archive, in machine-readable formats. Publicly, they have an RDF/XML version available — links at http://www.gutenberg.org/feeds/ — but there is also a MARC21 format available as .zip file or bz2 file
(Disclaimer: I know this because I wrote the conversion from RDF to MARC.) The intention is to provide a MARC file which libraries may use to add records to theie catalogs for PG titles. What’s needed now is for experienced and knowledgable cataloguers to cast an eye over the result, and provide feedback.”

   这可是件很有意义的事,便于图书馆将古腾堡计划中的共享资源放入图书馆目录。于是下载了MARC文件。看后,确实如文中所说,”What’s needed now is for experienced and knowledgable cataloguers to cast an eye over the result, and provide feedback.”实在是有点简陋得惨不忍睹,也不能说是基于DC的缘故吧?在古腾堡计划的下载页面上也没见到让提供反馈信息的地方。

附MARC记录实例:

 

cam a
00014211
003PGUSA
00520041209150954.0
008ctermss040  |aPGUSA|b
042  |adc
24510|aWanted–A Match Maker |h[electronic resource]
260  |bProject Gutenberg,|c
500  |aProject Gutenberg
506  |aFreely available.
516  |aElectronic text
830 0|aProject Gutenberg|v14211
85640|uhttp://www.gutenberg.org/etext/14211
85642|uhttp://www.gutenberg.org/license|3Rights

 

图书馆公司的ITS.MARC数据库

      图书馆公司TLC (The Library Corporation) 是最早以CD-ROM方式提供MARC数据的公司,其BiblioFile曾风靡一时。在前联机编目时代,我国不少图书馆都曾是其客户。如今,它仍然向图书馆提供书目数据,其ITS.MARC,声称是世界最大的免费检索MARC数据库,含1500万条记录。可以同时检索它的多个数据库,命中的部分记录有主题。如要看MARC格式,则必须成为其用户,或者做30天的试用。

      它的经营方式沿用了BiblioFile的按库收费,为不同类型图书馆提供套餐类书目数据库订购,而不是OCLC的逐条记录付费。所以虽然看上去有一、二十个数据库,实际主要来源是美国、加拿大的如LC、NLC、NLM及美国政府,只是对这些来源数据进行了各种组合。
      需要注意的是只有British MARC、Canadian MARC (CanMARC)来自本国,而French MARC、MARC en Espanol (Spanish)并不来自法国、西班牙本土,所以后两个数据收录的法语、西班牙语文献不会很全面。
      它的特色是三个声像资料库,即A/V Access、MediaMARC、NICEM A-V MARC。如要做英文原版声像资料的编目,或许有参考价值。

附ITS.MARC数据库一览表:

 Asian MARC = 来自LC的亚洲记录
 A/V Access = 来自Professional Media Service Corp的流行声像资料
*British MARC = 来自British Library的记录
*Canadian MARC = 来自National Library of Canada,及LC MARC外国中的加拿大记录
 Contributed Research and Academic = 来自研究与学术图书馆的BiblioFile用户
 Contributed School and Public = 来自学校与公共图书馆的BiblioFile用户,特别适合于回溯转换
 Docufile = 1982- 政府文献数据库,包括美国各州、联邦及外国政府,以及联合国
*French MARC = 来自LC、NLM、USGPO、其他美国政府机构及TLC客户的法语文献记录超过70万条
 LC MARC Backfile = LC记录
 LC MARC English = LC英语出版物记录
 LC MARC Foreign = LC非英语出版物记录
*MARC en Espanol = 来自LC、NLC、NLM、USGPO、其他美国政府机构及BiblioFile图书馆的西班牙语文献记录
 MediaMARC = 来自Library Conversions Limited Company (LCLC)的教育声像资料,从近250所学校图书馆回溯转换,5万余条记录,高质量、内容丰富,平均大小为LC相应记录的2-3倍。
 MedMARC = 来自NLM,及LC、NLC的医学记录。
 NICEM A-V MARC = 来自National Information Center for Educational Media (NICEM)的音像资料书目数据库
 SEARS Cataloging = 包括带DDC和希尔斯主题的MARC记录
 TheoMARC = 来自LC及(用户)贡献记录。