最近印度的Durga Sankar Rath和A.R.D. Prasad研究如何用计算机识别印刷图书书目信息。
其一,根据图书的题名页确认图书的书目信息。做法是:首先扫描题名页,然后由字符识别扫描页并产生保留原字体大小信息的HTML文件,再用计算机程序进行识别信息。
主要工作是通过统计分析500种题名页上题名、作者、出版者、出版地、版本、卷册、丛编、出版年等出现的位置、字体、标点符号、连接词等信息,建立识别程序。
比如题名识别的推导方式是:
出现在题名页的上部或上中部
出现在题名页之首(75.15%,少数情况是作者或丛编)
题名字体比其他都大(94.99%)
如果题名和副题名出现在同一行上,则由冒号或短横分隔
题名可能含有数字和标点符号
题名通常含有”The”, “An”,”Introduction”, “Theory”, “in”, “to”
作者用识别程序试验了50个题名页,有46个得到了正确的结果。
其二,二位作者以同样做法研究了从题名页背页获取书目信息的方法。如对出版年的判断方法是:
1、如果发现4位数字,且以19或20起始,则该信息可能是出版年;
2、如果以上述方法获得1个以上年份,其中最高顺序值可能是出版年。
其它主要工作是分析在版编目信息。AACR2的主要款目规定给他们识别题名、责任者添了很大麻烦。
该文所述对各书目信息判断的文字描述,可用于新编目员培训。当然,其判断方法仍然比较简单,值得改进之处不少。如出版年,所获得的最高值很可能是印刷年。
原文见:
Heuristics for identification of bibliographic elements from title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)
Heuristics for identification of bibliographic elements from verso of title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)
参见:1987年Ling Hwey Jeng的博士论文(The University of Texas at Austin)
“题名页作为书目描述信息源”Thetitle page as the source of information for bibliographic description:An analysis of its visual and linguistic characteristics
我也是从事相关工作的。在你的blog看学到了很多关于marc的东西。很高兴:)<br>
同行啊,欢迎。能告知您的网址吗?<br>
http://searin.tianyablog.com<br><br>我是去年8月才刚刚接触这个行业的<br>还是新人~<br>以后要多多指教:)<br>
我们的小新越来越厉害了 哈哈 愿你找到爱你得人<br>
编目精灵收集的东西真是不错,收益非浅.以后会常常来看,顺便拿走好东西,呵呵<br>