日志标签 ‘MARC’

无处不在的元数据

2005年3月25日

    印象中以前数据库的”字段”,现在都称为元数据了,各行各业都在研制元数据,电子商务、企业信息、政务资源、统计指标、档案管理、电子公文、信用信息……。原来生成/修改日期、访问权限之类计算机文件的”属性”,也变成了元数据,如MP3文件的元数据ID3,定义了作曲家、词作者、演唱/演奏者等数十个属性;更有数码相片文件的元数据复杂到了定义拍摄的经纬度和海拔。
    曾以为Google的关键词检索只需要人工智能分析词间关系,组成一个词表(或许是语义网、本体什么的?),不需要元数据。但看着Google近半年接两连三地推出各种专类检索工具/功能,学者Google Scholar的引文、电视Google Video的节目预报、地图Google Maps的企事业单位信息、电影(movie:命令)的影评与影院信息,以及最近引起广泛争议的Google工具条的网页自动链接AutoLink功能,终于明白其实在Google简洁检索界面的背后,肯定蕴藏着极其复杂的元数据,用以组织机器搜集到的看似无序的信息。

    我们的机读目录MARC有差不多40年历史了,或许可称得上元数据的前辈。定义了那么多字段、子字段,虽然不是都要用,看上去也很烦。于是不满意MARC者设计出都柏林核心元数据DC,来代替烦琐的MARC,只用十多个元素就够了,很爽。可渐渐发现不够用,于是加修饰词,先是标准修饰词,然后又可以自定义修饰词,现在弄得跟MARC也相去不远了。
    其实当深入到事物的内部,必然越分析越细致,需要的元素也就越多,就好象前面所举MP3和数码相片元数据的例子。看出版商描述图书信息的元数据ONIX,近200个元素(tag),与MARC相比,其烦琐程度可说是有过之而无不及。
    看来,在今后相当长的一个时期里,综合描述各类文献元数据的MARC还是很安全的――不会被淘汰。或许磁带时代顺序读取的产物2709格式,会因与时俱进而被XML或别的什么格式所代替,但MARC的基本字段、子字段应该不会有太大的变化。

 

编目的简化与强化

2005年3月19日

    在不同时代,编目工作时而强调简化,时而强调强化,但从来没象现在这样,简化与强化两种趋势交织在一起。一方面,MARC格式的核心级之类的简化记录广泛应用,很多著录内容都可以省略,比如一些代码字段、附注字段。与此同时,有助读者使用的著录内容却在增加,比如目次、内容提要。有那么一点回归中国古典目录学”指点学术门径”的意思。
    例子之一是近几年,美国国会图书馆LC的不少书目记录提供一至三条856字段,分别链接图书的目次、出版者对图书的描述和作者信息等。这就是LC的书目强化咨询组LC Bibliographic Enrichment Advisory Team (BEAT)所从事的强化书目计划。LC凭借其国家图书馆的地位,与出版者等合作,由出版者向其提供相关信息,存于LC的网站。近年来已有6万多条书目记录提供了上述信息的链接,而目次链接的累积点击率也高达360万次。
    有目次信息链接自然好,然而,如果在看到书目信息的同时就看到目次,而无需点击链接岂不更好?2月1日起,BEAT计划开始机器生成目次工作,将原由856链接的目次信息转到505字段,进一步强化书目记录。机器生成的505字段格式如下:

505 8# $aMachine-generated contents note: PREFACE 1. Probability — 1.1 Introduction 1 — 1.2 Algebra of Sets 2 — 1.3 Properties of Functions 5 …

 

    505字段不显示附注导语,而显示统一的”Machine-generated contents note:”。由于目次由计算机将经扫描的页面自动转换而成(不作人工处理),故而还会显示章节的相应页码,与看实际的目次页基本差不多了。
    转换完成后,原链接到数字目次的856仍保留在记录中。这就是说,原来的链接还会继续有效。谢天谢地,我们原来套录下来的记录不用找出来逐条删除856――LC还是很为大家着想的。

 

书目记录深度揭示实例·得奖信息

2005年3月15日

    书目记录要详细到什么程度?现在有水准的编目员的兴趣大概已经不在对著录文献实体本身的描述上了,更希望提供与作品本身有关的其他信息。比如?
    手头有一个例子,CatalogABlog描述了作者在书目记录中用586字段著录作品得奖信息。为获取作品得奖信息,作者还找到了一个”获奖儿童文学作品数据库”Database of Award-Winning Children&aposs Literature (DAWCL)。
    不知道还有没有其他方面作品的获奖数据库?或书评库?

Update(2005/4/20): 感谢豆儿网友指出原文误将586写作856。

CatalogABlog主人David Bigwood 原文如下:I try to include awards information (Field 586) in the bibliographic records. A good place to track down awards is the Database of Award-Winning Children&aposs Literature (DAWCL).

 

计算机识别代替编目员著录?

2005年1月21日

    最近印度的Durga Sankar Rath和A.R.D. Prasad研究如何用计算机识别印刷图书书目信息。
    其一,根据图书的题名页确认图书的书目信息。做法是:首先扫描题名页,然后由字符识别扫描页并产生保留原字体大小信息的HTML文件,再用计算机程序进行识别信息。
    主要工作是通过统计分析500种题名页上题名、作者、出版者、出版地、版本、卷册、丛编、出版年等出现的位置、字体、标点符号、连接词等信息,建立识别程序。
    比如题名识别的推导方式是:
        出现在题名页的上部或上中部
        出现在题名页之首(75.15%,少数情况是作者或丛编)
        题名字体比其他都大(94.99%)
        如果题名和副题名出现在同一行上,则由冒号或短横分隔
        题名可能含有数字和标点符号
        题名通常含有”The”, “An”,”Introduction”, “Theory”, “in”, “to”
    作者用识别程序试验了50个题名页,有46个得到了正确的结果。

    其二,二位作者以同样做法研究了从题名页背页获取书目信息的方法。如对出版年的判断方法是:
1、如果发现4位数字,且以19或20起始,则该信息可能是出版年;
2、如果以上述方法获得1个以上年份,其中最高顺序值可能是出版年。
    其它主要工作是分析在版编目信息。AACR2的主要款目规定给他们识别题名、责任者添了很大麻烦。

    该文所述对各书目信息判断的文字描述,可用于新编目员培训。当然,其判断方法仍然比较简单,值得改进之处不少。如出版年,所获得的最高值很可能是印刷年。

原文见:
Heuristics for identification of bibliographic elements from title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)
Heuristics for identification of bibliographic elements from verso of title pages. Library Hi Tech, Vol. 22 No. 4 (文摘)

参见:1987年Ling Hwey Jeng的博士论文(The University of Texas at Austin)
“题名页作为书目描述信息源”Thetitle page as the source of information for bibliographic description:An analysis of its visual and linguistic characteristics

 

古腾堡计划提供收录文献的MARC记录

2005年1月3日

    在LISNew.com上看到Project Gutenberg Catalog available — as MARC / Rochelle on Sunday January 02,全文如下:

pamplemousse writes “I haven’t seen this announced anywhere, except on the PG lists, but Project Gutenberg now makes available a complete catalog of their archive, in machine-readable formats. Publicly, they have an RDF/XML version available — links at http://www.gutenberg.org/feeds/ — but there is also a MARC21 format available as .zip file or bz2 file
(Disclaimer: I know this because I wrote the conversion from RDF to MARC.) The intention is to provide a MARC file which libraries may use to add records to theie catalogs for PG titles. What’s needed now is for experienced and knowledgable cataloguers to cast an eye over the result, and provide feedback.”

   这可是件很有意义的事,便于图书馆将古腾堡计划中的共享资源放入图书馆目录。于是下载了MARC文件。看后,确实如文中所说,”What’s needed now is for experienced and knowledgable cataloguers to cast an eye over the result, and provide feedback.”实在是有点简陋得惨不忍睹,也不能说是基于DC的缘故吧?在古腾堡计划的下载页面上也没见到让提供反馈信息的地方。

附MARC记录实例:

 

cam a
00014211
003PGUSA
00520041209150954.0
008ctermss040  |aPGUSA|b
042  |adc
24510|aWanted–A Match Maker |h[electronic resource]
260  |bProject Gutenberg,|c
500  |aProject Gutenberg
506  |aFreely available.
516  |aElectronic text
830 0|aProject Gutenberg|v14211
85640|uhttp://www.gutenberg.org/etext/14211
85642|uhttp://www.gutenberg.org/license|3Rights