青树教育基金会想要将开源图书馆集成系统Koha用到中国贫困地区的中学图书馆,在本地化时却发现现在编目模块有了对台湾CMARC的支持,还没有对CNMARC的支持。
对软件开发一窍不通,前些天在大旗底下QQ群中发布相关信息时得知,要做本地化投入不小。但CMARC与CNMARC同样源自UNIMARC,差别不大,或许有了CMARC的基础,后续工作量就不那么大了?
今天看到毛庆祯翻译的Koha 2.2简介,看来CMARC部分源自Paul POULAIN 的法文UNIMARC版Koha,亦非重起炉灶。这就是开源的力量了。
因之,根据国家图书馆2004年的《新版中国机读目录格式使用手册》,以及网上找到的台湾《中國機讀編目格式》第三版(1989),作了一个简单的CNMARC与CMARC对照表,目前只到字段一级。希望能对Koha简体汉字版开发者有所帮助。
参见:
广告:Koha开源社区·中学图书馆志愿者 (2008-9-6)
开源OPAC也精彩 (2007-01-14)
关于Koha参见:
大三的时候就想到过这个问题,还以为早有人做了呢。。。
博主 对 程亮 的回复: 2008-09-07 09:29:25
是Koha的简体中文化吗?在perlchina查到有一个感兴趣的人,是你吗?
精灵您好,又有问题来请教了:)
本人任职于一图书进出口公司做技术支持,最近公司有意开发一套基于WEB的图书目录服务系统供图书馆老师选书之用,对于这个系统的实现本来觉得没有什么技术难度,无非是用搜索引擎技术实现大数据量的检索和提高易用性的问题。但最近和南师图书馆杨老师交流中得到建议说最好能选书后直接与主流图书馆系统进行数据对接,这样即可省去繁琐的导出、查重、导入了。我google了一下发现有个公司Exliberis(http://www.sfxit.com/)专门做接口,但是肯定出价不菲,看来要潜心研究一下OPAC的协议了。另外杨老师提供说Blackwell Synergy能实现此功能(好像也是用到Exliberis的产品),但并入Wiley后在Wiley的InterScience里却没找到相关说明,请精灵老师给点建议,感激不尽。
另外您有即时消息工具能联系么,我的MSN见邮件地址,谢谢。
博主 对 王超 的回复: 2008-09-07 14:32:40
看不懂哦……已加MSN,或可一聊
对不起,以上留言有两个错误
A.公司名应为:Ex Libris
B.是华南师范的杨老师,删错字了 :S
精灵老师好,当时我想到的问题是CNMARC和CMARC的兼容转换问题,因为当时同时看到了两个问题:就是OCLC中的汉语数据都是海外传的,还有就是当时学校的系统对CMARC和MARC21都不兼容,所以当时觉得是个很重要的问题,甚至有点“美帝给我国统一制造障碍”的感觉。
至于Koha,当时是从《中国信息导报》上第一次读到的,当时并没引起我的兴趣,主要是考虑到汉化成本、继续开发的队伍建设,以及对系统安全的担心是国内图书馆界难以克服的“三座大山”。现在终于有人做了,果然也是“业界”之外的人。。。开源软件方面大家似乎都是一种搭便车心理,国内还是应该好好研究一下激励机制的问题。。。不过当然,有人做了确实是让人高兴的事情。。。
博主 对 程亮 的回复: 2008-09-07 20:46:57
OCLC的中文数据用的是带880的MARC21数据,较一般MARC21数据复杂,转换为CNMARC也多些困难。想来也不会有人要OCLC的数据吧?那么贵。
不过如果要求不太高,编个软件双向转换也不会太难的──国图的CNMARC数据不都转成MARC21向OCLC提供了?
CMARC与CNMARC很相似,转换应该更容易了,当然还涉及字符集问题。
不过在软件中实现编目这一块,会遇到哪些麻烦就不得而知了。
看过代码和程序,难度其实也没什么,全是开源的,主要程序架构都是perl编的,linux下运行问题不大,纯web编目,主要就是CN和CM的区别,去年就已经开始研究这个问题,今天才从便木精灵这里得到该表,以前做的其实真的不够,主要懒得在代码行里爬,回头好好研究研究,如果国内出现一两个研究开源图书馆管理系统的团队,一年要省多少钱啊!shit
博主 对 ff_dreamer 的回复: 2008-09-08 17:36:03
那就与刘先生联络一下,合作吧 :)
老毛的google讨论组很早以前就在关注,海峡那边的图书馆界确实有几个能潜下心干点实事的人,这个事情我觉得是一个很好的开始。06年出来的东西,现在终于有人把它从灰尘满满互联网抖了出来,可喜可贺!
博主 对 ff_dreamer 的回复: 2008-09-08 17:45:10
梦兄关注对岸的讨论组,不知可有应用实例?
880字段的确是CNMARC和MARC21转换的大问题,其实MARC21有两个系列,A系列和B系列,A系列中245字段时不可重复的,采用880字段存放非罗马字符的信息。而B系列则是多语种兼容的,不同语言,无论是罗马字符还是非罗马字符都是平等的,许多在A系列中不可重复的字段在B系列中都是可重复的,如245字段,可以有两个245字段,一个245字段存放罗马字符,如汉语拼音,另一个245字段放非罗马字符,如汉字,这样对于非罗马文字的编目数据而言,B系列逻辑上更完善,对重复字段进行索引应该已经没有技术困难了,只是西方国家习惯于罗马文字,不太重视对多语言的支持,随着越来越多的多语种数据进入OCLC,情况会有改变,我已经看到OCLC中的规范文档中4XX字段zhon共出现中日韩字符了,如果中日韩大量采用B系列的MARC21,那么B系列就会成为主流,这样会减少很多不同MARC转换的麻烦。
博主 对 雨僧 的回复: 2008-09-08 17:39:09
啊,忘了重复245等字段这回事了。不过,A系列、B系列的说法倒是第一次听说,汗!