社科院联合目录全MARC数据免费下载及dp2catalog查询软件

    《数字图书馆论坛》2009年第7期末整版广告:全国社会科学院联合编目中心(http://ssucs.org)提供MARC数据免费下载。试了一下,是全MARC数据的Z39.50下载。记得以前社科院西文也用的CNMARC,这次试查结果看,目前也用MARC21。
    在国内,提供Z39.50匿名访问的书目数据库已属罕见,带分类主题的全MARC数据更是凤毛麟角,还要在杂志上做广告?显然是系统开发者数字平台(北京)软件公司(http://www.dp2003.com)的广告了,二位开发者是江汇泉和谢涛。该公司还提供免费的Z39.50前端软件,对此等好事,很乐意在此推广。
[update 2010-06-02: linquanzhi提示,可能由于软件更换,此服务器已停止。]
下载方式:
通过Z39.50协议,提供100多万种MARC数据下载

Z39.50服务器特征:
支持Unicode字符集
支持UNIMARC/USMARC/DC元数据等多种数据格式
支持Z39.50、Web Service等多种协议

Z39.50服务器参数:
服务器地址: ssucs.org
端口号:210
字符集:UTF-8
数据库:all, cnmarc_books, cnmarc_series, usmarc_books

免费的Z39.50前端:数字平台公司出品的dp2catalog
下载地址:http://www.dp2003.com/dp2catalog/publish.htm

   
很多年前在网上找到还是丹诚公司的免费Z39.50前端软件Ztrans,一直用到现在,很顺手不想换。一开始不会用,还发电邮向谢涛先生请教过。三年前,江汇泉先生曾向我推荐dp2catalog,仍然是免费的,当时家中电脑还是Win98的,安装不了,
正好又换了工作方向,就搁下了。去年江先生曾发给我dp2catalog使用手册,说明支持MODS、MARCXML等XML格式的元数据,说可以用美国
国会图书馆目录检索试验,只是自己近年离编目越来越远,没有花时间钻研。
    今天安装了dp2catalog,在线安装速度还是很快的(安装网页说明文字竟然E文)。因为用惯Ztrans,所以很适应dp2catalog,不过仍没有试验XML格式的。
    存在的问题是,社科院服务器的地址竟然错误,用的是旧IP吧,需要根据上述参数更改。另外缺省配置了很多Z39.50服务器,遗憾的是由于前述国内现状,检索有结果的很少。
    由于支持几十种不同的字符集,新增服务器信息时,一定要提供字符集──很多时候使用者是不知道的,设置时就很困惑了,不像Ztrans那么傻瓜。最好提供一个最常见的字符集为缺省设置,如果没有检索结果或检索结果为乱码,自然会想到是字符集问题,此时再更改不迟。

《社科院联合目录全MARC数据免费下载及dp2catalog查询软件》上有11条评论

  1. 知道了。
    博主 对 书蠹精 的回复: 2009-09-13 14:24:56
    偶没有别的意思……

  2. 我说怎么找不到评论框,原来不支持IE6。
    前段时间在馆内人员的指导下才用上了Ztrans来做编目练习,看来现在又有新东西可玩了。
    博主 对 horseluke 的回复: 2009-09-13 14:24:32
    😀 用IE7好象已经老土了,还用IE6啊

  3. 您好,我之前看了不少您的文章,受益匪浅。今天来请教怎样才能检索国家图书馆民国期刊中的每一篇文章篇目呢,请不吝赐教,谢谢!烦请邮件回复,多谢!
    博主 对 苏嘉璐 的回复: 2009-09-13 19:44:15
    选择“目录”,输入文章篇目中的关键词,可以查到期刊。但如果期刊有多期的话,就不知道是哪一期有了,只好逐期点击了。

    您没有留邮箱啊……

  4. 刚好路过,编目精灵又见新帖。
    下了一个测试,果然是配置了很多无效z3950地址,总体感觉还是很不错的,毕竟是免费的东东,呵呵。
    既然路过就对软件提点小小建议:
    z3950服务器留几个好用的就行,配置过程太繁琐,最好直接用一行文本解决,如:[社科院联合目录/cnmarc_books/ssucs.org/210/user/password]。或者可以用不同的标点符号来分别定义,配置界面上放个样式举例帮助,用户就能很快学会。
    另外, MARC的编辑修改功能过于简单,特别是固定长字段的编辑比较困难,可以考虑弹出一个带字符位说明的编辑框。
    打开文件、保存文件可以记忆上次的路径编码格式等信息,免去每次打开保存都要经过一连串的选择。

  5. 最近一口气上几个项目,累得够呛。都没时间关注我们专家们的博客了。今天如不是晓光主编告诉我精灵点了我们的名,还不知此事呢。
    首先,澄清一点:dp2catalog纯属谢涛功劳,我可是在开发中没有一点儿功劳的。

    其次,由于它比Ztrans增加了UNICODE支持,所以真不方便用傻瓜式的设计——本来Z39.50协议提供系统采用什么编码方案的勾通机制,但不知是别的开发员不精通还是我们不精通,居然发现很多服务器端不支持这个机制,所以无法利用这个机制智能感知。dp2catalog本来是有这个功能的,但因为感知不到别的服务器或得到错误信息。所以用不上这个功能,很遗憾。看来Z39.50的研发都都该下点功夫了。

    再次,默认安装的dp2catalog中搜集的服务器信息,是偷懒,从Ztrans中抄过来的,后来加的社科院的服务器(是采用我们数据平台公司的Z39.50服务器)信息,也因为许久没有更新它,所以很多东西访问不了(包括社科院后来更换IP及端口号),有点无聊。其实这个服务器信息存贮在本地——在dp2catalog程序帮助菜单中,可以打开数据目录文件夹,可以看到它——zserver.xml。本来有想法将其放在网上公开,让大家推荐有效的服务器及链接,我们随时更新到新的安装包中。可惜因忙,此事就放下了。

    第四,whz朋友说MARC编辑功能弱了些。这是因为如果纯前端,不方便提供些服务器端的某些辅助功能——其实它作为我们系统的前端,如果检索下载了书目数据到我们数据库中,结合我们的服务器,会在编辑窗中产生很多辅助功能的。

    第五,虽然这是一个免费软件,但只要用的人多了,谢涛同志是非常乐意把它做得非常漂亮的。所以,欢迎朋友们多用,多提意见——为便于及时掌握意见,可直接给我们联系或到公司论坛中提意见。

    再次谢谢精灵老师。
    博主 对 平台江 的回复: 2009-09-16 20:34:03
    太客气啦。

    我也觉得作为Z39.50前端,编辑功能不是重点。方便下到没有乱码的全MARC记录才是重要的。

  6. 谢涛听我告之了这里的动态,了解whz朋友的意见,本想直接回复,但似乎没有看到可以匿名评论,所以把回复内容放到公司BBS中去了,现将其回复内容摘录如下:

    本来想回复其中的一个评注,但是发现必须要注册为那个博客服务商的用户才能进行回复,只好回复在这里,然后再请江汇泉设法留言给他们了。

    评注原文如下:

    刚好路过,编目精灵又见新帖。
    下了一个测试,果然是配置了很多无效z3950地址,总体感觉还是很不错的,毕竟是免费的东东,呵呵。
    既然路过就对软件提点小小建议:
    z3950服务器留几个好用的就行,配置过程太繁琐,最好直接用一行文本解决,如:[社科院联合目录/cnmarc_books/ssucs.org/210/user/password]。或者可以用不同的标点符号来分别定义,配置界面上放个样式举例帮助,用户就能很快学会。
    另外, MARC的编辑修改功能过于简单,特别是固定长字段的编辑比较困难,可以考虑弹出一个带字符位说明的编辑框。
    打开文件、保存文件可以记忆上次的路径编码格式等信息,免去每次打开保存都要经过一连串的选择。
    whz | 发表于2009-09-14 14:08:10

    我的回复如下:
    1) 无效的z39.50服务器地址问题,我们将尽快找热心的专家和同仁加以甄别解决,力保在软件安装的服务器配置文件中的服务器都是可用的。另外,也欢迎使用dp2catalog的朋友们贡献自己新发现的有价值的Z39.50服务器地址,我们会随时增补到列表中;(由于dp2catalog在EACC字符集和日文、韩文等字符集方面有特别的考量,我们也计划要整理公布一批这方面的Z39.50服务器地址,希望关注这方面信息的朋友和我们建立和保持联系)
    2) …略去。
    3) 关于新的Z39.50服务器属性配置繁琐的问题,实际上这是对界面的一种错觉。一般情况下,很多事项都有缺省值,并不需要显式地去配置。最低限度,只要有服务器名,服务器IP地址或域名,端口号,数据库名几个事项即可。也就是说,正好是Z39.50服务器属性对话框的左端的一个属性页的内容,其他的可以不管。
    当然,如果这个服务器有字符集方面的特殊特性,就需要多关注配置几个事项了。
    4) MARC编辑器中固定长字段编辑困难的问题,是因为新用户不知道如何调出模版界面。当插入符处在要关注的固定长字段、子字段内容上时,按Ctrl+M键,就可以调出模版,上面按照字符位置精细给出了说明和建议值。关于这个界面习惯,相关软件一路下来恐怕已经有10多年的历史了吧。
    5) 打开文件功能,如果指“连接MARC文件”功能,确实没有保留以前使用过的文件路径,我们考虑在后面的版本加上这个功能。保存文件功能,如果指“保存记录到MARC文件”,是有保留以前使用过的文件路径和编码方式信息的能力的。
    6) dp2catalog有一个“应用指南”,这是一个word文档,在下面地址可以下载:
    http://dp2003.com/filews/getfile.aspx?username=dp2catalog&filename=%5cdp2catalog%e5%ba%94%e7%94%a8%e6%8c%87%e5%8d%97.doc
    关于使用方法,在这个文档里面有比较详细的介绍,大家可以拨冗看看,相信会有收获的。

    另外,编目精灵所提到的社科院Z39.50服务器的IP地址是错误的问题,我已经更新了安装包中的zserver.xml文件中的相关内容。
    博主 对 平台江 的回复: 2009-09-20 11:40:08
    在公司BBS上的回复:

    谢谢回复。等着新的可用Z39.50列表。

    关于Z39.50服务器设置,我试的时候,软件提示要选择字符集,而且是二个都要设置,否则无法保存。不知道是不是使用上有什么不对的地方。

    另:博客巴士“回复”是要注册用户,直接留言则不需要。

  7. 没找到“回复”,不知是不是在“发表评论”里写。
    确实是个好东东,不敢有什么意见的啦,呵呵。既然下载测试了,出点小小建议,免得辜负了谢涛先生的免费美意。
    很看好这个多线程下载,不过多线程会带来假死现象,一组服务器个数最好设个上限,感觉20以内速度容易接受,40速度能容忍,超过60个服务器,会有假死卡住现象。
    以前没用过,原来有ctrl+M解决固定长字段的编辑,有空下个“应用指南”来看看。
    找到zserver.xml,很好用,可以excel替换来批量加服务器。发现文件中有“&”好像会出错,大概是转义字符的缘故吧。
    <server>中顺序不是都相同?
    Z39.50服务器属性对话框中把必需加的放在一个选项卡,可能会更方便些,默认属性归入其它选项卡

  8. http://dp2003.com/dp2bbs/article.aspx?board=@__2&topid=513&pageno=1

    以下是whz在

    /posts/20090911195136.html

    里的最新回复:

    没找到“回复”,不知是不是在“发表评论”里写。
    确实是个好东东,不敢有什么意见的啦,呵呵。既然下载测试了,出点小小建议,免得辜负了谢涛先生的免费美意。
    很看好这个多线程下载,不过多线程会带来假死现象,一组服务器个数最好设个上限,感觉20以内速度容易接受,40速度能容忍,超过60个服务器,会有假死卡住现象。
    以前没用过,原来有ctrl+M解决固定长字段的编辑,有空下个“应用指南”来看看。
    找到zserver.xml,很好用,可以excel替换来批量加服务器。发现文件中有“&”好像会出错,大概是转义字符的缘故吧。
    <server>中顺序不是都相同?
    Z39.50服务器属性对话框中把必需加的放在一个选项卡,可能会更方便些,默认属性归入其它选项卡
    whz | 发表于2009-09-23 11:31:49

    ~~~
    以下是我的回复:

    谢谢whz。
    1) 多线程的下载,作为开发者,我还真没有测试过太大量的情况,不过从开发的角度,一般的机器是不能支撑太多线程的,在需要线程太多的情况下,要采用线程池(thread pooling)技术,用一定量的线程轮番把全部任务完成。dp2Catalog目前版本没有采用线程池技术,随后我们会考虑采用(或者采用其他类似的技术策略)。
    2) zserver.xml是直接可以被修改的。
    注意最好在退出dp2Catalog后修改。为了打开这个文件,可以使用主菜单“帮助/打开数据目录文件夹”功能。因为安装目录一般都很深,很难找。
    另外还请注意,备份好自己对zserver.xml的修改。因为有可能dp2Catalog在升级安装过程中,会提示先卸载旧版本,如果不卸载,也启动不了旧版本,这样就有可能把曾修改过的zserver.xml文件丢掉。
    3) xml文件中特殊字符是需要用实体的(&符号引导的内容),因此,虽然xml文件是文本文件,但写xml文件最好用类似DOM或XmlTextWriter等的库函数来进行,避免写出不合法的xml文件内容。
    4) “<server>中顺序不是都相同?”这句话没有太看懂。是要询问<server>元素中的属性的顺序么?请明示。
    5) Z39.50属性对话框中视觉上区分必填和可选的参数,是个好主意。放在一个属性页恐怕不行,那样太拥挤了。可以考虑在特定情况下飞出一个tips窗口提示,或者给属性页一定的标志说明等办法。

    ~~~

    这里顺便谈到,我很早就有一个想法,由用户大家来维护一个比较权威的Z39.50服务器列表,存储在数字平台的服务器上,所有dp2catalog用户可以随时探知和下载新的服务器节点。这需要为dp2catalog增加一系列的管理功能,有一定的开发量。如果有用户感兴趣这方面的功能,愿意使用,我可以考虑开发它们。

    其实在非常简陋的条件下,大家也是可以通过论坛帖子来交换信息的,比如由一个热心的人士来收集信息,定期提供一个zserver.xml配置文件。不过,每个用户要把对这个权威列表中的感兴趣的服务器信息挑出来合并到自己本地的zserver.xml文件中,并不是一件容易的事情。

    所以,我想,如果有了比较方便的正规的功能,是不是大家就真能用起来,实现共享服务器列表信息的目的呢?可能性还是有的。

    设想中的服务器列表管理功能,能从一个集中的服务器下载信息,允许用户选择感兴趣的服务器,合并到本地的zserver.xml文件中。集中的服务器内有新的信息,或者有信息发生修改,都能提示所有用户。对于有价值的服务器配置信息,可以一个按键提交到集中的服务器,这样所有用户都能共享了。另外,还可以从其他用户那里复制来zserver.xml,进行挑选性的复制。

    这些功能到底有没有价值,需不需要,很想听听大家的意见。

    博主 对 谢涛 的回复: 2009-09-25 20:22:36
    谢谢。

    在公司平台上的回复:

    可用中外文Z39.50服务器信息一览表无疑是有需求的。如果有一个合适的平台让大家维护,也一定会有热心参与者的。

    只是我不了解zserver.xml的文档结构是不是通用的,也就是说是不是也能用于配置其他Z39.50客户端。

    如果不是,那么比较好的方法,就是大家编辑一个简单的表单,然后可以勾选需要的服务器,选择格式(如zserver.xml格式或其他)输出。这样不了解自已所用Z39.50客户端配置文件格式的人,也可以用一览表中的数据,进行手动配置。

  9. 没有别的什么不好,社科院们的服务器唯一缺点就是数据量太少。命中率太低!在此俺推荐一个Z3950服务器:没有别的优点就是数据多。命中率高,质量好!!

    结点名称:拓迪编目中心①
    服务器IP:222.240.132.117/z3950.xicp.cn
    数据库:uc_bib
    端口:2100

    博主 对 西瓜皮 的回复: 2009-12-07 17:36:13
    试了。1、数量不比社科院多;2、质量没有社科院好──简编数据,那是用来做广告的

  10. 命中率太低!几乎很少几个数据库能连上的。台港的倒可以连上。

评论已关闭。