开源云服务DuraCloud新价格

2012年5月4日 由 catwizard 没有评论 »

去年11月,由开源软件Fedora和DSpace合并组成的DuraSpace发布开源云服务DuraCloud,价格着实不便宜(见:DuraSpace发布开源云服务DuraCloud, 2011年11月15日)
5月1日,DuraSpace发布新的数字保存与存档服务,基本服务价格大幅下降,放宽存储限制。套餐由原来的3种变为4种:
DuraCloud Subscription Plans
1、基本保存
$1500/年首个TB,后续$1300/年每个TB
2、增强保存
$3000/年首个TB,后续$2600/年每个TB
1和2可对比去年基本存档与保存:$4500/年500GB,不可增加
3、专业(标准)
$5900/年首个TB,后续$1300/年每个TB
专业级有媒体服务,可对比去年基本媒体访问:$4500/年500GB,不可增加
4、专业(贵宾)
$7200/年首个TB,后续$2600/年每个TB
对比去年专业级$7000/年1TB,后续$1.00/年每个GB
这个级别相比去年提价了。这次两个后续$2600/年每个TB的套餐,有在多个云数据中心间自动同步及文件恢复功能。这个去年的专业级就有。
专业和非专业的差别,除了媒体服务外,其他都是管理方面的,如创建子帐户,管理平台用户数不限(非专业只能有2个)。
另外,存储超过10TB,价格会有优惠。

从其列出的解决方案看,包括5种类型:联机备份、保存与存档、媒体访问、联机共享、云中介。有5项功能:备份与同步、(文档)健康检查、音视频流、图像服务、开源软件。官方消息对各项功能的一句话解释:
New DuraCloud digital preservation and archiving services [2012-5-1]
- 内容拷贝,存储于多个[云服务]供应商
- 自动健康检查,文件永远不会损坏或丢失
- 自动修复受损文件,针对增强保存客户[套餐2]
- 全套报告,更有效地管理内容
- 联机共享并流至任何连网设备

没有目前的用户列表,只有几个用户介绍(User Spotlights):罗得学院、政治与社会研究大学间联盟ICPSR、麻省理工学院和波士顿公共电视台。
仍可申请60天试用,仍要排队等候:Trial Account Request

相关文档在可其维基访问:DuraCloud Wiki

via Library Technology Guides: New DuraCloud digital preservation and archiving services (2012-5-3)

皮尤研究:数字时代的公共图书馆

2012年4月26日 由 catwizard 没有评论 »

皮尤研究中心是位于美国首都华盛顿的一个专门进行调查的“事实库”,皮尤因特网项目(Pew Internet)是其中专门研究人们如何使用数字技术的部门,研究主要基于对全美国成年人所做的电话调查,不推荐特定技术,也不做决策建议。(下文PPT之p.2)
“数字时代的公共图书馆”是皮尤因特网项目正在进行的对数字时代公共图书馆及其用户职能改变的研究,由盖茨基金会提供为期三年、140万美元资助。(下文PPT之p.3)

近日发布的演示文稿,介绍了该项目已经、正在及将要做几个阶段研究:
Public libraries in the digital age / Kathryn Zickuhr and Mary Madden (Pew Internet & American Life Project). April 25, 2012

第1阶段,2011.8-2012.7 (p.4)
图书馆+新技术
· 电子阅读的兴起(已出版)
· 电子书与图书馆,2012.6(目前正在对馆员与读者进行在线调查,5.18截止)
· 不同类型社区中图书馆的利用
· 年轻图书馆用户的习惯

第2阶段,2012.5-11 (p.5)
图书馆服务的改变
· 图书馆员在社区中职能的演变(新的图书馆服务、人们对图书馆的期望、图书馆的未来)
· 图书馆在特殊人群生活中的职能(低收入用户、少数民族、农村居民、老年人)

第3阶段:2012.9-2013.4 (p.6)
使用/不使用图书馆者的类型
· “图书馆用户”类型(不同用户“类型”:其本地图书馆如何、他们怎样使用图书馆、对图书馆的一般态度)
· 年轻图书馆用户的最新、深入的肖像

———-链接———-
项目网站:http://libraries.pewinternet.org/
有相关报告链接

演示文稿:http://libraries.pewinternet.org/category/presentations/
自2009年以来,与图书馆相关的调查

2012.4.4出版的第一份报告:电子阅读的兴起(The rise of e-reading,有PDF下载)
纸本书、电子书(含有声书)、电子书阅读器的各种调查数据。比如:
· 2010.6与2011.12,纸本书阅读由95%下降到84%,而电子书由4%上升到15%(上文PPT之p.9)
· 在床上阅读:43%偏好纸本书,45%偏好电子书(上文PPT之p.18)
· 要读电子书时,首先想到网上书店或网站找的占75%,在公共图书馆找的占12%(上文PPT之p.20)

RDA的MARC全记录实例发布

2012年4月24日 由 catwizard 没有评论 »

按照美国RDA测试报告的要求,RDA工具包网站4月23日发布了JSC编制的RDA的MARC全记录实例,包括书目记录与规范记录。实例现以PDF格式免费下载,意在作为RDA培训及日常工作的参考资料。RDA工具包5月更新时,将包括此部分内容。

MARC Record Examples of RDA Cataloging
本次发布的实例,每个都由“RDA元素”和“MARC编码”二部分组成。前者有助于掌握各类资源(对书目记录而言)或实体(对规范记录而言)所对应的RDA元素,后者可在某种程度上视为相应的MARC记录模板。
目前看来书目记录实例还太少,甚至没有涵盖RDA的25个内容类型或10个媒介类型。期待未来扩大。

一、书目格式
含7个实例:
1、录音(声频记录)──图书
2、录音(声频记录)──音乐
3、图书1
4、图书2
5、连续出版物
6、录像(视频记录)
7、网站──集成性资源
二、规范格式
包括五个部分,每个含若干实例:
1、个人名称(7个实例)
2、家族名称(2个实例)
3、团体(5个实例)
4、作品(7个实例)
5、内容表达(2个实例)

Via RDA Toolkit Blog: RDA Examples now available (23 Apr 2012)

参见:RDA美国测试结果公布 (2011年6月15日)

DOAB开放获取图书目录的MARC数据转换

2012年4月24日 由 catwizard 没有评论 »

写了“DOAB:开放获取图书目录”(2012年4月13日),想着趁热打铁,看怎么把数据放到OPAC。DOAB提供两种获取元数据方式(About──Metadata harvesting and content dissemination),一是OAI收割DC格式数据,一是下载CSV格式数据。
———-EXCEL格式处理———-
因为有EXCEL转为MARC的软件,所以下载了CSV格式数据。
在EXCEL中“分列”并做转换,发现数据有一些问题:
1、乱码。图书语种有英语、德语、法语、荷兰语、意大利语、威尔士语,某些语种数据在我的电脑上显示为乱码,需要逐个在网站上查出重新粘贴。后来知道是Unicode的缘故。
2、数据缺失。可能部分由于字符问题,网站显示的数据就有缺失,少数题名、作者只显示很小部分(甚至单个字母),因而一眼就能看出来。需要到WorldCat上查出补全。
3、格式不一。因为数据来自出版社,所以差别较大,比如有的没有关键词。影响较大的主要有:
(1)作者。主要是有的姓名倒置,有的直序。对于全文检索这或许不是问题,但对于OPAC作者查询,影响还是比较大。
(2)语种。德文一般用German,也有一个用Deutsch。还有三个出版社不提供语种信息,其中大部分是英语,但阿姆斯特丹大学出版社有部分是荷兰语,需要逐一甄别补全。
CSV格式数据有Added on date,后续如果要识别新增数据还是很方便的。为保证系统中数据标识唯一,在EXCEL表中以Added on date及ISBN排序,依顺序给每种书一个以DOAB起始的流水号作为控制号;再给全文链接加说明语"DOAB开放获取图书",让信息更明确,也更友好些。
———-MARC格式处理———-
EXCEL表处理处理花了不少时间,完后转换为MARC。看MARC记录,要继续处理的问题还很多:
1、部分记录出错,经分析是由于EXCEL单元格超过256个字符所致,某些记录的关键词(特别是双语)、甚至个别题名会超过此限。返回去精简关键词,处理掉大部分问题数据,重新转换。
2、原来的乱码仍然乱码──因为转换软件不支持unicode。
3、同一记录有多个作者和多条ISBN,需要拆成多个字段。
由于多作者占了很大部分,结果是从头到尾把MARC记录过了不止一遍,顺手把不少无页码、无丛编、无关键词的字段删除,最后索性把不排序的题名首冠词也标记了。大部分记录都被修改过了。
———-图书馆自动化系统中处理———-
处理过程中发现转换格式有些问题,但因为已经做了不少编辑,不想返工,就留到导入图书馆自动化系统后再批量更新了:
(1)忘了在题名后补充电子资源信息|h[electronic resource];
(2)出版字段年份在出版社前(不影响识别与检索,忽略不管)
(3)不知道为什么控制号转换少了第一个字母,变成OAB起始了(这个无所谓)
此外,还要在系统中处理语种、资源类型等本馆的系统定长字段,才算完成。

本来以为可以轻松搞定的事,弄到后来直想放弃──尤其是看到那些小语种的乱码。结果是除了小语种乱码,其他都处理了,自我安慰是小语种没什么人用的。
本来想共享处理后的MARC记录,可是真的不堪入目,既有小语种乱码的重大问题,作为简编格式也极不规范,除了245字段,其他都没有字段指示符──很久没做编目了,在做转换时都没有意识到需要注意指示符。
[update 2012-4-25 已在系统中修改乱码(主要是德文字母),本馆目录查询没有问题,可惜导出为MARC记录后,这些unicode码全都消失,因而没有共享价值]

xA:OCLC扩展虚拟国际规范档

2012年4月18日 由 catwizard 没有评论 »

4月初刚宣布“虚拟国际规范档移交OCLC”,不到两周,OCLC首席科学家Thomas B. Hickey就在博客上介绍了OCLC的扩展VIAF项目──xA (Extended VIAF Authority),目前还是测试版。

VIAF作为一个虚拟联合规范库,只是对来源记录做关联,即使发现来源记录有问题,也不能随意改变。当然会报告来源方,但等对方修改,自然不如自己处理方便。OCLC的解决之道是做一套自己的规范记录,即xA,作为VIAF的第24个来源。xA记录中可以加入自己强化的信息,并链接其他来源。

Thom给出了奥巴马的xA例子,给奥巴马加上了出生日期(其他来源只会加生卒年)。在相应的VIAF例子中,已经可以看到xA并列在其他23个来源中。

与其他来源采用MARC21或UNIMARC规范格式不同,xA采用MADS 2.0(远洋师的学生Jeff Young提供咨询)。使用SRU检索,XSLT格式化显示,还可以进行创建、更新及删除等编辑操作(采用AtomPub协议)。

如果想试试编辑功能,可以到沙盘试手,用户名和口令均为guest

Via Outgoing: xA (April 16, 2012)