1923年前外文期刊:免费访问、批量下载、文本挖掘

关于JSTOR早期期刊内容(Early Journal Content, EJC

——包括美国1923年前、其他国家1870年前出版的期刊,于2011年9月6日开始提供世界范围的免费访问,并随着数字化的完成不断增加。
学科包括艺术人文、经济政治、数学和其他科学。
这批数据占JSTOR内容的6%。

——最近,JSTOR把这批350种期刊共45万篇文章提供给了互联网档案(IA),现在也可以通过IA访问

——这批数据共2T,还可以通过JSTOR或IA批量下载、收割
JSTOR:EJC介绍
IA:Downloading in bulk using wget

——JSTOR同时提供全文OCR及文章元数据的批量下载,供文本挖掘和分析研究使用。
目前压缩数据1.7GB,解压后7.5GB。
EJC数据集:Early Journal Content Data Bundle

via Internet Archive Blogs: 450,000 Early Journal Articles Now Available (2013-4-11)

P.S. 联想或感想二则:
1、一月去世的Aaron Swartz,为IA工作,另因批量下载JSTOR数据而面临牢狱之灾。这是它们之间的一种和解么?
2、老外做研究条件就是好,大量免费数据可用,阅读、使用之外,还可以挖掘、研究。

RDA在台湾

台湾的国家图书馆编目园地,在页面最显著位置的“强力推荐区”推出“RDA之工作推动”版块,包含7个栏目:发展趋势、工作缘起、会议记录、中文文件、训练教材、文献资源相关网站。目前网站首页5条最新消息,全部都是RDA。
编目园地在2011年初启用,当年几乎全是由CNMARC转换到MARC21的各种信息与资源(很丰富的可下载资料),2012年开始出现RDA的消息,进入2013年后RDA相关信息占了大多数。

从2012年春节后发布3月Barbara B. Tillett培训消息(内容基本上与7月北京培训班相同)开始,一年来台湾在RDA方面进展不少,并且已开始实质性应用。
1、培训(3+1次)
(1)RDA講習會:2012.3.22-23,Barbara B. Tillett的2天培训;4月培训资料上网,5月提供“遠距學園”网上学习。
(2)資訊組織進階班:2012.7.30-8.1,图书馆与学会合办,“因应RDA的发展,规划一系列与RDA相关之課程”。授课人:FRBR、FRAD、FRSAD发展应用(張慧銖),语意网及RDF(柯皓仁),RDA(陳和琴),Linked data(温达茂),权威控制及VIAF发展(劉春銀)。
(3)專業數位認證課程研習(2012年第2期):2012.10.1-11.30,“遠距學園”开放注册上课,其中包括:RDA資源描述與檢索(4小時),由徐蕙芬/戴怡正主讲。
(4)RDA工作坊:将于2013.5.21-23举行,邀请美国华人图书馆员协会成员讲授,并要求曾亲身或网上参加过2012年Barbara“RDA講習會”者,且报到时须按“國圖西文資料採用RDA編目指引”提交2条试作资料。

2、相关会议(3次)
(1)“RDA未來展望”专题演讲:2012.3.21,Barbara B. Tillett(有中文翻译PPT及注释)
(2)MARC21及RDA論壇:2012.11.23,图书馆与学会主办,包括“各類型圖書館使用MARC 21與RDA現況調查”(張慧銖)。
(3)國內編目規則未來發展諮詢會議 :2012.1.21,图书馆邀请图资界学者专家参加,議題包括;1.國內西文資料編目採用RDA的原則;2.中文編目規範的未來走向;3. RDA教育訓練規劃等。主要結論為:西文資料採用RDA期程宜再調整;中國編目規則未來僅作微幅修訂,另編製RDA中文手冊;相關教育訓練將著重於實作。

3、RDA小组及其会议(11次)(见“会议记录”栏目)
小组宣布成立于2012年3月21日(见“工作缘起”栏目),成员来自各图书馆[及学界]。首次会议于2012年4月20日召开,最近的第11次是2013年3月7日。第11次会议,依据前述“编目规则未来发展咨询会议”决议,调整小组成员、增加学者专家(吴明德、邱子恒、张慧铢、陈和琴(请假)、陈昭珍、蓝文钦)。但与会教授认为小组成员以实务工作成员为宜。最终会议决议RDA小组未来仍回归实务面,必要时召集在座学者专家举行咨询会议提供意见。小组的主要成果见下,并将着手制订工作手册。

4、成果及进展(2+1项)
(1)國圖西文資料採用RDA編目指引(初稿)
2013年3月中旬提出,并效仿当年美国RDA测试,于3月下旬邀请各馆试做,并要求参加5月举行的RDA工作坊的学员应试做至少2条记录。
(2)RDA重要中文詞彙用語(见“中文文件”栏目)
虽然了解大陆已经在翻译中文版,但两岸专业用语不同。公布的繁体中文翻译包括6种:
– RDA常用詞彙中譯
– RDA核心元素中譯
– RDA 媒體類型(Media type)、載體類型(Carrier type)、內容類型(Content type)詞彙中譯
– RDA 附錄I :「資源」與「個人、家族、團體」之間關係標示
– RDA 附錄J :作品、表現形式、具體呈現、單件之間關係標示
– RDA 附錄K :個人、家族、團體之間關係標示
(3)中文工作手册(进行中)
不做条文翻译,其中范例以中文MARC方式呈现(猜测类似workflow,应该会结合本地政策)。

附:台湾各图书馆采用RDA进展(来自RDA小组第11次会议纪录
台湾大学:已在规划推动RDA,正讨论实务的编目手册;套录与LC同步于2013年3月31日采用RDA,同时为原编采用RDA做准备。
淡江大学:自2012年10月起套录保留RDA字段,2013年1月起尝试套录时补齐RDA字段,并用RDA原编,原则上与LC同步;目前有简单的RDA编目手册。3月下旬请将陈和琴老师为馆员进行训练。淡江采用VTLS系统,未来可加购其FRBR功能。
中研院:套录与LC同步于2013年3月31日采用RDA,未来规划是等全院馆员都接受RDA训练之后,原编即可采用RDA。
台湾师范大学:已购买RDA Toolkit,已有准备可宣称采用RDA。
国图采用RDA规划尚未公布 根据國圖西文資料採用RDA計畫(初稿,2013.3.1),与LC同步于2013年3月31日采用RDA做西编的套录与原编;计划7月开始批回溯修订、补充及转换。

RDA工具包又跳票了

按2012年12月JSC通过的日程,2011年美国RDA测试委员会最终报告要求的RDA改写,其2、3章在2013年2月初发布,其余章节在2013年4月初全部发布。但到了2月,工具包宣布发布延期,2月发布取消的内容包括:多语种界面,法语和德语译本、改写章节、快速通道修改、LC-PCC PS更新。3月底,工具包又宣布,原订在今天的4月发布(4月第2个星期二)再次取消,包括全部RDA改写章节,以及法语版、德语版,将延迟到5月14日发布。
RDA工具包原订2013年逢双月发布更新,现在已减少一半,改为5月、7月和11月的第二个星期二。
工具包网站的开发真的很成问题。RDA以联机版发布,但从RDA开发开始,发布网站一直拖后腿。当年最终评审版就没能按设想的提供网站访问,只发布了PDF文件。发布网站在RDA定稿后迟迟未能完成,直到2010年6月才提供访问。前段日子RDA工具包网站访问还出了问题,只是没有影响到Access RDA部分。

按2月宣布的计划,未来数月工具包将做出的改进包括:多语种RDA Toolkit界面,集成法语和德语译本,改善与RDA注册的集成,附加的政策声明,改进书签,附加的用户偏好选项,改进联机显示。
——不少是很值得期待的功能。
看来是设想能力强、实施能力弱。看RDA开发博客,建议、设想还有不少。而每个已经完成的功能,都加上了一个”Completed”的红色印章,很惹人喜欢。

但愿2月宣布的计划到5月时,不要再跳票了。特别期待多语种界面、附加的政策声明、附加的用户偏好设置。

参见:RDA Toolkit Blog
Revised RDA Toolkit Release Schedule for 2013 ( Tue, 26 Mar 2013)
RDA Toolkit Update – February 2013 (11 Feb 2013)

RDA改写发布,以及2013的更新版、印刷版、基础版 (2012-12-12)