于良芝《图书馆情报学概论》读后

十多年前读于良芝《图书馆学导论》,学到很多先前闻所未闻的东西。近日又读完了升级版《图书馆情报学概论》,相当于原来的“图书馆学概论”与“情报学概论”。作为本学科的旧人,仍然感受到满满的新知;对新人而言,更是了解本学科各分支基础知识的很好入门。
阅读本书,常能感受到于师姐对图书馆这个职业的“在意”或者说深深的热爱,以及她的哲学高度。从绪论中以“满足信息查询与获取需要的社会分工”确立图书馆情报职业与学科的正当性、合理性或必然性,到最后一章专论职业与学科的未来时,指出“兰开斯特等之所以一边预言图书馆的消亡,一边对图书馆员的职业前景保持乐观,很可能说明这个学科对话语构建职业合法性的能力太缺乏敏感性”(p.312)。——题外话:从读大学起就一直是兰开斯特的粉丝,认可他的各种观点,随着老兰过世,现在日益感受到计算机与人工智能必将超越人类的智能,自然也包括取代图书馆员职业。
作为教科书,本书与当年自己读书时的教科书不仅知识点差异极大,体例与讲授方式也大异其趣。本书各章前列有明确的“学习目标”,让学习者在一开始就有所准备和预期;各章末有思考题、推荐阅读和注释(参考文献)。思考题不是书中可以找到、具有唯一答案的,需要通过扩展阅读、思考、分析后才能完成。思考题中还会体现对研究方法的指导,比如第五章第2题(p.134),要求根据某统计资料、选择本章中的理论进行分析,题末有提示“你的分析应具有视角连贯性和一致性;从你所选择的理论视角观察不到的原因,请不要盲目堆砌”,不免联想到专业期刊中那些缺少基本研究训练的文章。
本书引用图表除注明出处外,均说明取得许可,在国内出版文献中极为罕见。唯一缺少的,就是一个书后索引了。

关于《图书馆学导论》,参见:于良芝的“图书馆哲学思想分类”(2005-9-3)

——— 附《图书馆情报学概论》目录 ———
图书馆情报学概论 / 于良芝著. 国家图书馆出版社, 2016

绪论 图书馆情报学的基本问题
第一章 数据、信息、知识、作品与文献
第二章 社会的信息交流系统、图书馆、图书馆信息职业及学科
第三章 信息与实在、真理及道德等根本问题
第四章 信息的生产、离散、增长与老化规律
第五章 信息在社会结构中的分布
第六章 信息行为
第七章 信息查询与信息组织整理
第八章 信息获取与信息传递传播
第九章 各类型图书馆对信息查询与获取的保障
第十章 图书馆之外的信息查询与获取
第十一章 图书馆、图书馆信息职业与图书馆情报学的未来

可作为编目手册的《RDA全视角解读》

罗翀主编《RDA全视角解读》. 国家图书馆出版社, 2015.5

去年《RDA全视角解读》出版后收到赠书,翻了下觉得很实用,转手借给做编目的同事参考。前些日子书还回来,今天花半天时间粗细结合看过一篇,感受到作者们对RDA的深入了解,而本书也确如前言所称,可作为“指导编目员实践工作的应用手册和编目工具”,值得推荐。
本书第1-5章为RDA基础。最后的第15章提出RDA在我国图书馆的应用策略,能在多大程度上实现不得而知。可作为手册使用的是6-14章及附录。
第6-11章以RDA框架、结合MARC21格式,讲述RDA规则,很接地气。
第12章“特殊类型资源RDA元素综合记录”,针对连续出版物、集成性资源、地图资源、电子资源、音像资源、音乐资源、缩微资源7种类型资源,分别讲述按照RDA规则的MARC记录编制。特殊类型资源相应的336-338字段术语及代码,则可参照附录B。
第13章“RDA与AACR2规则差异分析”,从宏观的总体差异到体现在MARC字段上的微观差异,相当全面。其中表5“AACR2与RDA载体类型术语对比一览表”对特殊类型资源编目会很有帮助。
第14章“MARC21为RDA所做修订”基本以MARC21标准网站“RDA in MARC”为纲撰写,解释清晰。可配合附录C“MARC21为RDA新增字段表”阅读。
附录D“RDA完整样例分析”精选有代表性的例子并做解释,对理解不同类型文献RDA规则应用十分有帮助。

——— 纠缠的分割线 ———
首先想说明的是,书中有些做法与LC实践有所不同——当然不存在对错。
一是没有出版年有版权年,或者出版年与版权年相同时:LC通常不记录版权年,只记录出版年、或者以版权年估计的出版年(加方括号)。 为什么不保留版权年信息,却不得而知。
二是丛编规范,LC在前些年已经放弃维护,因而通常只做490字段、不做830字段。当490内容与830相同时,更不会在490之外再做830。

其次是“与责任说明相连接的名词短语”问题,这是RDA与AACR2不同之处。按AACR2要区分不同情况,或入责任说明(当作为承担角色)、或作为其他题名信息(当说明作品的性质时)。而RDA2.4.1.8则简化为“如果名词或名词短语与责任说明一起出现,则将该名词或名词短语作为责任说明的一部分”。
书中p.273页举了两个例子,都是说明作品性质的,AACR2记录入245$b,RDA记录入245$c。例2:
AACR2记录:245 10 $aPacazo :$ba novel /$cby Roy Kesey.
RDA记录:245 10 $aPacazo /$ca novel by Roy Kesey.
例子完全没有问题。只是读者或未注意“一起出现”或“与责任说明相连接”的含义,上例题名页版式当如:

Pacazo
a novel by Roy Kesey

如果题名页版式如下时,RDA记录与AACR2记录应当是完全一致的:

Pacazo
a novel
by Roy Kesey

如果能有页面版式对照,举两个分别入$b和$c的不同例子,相信不至产生误解。

——— 附《RDA全视角解读》目次 ———
1 RDA的前世与今生
2 RDA的思想基础
3 RDA的普及与推广
4 RDA在美国图书馆界的测试
5 RDA的框架与内容
6 识别载体表现和单件
7 识别作品和内容表达
8 识别个人
9 识别家族
10 识别团体
11 描述关系
12 特殊类型资源RDA元素综合记录
13 RDA与AACR2规则差异分析
14 MARC 21为RDA所做的修订
15 RDA在我国图书馆的应用策略
附录A RDA工具套件应用说明
附录B RDA内容类型、媒介类型和载体类型术语表
附录C MARC 21为RDA新增字段表
附录D RDA完整样例分析

Schema.org: Web上结构化数据的演变(笔记)

来自谷歌和微软的三位Schema.org开发者,2015年底发表了一篇介绍四年来Schema.org演变的文章,在追求“结构化数据”的大背景下,详述开发的前因后果,以及与关联数据的关系:

R.V. Guha, Dan Brickley, Steve Macbeth. Schema.org: Evolution of Structured Data on the Web. Queue vol. 13, no. 9 (December 15, 2015)

文章小标题:Big data makes common schemas even more necessary.
体现在文章结论的最后:“对大数据的增长兴趣使得对共同schema的需求比以往更相关。当数据科学家探索数据驱动分析的价值,需要从不同来源把数据抓在一起,因此对共享词表的需求正在增长。我们希望schema.org将对此有所贡献。”

【结构化数据标准的发展】
早期(1997年前?)有XML和MCF (Meta Content Framework)。
1997-2004年间针对语法和数据模型开发了不同的标准(RDF、RDFS和OWL)。针对具体行业提出许多词表,某些得到广泛采用,如hCard、FOAF。不同垂直领域的词表完全独立,导致大量重复和混乱。更糟的是,不同搜索引擎推荐不同的词表。
针对此问题,2011年主要搜索引擎公司Bing, Google, Yahoo(及后来加入的Yandex)创建Schema.org,目的是提供跨领域的单一词表。最初是三个公司关起门来做决定,后来逐步开放,先是在W3C公共论坛讨论,后来改变模式为所有决定都公开做出[在GitHub上],有一个来自资助公司、学界及W3C的指导委员会。
Schema.org发布时297个类、187个关系,四年后增加至638个类、965个关系。

愿景图“来自多个网站的知识库样例”比以前看到过的图更具说明性

【Schema.org应用】
– 首个应用是谷歌搜索结果的丰富片断(Rich Snippets)在2011年转用Schema.org词表。[snippet最早由雅虎采用、谷歌跟进,当时依据垂直领域词表]
– 用作谷歌知识图谱(Knowledge Graph)的数据源,显示在检索结果侧栏的事实面板。
– 电子邮件。预订饭店、旅馆、航班等电邮嵌入Schema.org标记,电邮辅助工具可抽取结构化数据,通过手机通知、地图、日历等使用。Gmail和Google搜索产品使用此数据提供提醒,如订餐会基于饭店位置、用户、交通状况等,触发提醒去饭店。
微软小娜(Cortana)通过电邮讯息利用schema.org
Pinterest利用Schema.org提供针对菜谱、电影、文章、产品或地点的丰富钉板(rich pins)。
苹果的Searchlight/Siri使用Schema.org提供搜索特性,包括集成评分、供应者、产品、价格、互动计数、机构、图像、电话号码及潜在的网站搜索行动。还用于新闻RSS。

【采用统计及原因分析】
在100亿网页的样本中,31.3%网页有Schema.org标记,1年前是22%。含有标记的网页平均参引6个实体、作出26个逻辑断言。估计至少1200万网站使用Schema.org标记。结构化数据标记现在与Web本身是一个数量级的了。
快速增长的原因是第三方工具的扩展支持,如Drupal和Wordpress,以及垂直内容管理系统(如Bandsintown和Ticketmaster)。

【设计决策:成功原因分析】
设计Schema.org的驱动因素是方便站长发布其数据。总体上,设计决策把更多负担放在标识的消费者。
– 支持多种语法:RDFa、JSON-LD、Microdata
– 多态性:关系/属性可以有多个定义域、多个值域(减少不必要的类)
– 实体参引:只有非常少的部分要求唯一URI
– 增量复杂性:从简单开始,逐步增加表达性。受实用性引导,定义从不为追求完美模型而改变,但回应来自发布者和消费者的反馈。
– 清理:清除无有意义使用的术语[类似文献保障原则]

【扩展】
保持最通用为核心,其他作为扩展。
参见:Schema.org扩展机制(及汽车&书目扩展)

———-关联数据的分割线———-
【对关联数据现状的基本判断】
自2006年,“关联数据”口号重定向W3C的RDF社区,从强调语义网本体和规则语言,到开放数据活动和实践数据共享。
关联数据宣传已经成功地从各种公共部门和开放数据源引起了大量以RDF表达的公开数据(如图书馆、生命科学和政府)。但是,强调标识符调和、复杂的最佳实践规则(包括HTTP的高级使用)、使用任意数量的部分重叠词表(schema),限制了关联数据实践在专业信息管理者以外领域的成长。关联RDF数据发布实践没有在广泛的Web得到采用。
(与“从语义网到知识图谱——语义技术工程化的回顾与反思”文章的认识一致。参见:知识图谱、语义网、关联数据;另见:关联数据注意事项

【与关联数据的异同】
Schema.org分享很多关联数据社区方法:使用相同的数据模型和标记语言(RDFS)和语法(如JSON-LD和RDFa),分享很多相同的目标。也分享了关联数据社区对语义网旗下实施的很多学术工作中发现的对过早成熟的形式主义的怀疑(规则系统、描述逻辑等)。尽管Schema.org也避免假定这类基于规则的处理会是普通的,但它不同于典型的关联数据指引,假定来自Web的结构化数据能在应用中利用前,通常会需要不同类型的清理、调和及后处理。【换言之,对Schema.org,数据清洗不是必要的——想起情报检索语言的前控和后控】

关联数据的目标更高,并因此带到Web的数据源数量很小、然而其质量往往很高。这两种方法相结合提供了很多的机会——例如,专业发布关联数据常能规范描述来自更广泛主流Web的schema.org描述中提及的实体。【公共部门继续承担需要更多费用的专业工作】