OCLC获梅隆基金资助开发实体管理基础设施

OCLC新闻:OCLC awarded Mellon Foundation grant to develop infrastructure to support linked data management initiatives (2020-1-9)

项目称为“Entity Management Infrastructure”,摘要信息如下:

时间:2年(2020.1-2021.12)

费用:Andrew W. Mellon Foundation资助243.6万美元,OCLC提供所需另一半费用

新闻稿摘译:

  • OCLC将使用资助来发布对于作品和人物的权威性和易于访问的实体描述,作为持久性集中式基础结构的一部分。基础结构将在外部词表和规范档中聚合到这些作品和人物的其他表示形式的关联。
  • OCLC成员关系和研究副总裁兼首席策略师Lorcan Dempsey表示:“要使关联数据普遍使用,图书馆需要可靠和持久的标识符以及它们所依赖的关键实体的元数据。该项目开始建立基础架构并推动整个领域的发展。”
  • OCLC将与LD4P社区(由斯坦福大学图书馆牵头、同样由梅隆基金资助的参与“关联数据生产项目”的图书馆)合作,以确保系统与图书馆关联数据环境的发展相匹配。
  • OCLC期望提供多种访问实体基础结构的选项,其中一些选项可免费提供给图书馆社区,而其他选项则可通过订阅获得。OCLC将通过网络发布实体的URI和元数据,并将为图书馆员工提供编辑、充实和添加到这组实体的方法。OCLC还将提供API,以扩展这些实体在图书馆内外的工作流程中的采用和集成。

【个人理解的“实体管理基础设施”概要】

  • “实体”仅包括“作品”和“人物”
  • 实体标识符(URI)
  • 关联(sameAs)现有规范档(猜测如VIAF、WorldCat Identity和WorldCat Work)和外部词表(比如Wikidata、ISNI……)中的实体
  • 聚合实体的元数据描述(作品和个人的各种相关信息)
  • 与LD4P合作开发【参见:LD4相关博文
  • 基础设施访问:编辑(专业用户贡献),API(应用)
  • 基础设施使用模式:免费+订阅

你们图书馆保存书袋卡了吗?还有卡片目录?

孔网(孔夫子旧书网和孔夫子拍卖网)是个很神奇的地方,所卖物品中可以发掘出很多名人资料。参见:孔夫子旧书网的元数据(2019-6-3)。

年末在豆瓣看到阅湖的“借书卡考古学”(2019-12-19),说前些年北大图书馆给图书加条码时扔了一批借书卡(即书袋卡),2014年前后出现在孔网,TA买过几张。文中据书袋卡探究马寅初、张东荪、吴兴华3人所借图书与其著述、思想等的关联,是谓“借书卡考古学”。不是看到文中图片,我都忘记当年借书是要在书袋卡上签名的(也有人盖私章),珍贵的手迹!

对于保存书袋卡的意义,阅湖所述也相当到位:“事实上,借书卡的意义不仅仅在上面的名人墨迹。对于学术史研究而言,借书卡其实也是相当宝贵的一份资料——学人在何时读了何书,除了日记或藏书题记以外,唯一的证明材料可能就是借书卡。再进一步,同一本藏书的前、后借阅者,或许还能揭示一些学界往来信息。”

恐怕大多数图书馆在采用计算机集成管理系统(ILS)之后,如北大图书馆那般,贴条码时“顺便”扔掉了书袋卡。ILS中的借阅记录可以保存,采用ILS前的借阅历史原是保存在书袋卡里的,随着书袋卡被处理掉,这些历史对图书馆来说也就消失了。(附记:以前本馆ILS是删除离校读者记录的,由于借阅记录对应的是读者ID,因此会对应不到离校读者,后来就不再删除读者记录了。又:西方为保护读者隐私,常不保留借阅记录,系统本身也设定读者可要求不保留自己的借阅记录……)

想到竹帛斋主有“保存所有纸片”之说,不知中山大学图书馆是否保存了书袋卡

熊猫前几天给我发来美国弗吉尼亚大学保存目录卡片的新闻。能够成为新闻,也说明事之稀有,于是细细看过相关新闻。

旧卡片目录:共同努力将保留其历史 The Old Card Catalog: Collaborative Effort Will Preserve Its History (December 09, 2019) 

弗吉尼亚大学建于1938年的Alderman图书馆将关闭大修,其中有制作于1939-1989年间、历时50年的卡片目录,共65个目录柜、4,000个抽屉、约400万张卡片。大修预算中不包括保存目录卡片,图书馆也没有找到合适的、具有成本效益的方式保存卡片的支持。此时,有两个英语专业的博士生倡议发起志愿者行动,来保存卡片目录,目前已有40名志愿者参与。

已经有联机目录,为什么还要保存卡片目录?事实是,联机目录并没有转录卡片目录上的所有信息,不足以保存图书馆的馆藏历史。倡议指出,“作为图书馆自身的记录,[存档]卡片目录将使未来的研究人员能够重构大学在其历史上的特定时刻如何策划和代表知识”。发起人之一有与阅湖相似的经历:他在浏览作者目录时发现Benjamin Smith Barton《Elements of Botany》1804年版的卡片,显示此书副本由Joseph C. Cabell签名,他是本校创建者。然后他查联机目录,没找到这本书的记录,以为此书已丢、馆藏记录因之删除,但还是给图书馆员发邮件询问,结果发现图书在架——这说明目录卡片是唯一保存此信息的。

“图书馆旧的卡片目录中的这些小索引卡片可能包含有关特定书籍的独特信息,因此,也包含图书馆馆藏和大学的历史。卡片上整齐地键入的信息(图书馆工作人员有时在正面和背面加上手写的注释)中包含的详细信息在许多情况下通常不是大学图书馆在1989年改用的电子目录系统的一部分。当时,通过扫描仅转移了卡片的正面来转移了目录。”

还有荐购信息:“这些卡片不仅显示书目信息(例如图书馆何时购买图书),还显示它们是否已丢失,被盗或转移到仓库中以便为新的收藏腾出空间。他们可能会提到个别书籍的来源,指的是它们的来源或捐赠者。卡片还可以注明哪些教授或系要求为图书馆购买哪些书籍。”

作为志愿者的英语教授将图书馆描述为“人文实验室”,“我们不知道将来的研究会是什么样。我们无法预测。”志愿者“无私的”花时间帮助下一代研究人员。在整理好实物卡片后,项目还将继续筹款,以确保最终可通过在线目录获得目录卡片中的信息。

该校名誉校长John T. Casteen III长期关注卡片目录的命运及如何长期保存,学生时代他曾在Alderman图书馆做学生工,记得目录卡片背面会注明哪些书来自创始人Thomas Jefferson或其他重要藏书。该校还有Bibliographical Society和设于图书馆的Rare Book School,项目本身也是志愿者、这两个组织及图书馆的有效合作。——可谓天时地利人和,复制不易。

试用谷歌数据集搜索

对于数据科学的学习者和应用实践者,常常需要查找适当的数据集进行分析。谷歌工具箱去年推出垂直搜索引擎——数据集搜索,收录托管在数千个Web存储库中数据集的信息。

数据集搜索(测试版)Dataset Search

据称该项目将带来的额外益处是:a)创建一个数据共享生态系统,鼓励数据发布者遵循数据存储和发布的最佳做法(采用用schema.org描述其数据集),b)为科学家提供一种通过引用他们生产的数据集来展示其工作影响的方法。

参见:Making it easier to discover datasets / Natasha Noy (2018-9-5)

现以“Library Collection Inventory”为例进行搜索。

上栏:搜索条件筛选,有4个:

  • 更新日期(最近1个月、最近1年、最近3年)
  • 下载格式(表格、文档、图像、文本、档案、其他)
  • 使用权限(允许商业使用,允许非商业使用)
  • 免费

左栏:搜索结果一览,提供信息:数据集名称、出处、更新日期

右栏:搜索结果详情,提供数据集详细信息(以下限浏览所见,不一定每个数据集都有,也不一定完整)

  • [1] 名称
  • [2] 来源及链接链接(蓝色按钮)
  • 不同来源提供同样的数据集,归并在一起,因此可能有多个链接。
  • 由于来源含数据集门户(如catalog.data.gov),最终数据集下载网站可能相同。
  • 不同来源元数据信息详简不一,有的还有单独的数据字典,有助于使用。
  • [3] 引用本数据集的学术论文数(含谷歌学术链接)
  • 虽然这是声称的重要优点,目前似乎仍不实用。因为链接的只是以数据集名称搜索谷歌学术的通用检索式(如https://scholar.google.com/scholar?q=%22library%20collection%20inventory%22),并非真正提供引用此数据集的文章——显示有7篇论文引用某数据集,但链接过去有34个结果——在结果一览中也无法识别出哪几篇引用了此数据集。
  • [4] 唯一标识符
  • 出自dataverse.harvard.edu的有DOI。大多数没有,对数据集的引用及识别均有影响。
  • [5] 日期(创建、发布、更新)
  • [6] 提供者
  • [7] 作者
  • [8] 许可
  • [9] 提供的下载格式。常见的有:rdf, xml, csv, json等。
  • [10] 覆盖时间范围
  • [11] 覆盖地理区域
  • [12] 简介

用中文搜索,也可以找到数据集,最多的结果是来自司尔亚司数据信息有限公司(CEIC)的收费数据,浏览数据图示免费(可以定制时间范围、图示类型),下载或API收费。