开源学术交流工具集锦:学术交流技术目录

开放获取机构库联合会(COAR,Confederation of Open Access Repositories)委托咨询机构Antleaf制作“学术交流技术目录”(SComCat),作为其下一代图书馆出版(Next Generation Libraries Publishing)项目的一部分,以CC 4.0许可发布。
Scholarly Communication Technology Catalogue

包括学术交流开放技术的目录(知识库),其中“技术”指软件及某些基本运行服务。目录概述每种技术的的功能、组织模型、依赖关系、标准使用以及采用水平,意在帮助潜在用户选择决定采用的技术。收录范围包括可以本地采用的工具、平台和标准,支持学术交流生命周期中的一项或多项功能,包括:创建、评估、出版/发布、传播、保存和重用。

本目录现列有81项开源技术或服务,包括如发现平台Blacklight,机构库DSpace、Fedora,电子资源使用标准Counter,研究数据管理应用Dataverse等。

选择选项(分面)包括:

  • 类别(应用、软件组件、软件框架、软件包、标准)
  • 馆藏(机构库相关)
  • 功能(如写作、数据挖掘、计量等)
  • 治理(如社区、非营利组织等)
  • 运营形式(如商业提供者、财政资助、志愿社区等)
  • 采用水平(普及、重要、有限、单个、未分类)
  • 可用水平(TR3/总体方案评审、TR9、未分类)
  • 状态(活跃维护、最低维护、已不支持)

详细信息包括(以Blacklight为例):

  • 最近更新 Last updated: 2021-01-27 12:33 UTC
  • 简介 Description: Blacklight is an open source Solr user interface discovery platform. You can use Blacklight to enable searching and browsing of your collections. Blacklight uses the Apache Solr search engine to search full text and/or metadata. Blacklight has a highly configurable Ruby on Rails front-end. Blacklight was originally developed at the University of Virginia Library and is made public under an Apache 2.0 license.
  • 主页 Homepage: http://projectblacklight.org/
  • 代码 Codebase: https://github.com/projectblacklight/blacklight
  • 路线图 Roadmap:
  • 托管 Hosting:
  • 许可证 Licensing: http://www.apache.org/licenses/LICENSE-2.0
  • 价格 Pricing: free to use
  • 采用水平 Adoption level: Significant
  • 可用水平 Readiness level: TR9
  • 治理 Governance: Community (ad-hoc)
  • 运营形式 Business Form: Not Classified
  • 状态 Status: Actively Maintained
  • 类别 Categories: Software Component
  • 功能 Functions: Discovery
  • 馆藏 Collections: 
  • 通用标签 General Tags:

另外,侧栏还提示相关技术

  • Is depended on by * Samvera
  • Depends on * Solr
  • Base technologies * ruby

法国国家图书馆开放数据:data.bnf.fr

法国国家图书馆(BnF)开放数据包括该馆主目录、档案和手稿、以及Gallica的数百万份数字馆藏等。data.bnf.fr项目致力于使法国国家图书馆制作的数据在网络上更有用。data.bnf.fr和Gallica在2013年获斯坦福研究图书馆创新奖(SPIRL)。

数据共享采用“法国开放协议”(法国版CC-by),RDF数据可供营利或非营利免费重复使用和复制,但必须标注引用来源。BnF参与开放数据运动的“主要目的是民主和经济,换句话说,使公共行动更加透明和有效;通过广播和收集数据使公共数据的创建合理化,另一方面,通过为商业或非商业用途提供可重用和有用的信息来促进经济活动”(https://data.bnf.fr/en/about)。——以前自己更多地关注开放数据的“民主”方面,不怎么注意“经济”,真是很大的偏视。

数据模型https://data.bnf.fr/en/abouthttp://data.bnf.fr/images/modele_donnees_2018_02.pdf

模型基于FRBR,除FRBR的3大类实体:作者Auteur、作品OEuvre、概念/主题Theme,还单列了另3个 【亮点】:地点Lieu、日期Date、场景Spectacle。

在数据汇集页面,作者、作品、主题的内容来自BnF的相应规范记录。而地点、日期、场景则是传统书目数据未加汇集的信息,来自不同元数据元素:

日期(通常是年份):日期相关主题,当年出生或死亡作者,当年创建或活跃期终结的机构,当年创作或完成的作品、表演的演出和出版的文献。

地点:出生或死于此地的作者,创建于此的机构,出版于此的期刊和文献、表演于此、录制于此、战争或签署于此的条约。

场景:体现了对“事件”的重视。数据汇集中目前有“演出”,在项目介绍的各页面未见涉及,当为场景/事件的体现,日期与地点中也有表演相关信息。

RDF词表和取值词表https://data.bnf.fr/en/opendata

*BnF本体:bnf-onto(网页显示仅11个元素,本体文件http://data.bnf.fr/ontology/bnf-onto/中有35个元素)
*复用词表:rdf, rdfs, skos, dcterms, foaf, RDAgroup2elements, rdvocab【2个非官方的RDA词表】
*BnF取值词表(网页仅列3个,取值词表http://data.bnf.fr/vocabulary-en页面多2种)
*Intermarc与RDF语言映射

原始数据格式:Intermarc用于印刷书籍目录,XML-EAD用于档案库存,Dublin Core用于数字图书馆。

为搜索引擎和社会网络嵌入数据https://data.bnf.fr/en/opendata)【亮点,社会网络用OG是我首次见到】

为方便搜索引擎索引,对“作者”“作品”和“主题”页面,以微数据格式嵌入Schema.org元素,内容包括个人、图书、机构,特别是机构子类演出团体、舞蹈团体、戏剧团体、音乐团体(与“演出”事件配套)

为方便页面在社会网络(脸书)中呈现,以RDFa元数据编码嵌入开放图谱协议Opengraph Protocol(OG),内容包括标题、描述、类型、URL、图像、作者。

消费外部资源https://data.bnf.fr/en/semanticweb

匹配外部取值词表:id.loc.gov用于语言和国籍,dewey.info用于主题,DCMI类型用于文档类型;

匹配外部数据集:DBpedia,VIAF。

法国国家图书馆的RAMEAU主题标目的页面与其他叙词表相匹配:来自图书馆(美国LCSH,德国DnB,西班牙BNE)或更专业(Agrovoc 联合国粮农组织词表,Geonames 地理名称数据库,Thesaurus W 法国国家档案馆叙词表)。

依作品校准和聚类https://data.bnf.fr/en/opendata

【“作品”识别是FRBR模型(或LRM)应用的一大挑战,在没有题名规范控制(如统一题名)时尤其如此。同时,大多数作品只有一个载体表现,没有对应的作品规范记录——不需要“汇集”,但也应该有其作品页面】

对于有名称规范和题名规范的记录,汇集作品很方便。
如果有名称规范但没有题名规范,BnF采用简单校准方法:载体表现与作品的题名相同时校准。

要更全面解决需要2种方法:

1、Alignment 校准/对齐:(在作者相同的前提下,对载体表现题名)使用前方一致、完全匹配、相距N个词、Levenstein距离、匹配算法,确定是否对应于相同的作品。

2、Clustering 聚类:新文献没有题名规范记录时,汇集载体表现。

概况与进展

data.bnf.fr网站2011年7月上线,定期更新,最近一次更新数据是2018-1-24。目前包括(https://data.bnf.fr/ontology/):作者225.5万,作品27.9万,论题/主题19万,地点11.8万,日期2618,演出5.9万,期刊34.2万。

虽然数据最后更新已有一年多,但网站的不同页面分别有2018年新完成任务和2019年计划,显示项目仍在持续中:

2018年对URI后缀作了修改(https://data.bnf.fr/en/opendata):原来实体本身无后缀、实体的描述#about、描述的描述#recrod,修改后,实体本身和实体的描述#about,描述的描述不带后缀——怎么感觉还是原来的更合理?

2019年有4个任务的路线图(https://data.bnf.fr/en/about):

1、改善数据的传播,通过更新定期更新来增强数据的新鲜度和完整性,通过发布Gallica数字文档的整个参考,并整合来自Web法定呈缴的信息等新资源。

2、校准BnF参考文献与来自Web可信运营商的其他参考资源,并加强data.bnf.fr作为法国在线文化数据中心的角色。

3、支持开放数据重用和测试创新的可视化,提出探索、分析和显示数据和馆藏的新方法,如“研讨会”页面已经做的那样。【新的事件类型?】

4、扩展数据处理,特别是在作品和文档之间建立链接,记住在我们的目录中实施FRBR模型。计算从书目记录到文本或音乐作品的规范记录的附加链接是一个问题,并且从长远来看,通过聚类作品的版本(载体表现)来创建作品的规范记录,即使它们尚不存在。【对有多个版本的作品创建规范记录】

开发中的图书馆服务平台Folio概览

2018年最后2天,应Keven之邀参加Folio系统界面翻译,跨年和元旦都在刷汉译——仅凭对图书馆自动化系统的了解,对Folio本身则几无所知。人多力量大,demo汉译在元旦那天基本完成。接下来还将参与Codex兴趣小组的活动,于是先来补下课。

一、关于Folio
Folio = Future of Libraries is Open,开源的图书馆服务平台,前身是开发多年的Kuali OLE (Open Library Environment)。2016年前后,Kuali基金会决定转向商业,于是OLE改与EBSCO和Index Data(丹麦)合作,启动Folio。由2016年项目启动时EBSCO中文网站的长篇介绍,可对Folio有更多了解:
隆重介绍 FOLIO – 一项崭新的合作项目,携手图书馆、服务供应商以及开发人员来促进、创新并且重塑图书馆自动化系统的未来 [2016-6-25]

二、平台状况和路线图(Platform & Roadmap)
Folio官网目前发布的路线图如下,不知是否能如期实现:
第1阶段:发布Alpha版,2018年1月
第2阶段:平台发布(Beta版),2019年初
第3阶段:在图书馆运行,期望2019年初至少有3家图书馆实施
第4阶段:早期实施者,11家图书馆计划在2019年实施

三、Folio平台FOLIO Platform
Folio的特点是模块化、灵活性、扩展性。
任何人可以开发Folio App。现在有十几个设想,比如App设想第3号预约房间、第6号与图书馆活动和网站集成、第8号与机构库集成、第13号支持联合目录。

四、资源管理数据域Resource Management Data Domains
对图书馆实体与电子资源的管理模型,包括以下6个域(图示是简化版):

Resource Management Data Domains

Folio法典域(Folio Codex Domain),由一组最小但足够的核心元数据集组成,更全面的元数据集在动态检索时调用。
知识库域(Knowledge base (KB) Domain):电子资源、印刷资源及其他资源等多种知识库(托管系统中,对实体资源,感觉像是类似联合目录的中心书目库)
馆藏域(Holdings Domain):电子资源的权益/馆藏(Entitlement/Holding),可能与知识库中包(Package)的收录范围等不一致。
采访域(Acquisition Domain):图示中只对电子资源作了标示(省略了实体资源),主要为说明电子资源采访产生的馆藏,可能与知识库中包的收录范围等不一致。
库存域(Inventory Domain):法典域对应的实体资源部分
流通域(Circulation Domain):包括用户借阅实体资源与使用电子资源
Folio的关键假定
1、合并电子和印刷;
2、合并单行和连续出版物;
3、库存和知识库(见上);
4、本地与远程。本模型的主要目标是避免元数据的本地复制。只要有可能,就应该对权威记录进行引用(即链接)。本地系统应仅保留与该单件相关的最小核心元数据集。每当需要完整、丰富的元数据集时,应从权威源(例如知识库)动态检索这些元数据。 此外,本地保留的核心元数据应仅在需要时存在于本地Folio系统中。对于电子单件,这意味着只有在访问单件时才会出现本地占位符。 换句话说,它是将权益(潜在馆藏)转换为实际馆藏的访问权,然后可以在本地Folio系统中表示。
我的理解,法典域是面向读者的检索结果一览信息,详细页面信息由动态调用获取。联想一下——不需要每个馆都维护更新数据,只需要大家共同维护、系统来做更新,是不是很美好?

五、法典元数据模型Codex Metadata Modal
Codex Metadata Modal
Codex是一个规范化和虚拟化层,允许Folio集成有关各种资源的元数据,无论其格式、编码或存储位置。
目前仅包含棕色的5个对象:实例、单件/馆藏、收录范围、位置、包;未来还会增加,确定将增加的是蓝色的2个:作品、主题。目前看各对象包含的字段并不多,应该就是前述法典域所称的元数据核心集。
本模型受BIBFRAME2启发(作品-实例-单件),但并不严格遵循BIBFRAME2(BIBFRAME 2 模型只针对单个资源,没有“包”的概念)。
另关于MARC,MARC记录格式被Folio用作数据交换格式——回归MARC(尤其是UNIMARC)的原始设计。其实现在的图书馆自动化系统、尤其是支持非MARC编目的系统,MARC的作用恐怕也是如此。
我想对Folio来说,这也意味着未来BIBFRAME或其它元数据也可以经crosswalk转换后,纳入到系统中。