开源学术交流工具集锦:学术交流技术目录

开放获取机构库联合会(COAR,Confederation of Open Access Repositories)委托咨询机构Antleaf制作“学术交流技术目录”(SComCat),作为其下一代图书馆出版(Next Generation Libraries Publishing)项目的一部分,以CC 4.0许可发布。
Scholarly Communication Technology Catalogue

包括学术交流开放技术的目录(知识库),其中“技术”指软件及某些基本运行服务。目录概述每种技术的的功能、组织模型、依赖关系、标准使用以及采用水平,意在帮助潜在用户选择决定采用的技术。收录范围包括可以本地采用的工具、平台和标准,支持学术交流生命周期中的一项或多项功能,包括:创建、评估、出版/发布、传播、保存和重用。

本目录现列有81项开源技术或服务,包括如发现平台Blacklight,机构库DSpace、Fedora,电子资源使用标准Counter,研究数据管理应用Dataverse等。

选择选项(分面)包括:

  • 类别(应用、软件组件、软件框架、软件包、标准)
  • 馆藏(机构库相关)
  • 功能(如写作、数据挖掘、计量等)
  • 治理(如社区、非营利组织等)
  • 运营形式(如商业提供者、财政资助、志愿社区等)
  • 采用水平(普及、重要、有限、单个、未分类)
  • 可用水平(TR3/总体方案评审、TR9、未分类)
  • 状态(活跃维护、最低维护、已不支持)

详细信息包括(以Blacklight为例):

  • 最近更新 Last updated: 2021-01-27 12:33 UTC
  • 简介 Description: Blacklight is an open source Solr user interface discovery platform. You can use Blacklight to enable searching and browsing of your collections. Blacklight uses the Apache Solr search engine to search full text and/or metadata. Blacklight has a highly configurable Ruby on Rails front-end. Blacklight was originally developed at the University of Virginia Library and is made public under an Apache 2.0 license.
  • 主页 Homepage: http://projectblacklight.org/
  • 代码 Codebase: https://github.com/projectblacklight/blacklight
  • 路线图 Roadmap:
  • 托管 Hosting:
  • 许可证 Licensing: http://www.apache.org/licenses/LICENSE-2.0
  • 价格 Pricing: free to use
  • 采用水平 Adoption level: Significant
  • 可用水平 Readiness level: TR9
  • 治理 Governance: Community (ad-hoc)
  • 运营形式 Business Form: Not Classified
  • 状态 Status: Actively Maintained
  • 类别 Categories: Software Component
  • 功能 Functions: Discovery
  • 馆藏 Collections: 
  • 通用标签 General Tags:

另外,侧栏还提示相关技术

  • Is depended on by * Samvera
  • Depends on * Solr
  • Base technologies * ruby

OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:收割工具评述》

项目简介见:OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

《存档的描述性元数据:收割工具评述》
Samouelian, Mary, and Jackie Dooley. 2018. Descriptive Metadata for Web Archiving: Review of
Harvesting Tools. Dublin, OH: OCLC Research. doi:10.25333/C37H0T.

选择11个网站收割工具(仍在维护更新、含描述元数据抓取功能):
• Archive-It
• Heritrix
• HTTrack
• Memento
• Netarchive Suite
• SiteStory
• Social Feed Manager
• Wayback Machine
• Web Archive Discovery
• Web Curator Tool
• Webrecorder

从7个方面评估各自在自动生成描述元数据方面的能力
1.该工具的基本用途及其核心功能是什么? (例如,捕获、显示和/或管理层)
2.它可以接收和生成哪些对象/文件? (即工具创建或更改的原子单位,例如Mementos,WARC(Web ARChives)或PDF)
3.它记录了哪些元数据配置文件?
4.自动生成哪些描述性元素?
5.用户可以创建或编辑哪些描述性元素?
6.可以导出哪些描述性数据元素以在工具外部使用?
7.它与其他工具有什么关系? (例如,Heritrix收集嵌入在WARC文件中的元数据,其中一些文件由Archive-It使用。)

更多网站存档工具和软件,见国际互联网保存联盟(International Internet Preservation Consortium)网站:
IIPC: WEB ARCHIVING > Tools & software

对于网站存档的状况,哈佛大学2016年发布了一份《网站存档环境扫描》:
Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report.

Voyant:在线文本分析及可视化工具(另有服务器版)

王涛老师的直播“手把手带你再现一项完整的数字人文研究”大纲中有用 Voyant 进行文本挖掘内容(参见:可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)),但直播时由于时间关系没有涉及。接着Gephi略作探索:

网站:Voyant(法语,先见者)http://voyant-tools.org
Voyant Tools 是一个基于网络的数字文本阅读和分析环境。
简言之,可输入网址、粘贴文字或上传文件作为语料库,自动作文本分析、生成可视化图形,包括词云、词频……,可导出分析处理后的数据,还可分享分析数据(提供可嵌入网页的分享链接)。
以下是奥斯汀小说语料库分享实例:

(由于系统原因嵌入网页无法呈现,只能链接前往)

Voyant 目前可选十种文字界面,不含中文,但支持对汉字进行处理。
要分析的语料,有3种提交方式:1、上传文件;2、提供网页的网址;3、直接粘贴文本。
也可以打开系统中已有的2个语料库(莎士比亚戏剧37部、奥斯汀小说8部),探索Voyant的功能。

Voyant 目前有20个工具,带图示的工具介绍见 Tools index
完整的使用介绍见:Voyant Tools Documentation

进入语料库后默认界面会有:高频词云(可作为标签云工具)、高频词趋势曲线、语料库概要等5个部分(见上图)。每个部分都可切换各种工具进行探索。比如可根据语种选择停用词,也可自定义停用词表。比较不解的是中文的标点符号也被当成字符且无法停用。

Voyant还提供服务器版(VOYANT SERVER),可下载到本机安装,数据不必提交给 Voyant Tool 网站,还可离线操作,可处理更大数据。