OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:收割工具评述》

项目简介见:OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

《存档的描述性元数据:收割工具评述》
Samouelian, Mary, and Jackie Dooley. 2018. Descriptive Metadata for Web Archiving: Review of
Harvesting Tools. Dublin, OH: OCLC Research. doi:10.25333/C37H0T.

选择11个网站收割工具(仍在维护更新、含描述元数据抓取功能):
• Archive-It
• Heritrix
• HTTrack
• Memento
• Netarchive Suite
• SiteStory
• Social Feed Manager
• Wayback Machine
• Web Archive Discovery
• Web Curator Tool
• Webrecorder

从7个方面评估各自在自动生成描述元数据方面的能力
1.该工具的基本用途及其核心功能是什么? (例如,捕获、显示和/或管理层)
2.它可以接收和生成哪些对象/文件? (即工具创建或更改的原子单位,例如Mementos,WARC(Web ARChives)或PDF)
3.它记录了哪些元数据配置文件?
4.自动生成哪些描述性元素?
5.用户可以创建或编辑哪些描述性元素?
6.可以导出哪些描述性数据元素以在工具外部使用?
7.它与其他工具有什么关系? (例如,Heritrix收集嵌入在WARC文件中的元数据,其中一些文件由Archive-It使用。)

更多网站存档工具和软件,见国际互联网保存联盟(International Internet Preservation Consortium)网站:
IIPC: WEB ARCHIVING > Tools & software

对于网站存档的状况,哈佛大学2016年发布了一份《网站存档环境扫描》:
Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report.