OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

OCLC的网站存档元数据(WAM)工作组2016年初开始工作。在与国际互联网保存联盟(International Internet Preservation Consortium)美国档案工作者学会网络存档部(Society of American Archivists Web Archiving Section)和互联网档案(Internet Archive)Archive-It计划的协商下完成工作,并得到很多社区的意见和反馈。2018年初发布成果,共3个出版物:建议、用户需求文献综述、网络收割工具述评。

Web Archiving Metadata Working Group 网站存档元数据工作组
* Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group 网站存档的描述性元数据:OCLC研究图书馆合作伙伴网站存档元数据工作组的建议
* Descriptive Metadata of Web Archiving: Literature Review of User Needs 网站存档的描述性元数据:用户需求文献综述
* Descriptive Metadata of Archiving: Review of Harvesting Tools 存档的描述性元数据:收割工具评述

《建议》为网站存档描述元数据的使用指南,含14个描述数据元素的定义、详细说明、举例、取值以及与其他标准的对照(DC、EAD、MARC21、MODS、Schema.org)
本元数据建议使用DC 15个基本元素中的12个:完全沿用9个,其中Contributor还用于Collector,Description还用于Source of description(泛指用于专指);名称有所变化3个(泛指用于专指):Format用于Extent,Type用于Genre/Form,Identifier用于URL)。

以下摘译自《建议》(电子版有信纸58页和A4纸54页2个版本)。

【标准,p.14/58p;数据元素(p.15/58p)】小组既评估现有标准《描述档案:内容标准》(DACS)、《资源描述和检索》(RDA)、《都柏林核心》(Dublin Core),以及编码档案描述(EAD),MARC 21和MODS(元数据对象描述规范),也抽样了解实际做法,包括WorldCat(MARC记录)、ArchiveGrid(MARC记录和检索工具)、Archive-It(都柏林核心)和发现系统中存档网站的现有描述。结果未发现新的数据元素,但某些数据元素的做法或者理解存在不一致
网站创建者/所有者:是出版者、创建者、主体还是三者?
托管机构:选择、收割和托管网站的机构是否应被视为存储库、收集者、出版者、选择者或创建者?
题名:是否应该从网站头逐字转录?编辑以澄清网站的性质/范围?是否应该拼写首字母缩略词?题名是否应包含诸如“……的网站”之类的短语?
日期:哪些日期既重要又可用于记录?网站存在的开始/结束、抓取日期、内容日期或版权日期?
数量:如何最有效地表达? 1个存档的网站、1个在线资源、6.25 GB或约300个网站?
出处(Provenance):出处是指网站的创建者、收割网站和托管网站档案的存储库、网站进化的方式、抓取的频率和日期,还是所有这些?
评估(Appraisal):评估意味着网站保证存档的原因、存储库命名的网站集合或网站的部分是否已被收割?
格式:描述是否清楚地表明资源是网站档案是不是很重要?如果是这样,在题名、数量或描述中如何最好地做到这一点?
URL:应包含哪些URL?种子、访问或登陆页面?
MARC 21记录的类型:当以MARC 21格式编码时,网站是否应被视为连续性资源、集成资源、电子资源、文本出版物、混合资料、手稿或其中任何一种,取决于具体情况?

【数据元素和使用指南(p.17/58)】14个元素及其定义(选摘对应的DC、schema.org元素)
[1] Collector 收集者:负责存档网站或集合的保管和管理的组织。(DC-contributor;schema:OwnershipInfo)
[2] Contributor 贡献者:对存档网站或集合的内容负有次要责任的组织或个人。(DC=;schema:contributor)
[3] Creator 创作者:对创建存档网站或集合的知识内容负有主要负责的组织或个人。(DC=;schema:creator)
[4] Date 日期:与存档网站或集合的生命周期中的事件关联的单个日期或日期范围。(DC=;schema:dateCreated,schema:dateModified,schema:datePublished)【DC Term另有专指时间:dateAccepted,dateCopyrighted,dateSubmitted,不太适合】
[5] Description 描述:一个或多个注释,用于解释存档网站或集合的内容、上下文和其他方面。(DC=;schema:description)
[6] Extent 范围:存档网站或集合大小的指示。(DC-format;schema:description)
[7] Genre/Form 类型/形式:指定存档网站或集合中内容类型的术语。(DC-Type;schema:genre)
[8] Language 语言:存档内容的语言,包括带有语言组件的影音资源。(DC=;schema:inLanguage)
[9] Relation 关系:用于表示单个存档网站与其所属的任何集合之间的部分/整体关系。(DC=;schema 无)
[10] Rights 权利:知识产权法或其他法律协议授予的合法权利和许可声明。(DC=;schema:license,schema:isAccessiblrForFree)【DC Term另有专指权利:accessRights, rightsHolder,类RightsStatement】
[11] Source of description 描述来源:有关收集或创建元数据本身的信息,例如数据源或获取源数据的日期。(DC-Description;schema:description,schema:disambiguatingDescription)
[12] Subject 主题:描述存档网站或集合内容的主要主题。(DC=;schema:about)
[13] Title 标题:存档网站或集合为人所知的名称。(DC=;schema:name)
[14] URL:存档网站或集合的网址。(DC-Identifier;schema:url)

P.S.:纽约艺术资源联盟(NYARC)是Archive-It项目成员,其《描述存档版网站的元数据应用纲要》(27个元素)提到OCLC的“网站存档描述元数据指南”即本建议,并有两种元数据的对照。
参见:为网站编目:《描述存档版网站的元数据应用纲要》(2018-9-9)

为网站编目:《描述存档版网站的元数据应用纲要》

纽约艺术资源联盟(NYARC) 有一个网站存档项目 Archive-it ,目前有10个艺术资源存档集(1个始于2010、9个始于2014),共收录3千多个网站,存档网站包含视频等。存档集和网站均进行编目。
NYARC上月发布《描述存档版网站的元数据应用纲要》(第2版),基于NYARC使用MARC+RDA的编目实践,意在为图书馆和档案社群对网站编目(描述/著录)提供参考。文件存放于GitHub网站,由咨询师Rebecca Guenther制订,初版发布于2015年6月,此次修订发布于2018年8月,已应用于NYARC的10个存档集。内容包括概要及数据字典,MARC记录编码附注,记录样本。此外,数据字典款目包括其他元数据标准元素的映射,包括BIBFRAME、EAD、schema.org和OCLC的Web存档描述元数据指南等,方便相互间转换。
本文件的目的是为NYARC存档网站编目提供指引,但也适用于普通网站编目。大致看了一下,编目元素仅27个,大多数元素有可选值或固定值,需要完全填写的元素仅10个(其中5个可选),可称简洁实用。

via [BIBFRAME] Announcing Version 2.0 of NYARC Metadata Application Profile for Description of Websites with Archived Versions / Deborah Kempe (2018-8-31)

———NYARC《描述存档版网站的元数据应用纲要》笔记———
Metadata Application Profile for Description of Websites with Archived Versions, Version 2 (August 2018)
描述存档版网站的元数据应用纲要,第2版(2018年8月)
目次:
1. MARC/RDA环境中描述存档版网站的数据元素概要
2. 描述存档版网站的元素的数据字典
3. MARC记录编码附注
4. OCLC网络存档元数据(WAM)指南与NYARC【目次未列出】
5. 记录样例【目次标号为4】

1. MARC/RDA环境中描述存档版网站的数据元素概要【编目模板】
元素共27个(需要完全填写的仅10个,其中5个可选),四栏表格:
(1)元素(通用名);(2)对应MARC(字段/子字段);(3)强制性(M必备、M/A有则必备、O可选);(4)提供(可由工具获得,如抓取工具、固定值:8个*取固定值,2个-不采用,其他7个提供部分内容)
27个元素:1题名 2交替题名 3施事者名 4施事者职能 5*收集者(施事者+职能) 6体裁或作品类型 7*资源类型 8*形式 9发行方式 10发行地 11发行者 12发行日期 13抓取日期 14语言 15数量 16*附注(存档) 17摘要 18主题 19实际电子位置 20存档电子位置 21-收藏名 22-收藏URL 23*权利说明 24著录来源(根据模板填日期) 25*保存行动 26*责任者 27*机构代码

2. 描述存档版网站的元素的数据字典【MARC元素+与其他元数据标准的映射】
表格:
(1)元素名,MARC字段(子字段),定义,期望值(数据类型、受控词表、URI、字符串),重复性,强制性,MARC创建/维护附注,MARC使用附注
(2)映射(属性/元素名,映射附注):DC属性,MODS元素,BIBFRAME属性(类、属性),EAD元素,OCLC元素,Schema.org属性

3. MARC记录编码附注【主要是0XX字段的说明】

4. OCLC网络存档元数据(WAM)指南与NYARC【元素对照,目次未列出,估计WAM指南2018.2发布后添加】
三栏表格:(1)OCLC WAM元素;(2)NYARC AP元素(对应MARC);(3)附注
OCLC WAM元素(14项):
1收集者 2贡献者 3创建者 4日期(网站上线日期,种子URL抓取日期,网站查看日期) 5描述(传记和历史信息,收集理由,范围与内容,摘要,档案检索工具) 6数量 7体裁/形式 8语言 9关系(单个网站到收藏) 10权利(使用限制、访问限制) 11著录来源 12主题 13题名 14URL

5. 记录样例【编号有误】
4.1 艺术家网站
1.2 归还失落或被掠夺的艺术品
4.3 画册目录(Catalogue raisonné)
4.4 艺术资源
4.5 美术馆
4.6 存档集

RDA测试版常见问题(2018年7月)

RDA指导委员会员(RSC)2018年元旦在官网发布“3R计划常见问题”(参见:RDA重构计划常见问题,2018-1-4)。7月此FAQ更新,在原4个部分前加了一个部分“测试版工具包”,解答6月上线的RDA工具包测试版相关问题。

共11个问题,摘译如下(编号为本人所加):

1 什么是测试版工具包 [新版预备版]
2 如何找到、是否任何人可访问 [帐号登录;可申请30天试用帐号]
3 目标用户是谁 [编目员、编目和元数据机构、培训者]
4 应该现在就在日常编目工作中应用测试版工具包条款吗 [否。条款开发中,可能不经说明修改]
5 如何对内容及功能提供反馈 [网页表单;各RSC地区机构]

6 未来开发时间表是什么
[开发到2018年底,由2018.10 RSC年会决定。完成需经RSC和ALA出版社同意,再由RDA理事会批准]

7 为什么有那么多选项
根据政策声明、其他应用纲要信息和编目员的判断,工具包用户可以自行决定是否遵循在测试版工具包中标记为选项的条款。原工具包中部分暗示了这一点,其中没有元素是强制性的,但有些被标记为“核心”,以反映LRM前英美及相关国际编目传统中对政策的潜在一致性。新工具包更加明确,以便允许更加一致、清晰和连贯的方法来使用RDA满足在全球环境中运营本地应用和社区的需求。LRM的影响,RDA记录方法的扩展,以及为国际、文化遗产和关联数据社区开发RDA的策略,都意味着为更广泛的应用定制RDA的更多选择。

8 条款的主要变化 [主要由于LRM]
(1)合集和连续出版物
(2)非人类角色,包括虚构实体、动物、传奇人物
(3)名称、题名和检索点
(4)转录和记录数据
(5)[与命名、地点、时间段有关的]属性元素现为关系元素

9 什么是应用纲要/应用配置文件,和测试版有什么关系
应用纲要是指示满足特定应用需求的RDA元素的文档。 纲要还将确定哪些元素是可重复的或不可重复的、首选的记录方法以及诸如词汇编码方案的值的首选来源。
新的工具包支持更广泛的应用,因此某些形式的应用纲要对于确保任何特定应用的数据维护的一致性和相干性至关重要。
测试工具包提供用户生成书签、工作流程和内部文档,以实现应用纲要。3R项目正在开发将外部文档链接到条款的方法,并正在研究允许特定应用“继承”更广泛的应用纲要的方法。

10 什么是可视化浏览器,何时加到测试版工具包
[完整RDA实体和元素关系层次结构的图形界面;2018年底或2019年初添加到新工具包]

11 什么时候接受正式修改建议,要遵循什么过程
[2019年初新工具包的内容稳定后,在RDA新治理结构内]

参见:
RDA工具包测试版网站上线及初步印象(2018-6-14)
RDA已经发生和有待发生的变化(2018年6月3R计划成果)(2018-6-21)
IFLA-LRM的连续性资源模型对RDA修订的影响(2018-6-29)
RDA工具包测试网站的“应用纲要”(2018-7-5)
RDA条款编号声明(2018-7-6)(2018-7-16)
RDA工具包条款标识(2018-7-30)
3R计划对MARC21的影响:继续修订?(2018-7-28)