OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:收割工具评述》

项目简介见:OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

《存档的描述性元数据:收割工具评述》
Samouelian, Mary, and Jackie Dooley. 2018. Descriptive Metadata for Web Archiving: Review of
Harvesting Tools. Dublin, OH: OCLC Research. doi:10.25333/C37H0T.

选择11个网站收割工具(仍在维护更新、含描述元数据抓取功能):
• Archive-It
• Heritrix
• HTTrack
• Memento
• Netarchive Suite
• SiteStory
• Social Feed Manager
• Wayback Machine
• Web Archive Discovery
• Web Curator Tool
• Webrecorder

从7个方面评估各自在自动生成描述元数据方面的能力
1.该工具的基本用途及其核心功能是什么? (例如,捕获、显示和/或管理层)
2.它可以接收和生成哪些对象/文件? (即工具创建或更改的原子单位,例如Mementos,WARC(Web ARChives)或PDF)
3.它记录了哪些元数据配置文件?
4.自动生成哪些描述性元素?
5.用户可以创建或编辑哪些描述性元素?
6.可以导出哪些描述性数据元素以在工具外部使用?
7.它与其他工具有什么关系? (例如,Heritrix收集嵌入在WARC文件中的元数据,其中一些文件由Archive-It使用。)

更多网站存档工具和软件,见国际互联网保存联盟(International Internet Preservation Consortium)网站:
IIPC: WEB ARCHIVING > Tools & software

对于网站存档的状况,哈佛大学2016年发布了一份《网站存档环境扫描》:
Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report.

OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

OCLC的网站存档元数据(WAM)工作组2016年初开始工作。在与国际互联网保存联盟(International Internet Preservation Consortium)美国档案工作者学会网络存档部(Society of American Archivists Web Archiving Section)和互联网档案(Internet Archive)Archive-It计划的协商下完成工作,并得到很多社区的意见和反馈。2018年初发布成果,共3个出版物:建议、用户需求文献综述、网络收割工具述评。

Web Archiving Metadata Working Group 网站存档元数据工作组
* Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group 网站存档的描述性元数据:OCLC研究图书馆合作伙伴网站存档元数据工作组的建议
* Descriptive Metadata of Web Archiving: Literature Review of User Needs 网站存档的描述性元数据:用户需求文献综述
* Descriptive Metadata of Archiving: Review of Harvesting Tools 存档的描述性元数据:收割工具评述

《建议》为网站存档描述元数据的使用指南,含14个描述数据元素的定义、详细说明、举例、取值以及与其他标准的对照(DC、EAD、MARC21、MODS、Schema.org)
本元数据建议使用DC 15个基本元素中的12个:完全沿用9个,其中Contributor还用于Collector,Description还用于Source of description(泛指用于专指);名称有所变化3个(泛指用于专指):Format用于Extent,Type用于Genre/Form,Identifier用于URL)。

以下摘译自《建议》(电子版有信纸58页和A4纸54页2个版本)。

【标准,p.14/58p;数据元素(p.15/58p)】小组既评估现有标准《描述档案:内容标准》(DACS)、《资源描述和检索》(RDA)、《都柏林核心》(Dublin Core),以及编码档案描述(EAD),MARC 21和MODS(元数据对象描述规范),也抽样了解实际做法,包括WorldCat(MARC记录)、ArchiveGrid(MARC记录和检索工具)、Archive-It(都柏林核心)和发现系统中存档网站的现有描述。结果未发现新的数据元素,但某些数据元素的做法或者理解存在不一致
网站创建者/所有者:是出版者、创建者、主体还是三者?
托管机构:选择、收割和托管网站的机构是否应被视为存储库、收集者、出版者、选择者或创建者?
题名:是否应该从网站头逐字转录?编辑以澄清网站的性质/范围?是否应该拼写首字母缩略词?题名是否应包含诸如“……的网站”之类的短语?
日期:哪些日期既重要又可用于记录?网站存在的开始/结束、抓取日期、内容日期或版权日期?
数量:如何最有效地表达? 1个存档的网站、1个在线资源、6.25 GB或约300个网站?
出处(Provenance):出处是指网站的创建者、收割网站和托管网站档案的存储库、网站进化的方式、抓取的频率和日期,还是所有这些?
评估(Appraisal):评估意味着网站保证存档的原因、存储库命名的网站集合或网站的部分是否已被收割?
格式:描述是否清楚地表明资源是网站档案是不是很重要?如果是这样,在题名、数量或描述中如何最好地做到这一点?
URL:应包含哪些URL?种子、访问或登陆页面?
MARC 21记录的类型:当以MARC 21格式编码时,网站是否应被视为连续性资源、集成资源、电子资源、文本出版物、混合资料、手稿或其中任何一种,取决于具体情况?

【数据元素和使用指南(p.17/58)】14个元素及其定义(选摘对应的DC、schema.org元素)
[1] Collector 收集者:负责存档网站或集合的保管和管理的组织。(DC-contributor;schema:OwnershipInfo)
[2] Contributor 贡献者:对存档网站或集合的内容负有次要责任的组织或个人。(DC=;schema:contributor)
[3] Creator 创作者:对创建存档网站或集合的知识内容负有主要负责的组织或个人。(DC=;schema:creator)
[4] Date 日期:与存档网站或集合的生命周期中的事件关联的单个日期或日期范围。(DC=;schema:dateCreated,schema:dateModified,schema:datePublished)【DC Term另有专指时间:dateAccepted,dateCopyrighted,dateSubmitted,不太适合】
[5] Description 描述:一个或多个注释,用于解释存档网站或集合的内容、上下文和其他方面。(DC=;schema:description)
[6] Extent 范围:存档网站或集合大小的指示。(DC-format;schema:description)
[7] Genre/Form 类型/形式:指定存档网站或集合中内容类型的术语。(DC-Type;schema:genre)
[8] Language 语言:存档内容的语言,包括带有语言组件的影音资源。(DC=;schema:inLanguage)
[9] Relation 关系:用于表示单个存档网站与其所属的任何集合之间的部分/整体关系。(DC=;schema 无)
[10] Rights 权利:知识产权法或其他法律协议授予的合法权利和许可声明。(DC=;schema:license,schema:isAccessiblrForFree)【DC Term另有专指权利:accessRights, rightsHolder,类RightsStatement】
[11] Source of description 描述来源:有关收集或创建元数据本身的信息,例如数据源或获取源数据的日期。(DC-Description;schema:description,schema:disambiguatingDescription)
[12] Subject 主题:描述存档网站或集合内容的主要主题。(DC=;schema:about)
[13] Title 标题:存档网站或集合为人所知的名称。(DC=;schema:name)
[14] URL:存档网站或集合的网址。(DC-Identifier;schema:url)

P.S.:纽约艺术资源联盟(NYARC)是Archive-It项目成员,其《描述存档版网站的元数据应用纲要》(27个元素)提到OCLC的“网站存档描述元数据指南”即本建议,并有两种元数据的对照。
参见:为网站编目:《描述存档版网站的元数据应用纲要》(2018-9-9)

TEI笔记:人物、机构、地点相关信息的标识

TEI有一个通用名称元素<name>,适用于各种名称,可用属性@type定义名称类型,包括:人物、地点、机构、产品等。也可以使用专指元素表达,如<persName>人名, <placeName>地名, <orgName>机构名。
除了名称作为基本标识,人物<person>、机构<org>、地点<place>还有其他标识,TEI P5指南的第13章(Names, Dates, People, and Places尤其是13.3 Biographical and Prosopographical Data)有详细说明。
TEI将个人、机构和地点的信息归纳为三类,有各自的通用元素,即:<trait>特征(独立于个人意志的),<state>状态(与时间有关的),<event>、<listEvent>事件(改变状态甚至特征),可以用@type说明信息的具体类型,也可以使用如下专指元素。另外还有<relation>、<listRelation>说明相互间关系。
一、个人元素(13.3.2)
<person>,属性:@role职能/分类,@sex性别,@age年龄组(也可以用相应的专用元素)
<personGrp>
<listPerson>可用于TEI标头<profileDesc>之<particDesc>(参与者描述,如定义个人类别),也可用于正文
1、可嵌套的个人特征元素
<faith>信仰,<langKnowledge>语言知识,<nationality>国籍,<sex>性别,<age>年龄,<socecStatus>社会经济状态,<persName>人名(嵌套<forename>名、<surname>九),<occupation>职业,<residence>居所,<affiliation>单位,<education>教育经历,<floruit>活跃时期,<persona>角色,(没有专指元素时使用)<state>状态、<trait>特征
例(p.461)阿尔马尼亚族人
<trait type=”ethnicity” key=”alb”>【@type可以使用词表(种族),@key可以定义中国少数民族】
 <label>Ethnicity</label>
 <desc>Ethnic Albanian.</desc>
</trait>
2、可嵌套的个人事件元素
<birth>出生,<death>去世。其他用<event>@type定义。
例(p.462)结婚于1859年4月26日
<event type=”marriage” when=”1859-04-26″>
  <label>Marriage</label>
  <desc>
    <name type=”person” ref=”#WM”>William Morris</name> and <name type=”person”
ref=”http://en.wikipedia.org/wiki/Jane_Burden”>Jane Burden</name> were
married at <name type=”place”>St Michael’s Church, Ship Street, Oxford</name>
on
    <date when=”1859-04-26″>26 April 1859</date>.
……</desc>
</event>
3、人际关系元素
<relation><listRelation>,用@name说明关系类型。
例(p.464-465)
<relation name=”spouse” mutual=”#WM #JBM”/>【双向关系】
<relation name=”parent” active=”#RB” passive=”#JBM”/>【亲子关系:@active父母,@passive子女】
二、机构元素(13.3.3)
没有太多专指元素:<org>、<listOrg>机构,可嵌套的元素<orgName>机构名,<desc>描述。
三、地点元素(13.3.4)
<place>、<listPlace>地点,<placeName>地名
1、可嵌套的地理位置元素
(1)地理特征
<geo>地理坐标,<geoDecl>地理坐标声明,<geogFeat>地理地形特征(山、谷……),<geogName>地理名称(与地形名称结合的地名,如庐山)
(2)<location>位置
(从大到小)<bloc>多国(洲、欧盟……),<country>国家,<region>地区,<settlement>定居点,<district>区,<address>详细地址,<street>街;<locale>非正式描述地点性质
(3)<offset>相对位置
例(p.456)距巴黎北部20公里
<measure>20 km</measure>
<offset>north of</offset>
<settlement type=”city”>Paris</settlement>
2、可嵌套的地点特征与事件
<population>人口,<climate>气候,<terrain>地形。
没有专指元素时,使用<event>的@type说明特定事件。
例(p.474)治理变化:爱尔兰于1944年6月17日独立
<event type=”governance” when=”1944-06-17″>
<desc>Iceland became independent on 17 June 1944.</desc>
</event>
3、地点间关系
没有专指元素,通过<listPlace>或<place>层级嵌套表示。包括多地点(13.3.4.2),如多级行政区域、群岛,不同时期、不同语言名称;上下级关系等(13.3.4.4)等。(举例略)
详见最新版P5的指导文件:
参见: