OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

OCLC的网站存档元数据(WAM)工作组2016年初开始工作。在与国际互联网保存联盟(International Internet Preservation Consortium)美国档案工作者学会网络存档部(Society of American Archivists Web Archiving Section)和互联网档案(Internet Archive)Archive-It计划的协商下完成工作,并得到很多社区的意见和反馈。2018年初发布成果,共3个出版物:建议、用户需求文献综述、网络收割工具述评。

Web Archiving Metadata Working Group 网站存档元数据工作组
* Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group 网站存档的描述性元数据:OCLC研究图书馆合作伙伴网站存档元数据工作组的建议
* Descriptive Metadata of Web Archiving: Literature Review of User Needs 网站存档的描述性元数据:用户需求文献综述
* Descriptive Metadata of Archiving: Review of Harvesting Tools 存档的描述性元数据:收割工具评述

《建议》为网站存档描述元数据的使用指南,含14个描述数据元素的定义、详细说明、举例、取值以及与其他标准的对照(DC、EAD、MARC21、MODS、Schema.org)
本元数据建议使用DC 15个基本元素中的12个:完全沿用9个,其中Contributor还用于Collector,Description还用于Source of description(泛指用于专指);名称有所变化3个(泛指用于专指):Format用于Extent,Type用于Genre/Form,Identifier用于URL)。

以下摘译自《建议》(电子版有信纸58页和A4纸54页2个版本)。

【标准,p.14/58p;数据元素(p.15/58p)】小组既评估现有标准《描述档案:内容标准》(DACS)、《资源描述和检索》(RDA)、《都柏林核心》(Dublin Core),以及编码档案描述(EAD),MARC 21和MODS(元数据对象描述规范),也抽样了解实际做法,包括WorldCat(MARC记录)、ArchiveGrid(MARC记录和检索工具)、Archive-It(都柏林核心)和发现系统中存档网站的现有描述。结果未发现新的数据元素,但某些数据元素的做法或者理解存在不一致
网站创建者/所有者:是出版者、创建者、主体还是三者?
托管机构:选择、收割和托管网站的机构是否应被视为存储库、收集者、出版者、选择者或创建者?
题名:是否应该从网站头逐字转录?编辑以澄清网站的性质/范围?是否应该拼写首字母缩略词?题名是否应包含诸如“……的网站”之类的短语?
日期:哪些日期既重要又可用于记录?网站存在的开始/结束、抓取日期、内容日期或版权日期?
数量:如何最有效地表达? 1个存档的网站、1个在线资源、6.25 GB或约300个网站?
出处(Provenance):出处是指网站的创建者、收割网站和托管网站档案的存储库、网站进化的方式、抓取的频率和日期,还是所有这些?
评估(Appraisal):评估意味着网站保证存档的原因、存储库命名的网站集合或网站的部分是否已被收割?
格式:描述是否清楚地表明资源是网站档案是不是很重要?如果是这样,在题名、数量或描述中如何最好地做到这一点?
URL:应包含哪些URL?种子、访问或登陆页面?
MARC 21记录的类型:当以MARC 21格式编码时,网站是否应被视为连续性资源、集成资源、电子资源、文本出版物、混合资料、手稿或其中任何一种,取决于具体情况?

【数据元素和使用指南(p.17/58)】14个元素及其定义(选摘对应的DC、schema.org元素)
[1] Collector 收集者:负责存档网站或集合的保管和管理的组织。(DC-contributor;schema:OwnershipInfo)
[2] Contributor 贡献者:对存档网站或集合的内容负有次要责任的组织或个人。(DC=;schema:contributor)
[3] Creator 创作者:对创建存档网站或集合的知识内容负有主要负责的组织或个人。(DC=;schema:creator)
[4] Date 日期:与存档网站或集合的生命周期中的事件关联的单个日期或日期范围。(DC=;schema:dateCreated,schema:dateModified,schema:datePublished)【DC Term另有专指时间:dateAccepted,dateCopyrighted,dateSubmitted,不太适合】
[5] Description 描述:一个或多个注释,用于解释存档网站或集合的内容、上下文和其他方面。(DC=;schema:description)
[6] Extent 范围:存档网站或集合大小的指示。(DC-format;schema:description)
[7] Genre/Form 类型/形式:指定存档网站或集合中内容类型的术语。(DC-Type;schema:genre)
[8] Language 语言:存档内容的语言,包括带有语言组件的影音资源。(DC=;schema:inLanguage)
[9] Relation 关系:用于表示单个存档网站与其所属的任何集合之间的部分/整体关系。(DC=;schema 无)
[10] Rights 权利:知识产权法或其他法律协议授予的合法权利和许可声明。(DC=;schema:license,schema:isAccessiblrForFree)【DC Term另有专指权利:accessRights, rightsHolder,类RightsStatement】
[11] Source of description 描述来源:有关收集或创建元数据本身的信息,例如数据源或获取源数据的日期。(DC-Description;schema:description,schema:disambiguatingDescription)
[12] Subject 主题:描述存档网站或集合内容的主要主题。(DC=;schema:about)
[13] Title 标题:存档网站或集合为人所知的名称。(DC=;schema:name)
[14] URL:存档网站或集合的网址。(DC-Identifier;schema:url)

P.S.:纽约艺术资源联盟(NYARC)是Archive-It项目成员,其《描述存档版网站的元数据应用纲要》(27个元素)提到OCLC的“网站存档描述元数据指南”即本建议,并有两种元数据的对照。
参见:为网站编目:《描述存档版网站的元数据应用纲要》(2018-9-9)

期待OCLC《研究数据管理的现实》系列报告中译版

去年9月29日看到OCLC副总裁Lorcan Dempsey推文,OCLC的《研究数据管理的现实》系列报告出了第2部分。OCLC研究部网站显示,此报告由4个部分和1个补充材料《University Service Profiles》组成:
The Realities of Research Data Management
《研究数据管理的现实》是一个4部分系列,探索研究型大学正如何应对在整个研究生命周期中管理研究数据的挑战。在本系列中,我们考察高等教育机构在建立或获取RDM【能力时所面临的环境、影响及选择——换言之,支持新兴的数据管理实践的基础设施、服务及其他资源。我们的发现基于在四个十分不同的国家环境中的四个机构的个案研究:爱丁堡大学(英国)、伊利诺伊大学香槟分校(美国)、莫纳什大学(澳大利亚)和瓦格宁根大学(荷兰)。
Part One: A Tour of the Research Data Management (RDM) Service Space 研究数据管理 (RDM) 服务空间之旅
Part Two: Scoping the University RDM Service Bundle 大学 RDM 服务包的界定
Part Three: Incentives 激励
Part Four: Sourcing and Scaling 采购和规模

当时就想等出完了再看。前几天在微信群中看到OCLC北京代表处首席代表丘东江先生介绍今年1月4日已出第3部分,并称已委托《图书馆杂志》编译前3个部分。《图书馆杂志》金晓明主编也明确已在编译中,将发在“图情报告”副刊。长篇报告不用看原文,真是省不少力。期待早日完成。

关于研究数据管理,可参见其他博文:
研究数据管理元数据(附OCLC研究报告《搭积木:为研究数据管理项目奠定基础》)(2016-6-2)
研究信息管理系统——机构库升级版?(2014-11-9)
– 介绍Lorcan Dempsey的博文
研究数据管理:课程与培训资料(2016-7-18)

附1:OCLC研究部每年都会发布一些报告,先前也有若干曾轰动一时的报告翻译为中文,此RDM系列当为第4个:
《2003年OCLC环境扫描》(清华大学图书馆译,非正式出版物,2005?)
– 参见Keven:读《2003OCLC环境扫描》(2005-5-31);再读OCLC2003环境扫描报告(2005-07-15)
2007年《网络世界的共享、隐私与信任》(清华大学图书馆译,《数字图书馆论坛》2008年第3期)
– 参见:OCLC成员报告“网络世界中分享、隐私与信任”:有趣的数字(2007-10-29)
《图书馆的认知度(2010):环境与社会》(上海图书馆夏磊和张帆译,《数字图书馆论坛》2011年第4期)

附2:《图书馆杂志》的《图情报告》副刊只查到一个,是2016年1月的“世界各国图书馆战略系列”,包括5个国家图书馆级的多年战略规划(2015-20XX年)。

关联数据应用现状:2015国际关联数据实施者调查的分析

OCLC研究部在2014年面向国际关联数据实施者进行过一次问卷调查。参见:OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)。
由于缺少欧洲几个著名的关联数据项目,因此OCLC研究部在2015.6.1-7.31再次做了同样的调查。两次调查去重后合计有20国90个机构参与,主要是图书馆,大部分项目主要是实验性质的。主持者Karen Smith-Yoshimura在D-Lib上发文,综合两次调查结果,并对2015年调查中提供详细信息的112个项目/服务进行了详细分析。文章最后有调查回复者对其他考虑关联数据项目者的建议。
Smith-Yoshimura, Karen. Analysis of International Linked Data Survey for Implementers. D-Lib Magazine, 22(7/8) doi:10.1045/july2016-smith-yoshimura

如何评估关联数据项目是否成功?参加调查的项目很少做了评估,但有46个认为项目是成功或基本成功的。评估点涉及:数据重用、增加可发现性、新知识创建、思想领导力、为语义网做准备、运作成功、组织发展、组织转型。个人感觉最有意思的是“思想领导力”和“组织发展”两个方面:前者是用“关联数据工作证明,机构正在采取主动,为未来不同环境奠定基础”,后者认为“即使缺乏计量法证明关联数据对其他方面的价值,关联数据项目仍对员工提供了专业发展。”也就是说,做关联数据项目本身并非唯一目的,机构形象及员工发展也是重要考量。
以下为文章编译。

——— 参与调查机构基本数据 ———
【2014年和2015年全部90个机构按国别】依次是美国39个占43%,西班牙10个、英国9个、荷兰6个、挪威4个、加拿大3个,澳大利亚、法国、德国、意大利和瑞士各2个,奥地利、捷克、匈牙利、爱尔兰、日本、马来西亚、葡萄牙、新加坡和瑞典各1个。
【2015年71个机构按图书馆类型】国家图书馆14个占20%(2014年4个),高校图书馆23个占31%,多机构网络9个占14%,政府7个占10%,学术项目6个占8%,公共图书馆5个占6%,博物馆、学会各3个各占4%,出版社1个。
2015年的71个机构报告168个项目,其中112个有不同程度的详细描述。2/3项目在运行中,其中运行超过2年的“成熟”项目比2014年增加了一倍(46对24,表1)。有10个项目是“私有的”,仅供本机构使用。
如何利用关联数据(表2,2015对2014):消费关联数据(38对25),发布关联数据(10对4),同时消费与发布(64对47)。【只是消费的项目也有1/3!】

——— 发布的关联数据 ———
– 数据类型,依次是:书目数据56,规范数据45,描述元数据43,本体/词表30、数字馆藏26、地理数据18、数据集16,、博物馆实物数据10、编码档案描述5、组织数据5、有关研究者或馆员数据2。
– 数据集大小(三元组数量):大部分数据集很小。67个报告数据集大小,39个少于1千万,19个多于1亿。超过10亿的仅3个:北莱茵-威斯特伐利亚图书馆服务中心(10-15亿),挪威理工大学不同关联数据项目合计150亿,OCLC的WorldCat关联数据150亿。【欧洲确实有相当大的关联数据项目】
– 访问量(日均请求数):大部分已实施项目近6个月平均少于1千。
超10万的7个数据集是:Europeana, Getty词表3个,LC关联数据服务超过50个词表,日本国会图书馆NDL搜索,北莱茵威斯特伐利亚图书馆服务中心的LOD服务,OCLC的WorldCat关联数据,OCLC的VIAF。
另有6个数据集为1-5万:美国钱币学会nomisma词表,法国国家图书馆data.bnf.fr,不列颠图书馆英国国家书目,日本国会图书馆规范数据,OCLC的WorldCat作品,OCLC的FAST分面主题词表
– 使用的RDF词表和本体:数据集使用不同RDF词表和本体,很多使用多个。按提及频率,依次是【仅列10次以上,计数由本人据原始数据统计】:
1. Simple Knowledge Organization System (skos)【59】
2. Friend of a Friend (foaf)【55】
3. DCMI Metadata Terms (dcterms)【52】
4. Dublin Core Metadata Element Set (dce)【约49】
5. Schema.org vocabulary (schema)【30】
6. The Bibliographic Ontology (bibo)【25】
7. 本地词表【19?】;VOCABS rda【链接RDA第2组实体间关系,非官方版】【约19】
8. Europeana Data Model vocabulary (edm)【15】
9. ISBD elements (isbd)【13】;WGS84 Geo Positioning (geo)【13】
10. BIBFRAME Vocabulary (bf)【15?】
11. Expression of Core FRBR Concepts in RDF (frbr)【链接2005非官方版】【11】
– 许可:26个项目未宣布明确的许可,同样数量采用CC0 1.0。
– 可访问性:在74个发布关联数据的项目中,19个目前不能在机构外访问【超过1/4】。其他大多数提供多种(访问)方法。最通用的方法是网页,其后依次是:内容协调、文件转储、SPARQL端点、SPARQL编辑器和应用。
– 序列化:最通用的是RDF/XML,其他依次是:Turtle, JSON-LD, N-Triples, RDFa Core, RDF/JSON, Notation3 和 N-Quads。
– 技术:形形色色,最常使用多种技术。见表4。
– 障碍:发布关联数据的主要障碍依次是:
1、员工的陡峭学习曲线
2、选择适当的本体以表达数据
3、建立链接
4、对如何建立系统鲜有文档或建议【缺少先例】
5、缺少工具
6、不成熟的软件
7、弄清谁拥有数据【版权】
其他障碍:限制性许可,资源不足,数据集太大不能作为整体发布(且难以供他方消费),机构支持不足,适应当前关联数据技术的基础结构。

——— 消费的关联数据 ———
– 消费资源:2015年调查被12个及以上项目消费的依次是(星号来自参与调查机构)
1、VIAF *
2、DBpedia
3、GeoNames
4、id.loc.gov *
5、自己转换为关联数据的资源
6、AAT *
7、FAST关联数据 *
8、WorldCat.org *
9、data.bnf.fr *
10、DNB德国国家图书馆关联数据服务 *
从被消费看,以上可视为成功的关联数据发布方。参加调查的图书馆消费其他来源时,总体上选择图书馆领域的来源而不扩展到非图书馆来源,DBPeida和GeoNames是两个例外。
– 障碍:消费关联数据的主要障碍依次是:
1、匹配、消歧和校准来源数据及关联数据资源
2、映射词表
3、发布为关联数据的,不总是可重用的或者缺少URI
4、缺少规范控制
5、数据集不更新
6、RDF存储的大小;使用前了解数据如何结构化的
7、存储的数据格式的波动性
8、缺少工具;端点不稳定
9、 难以让其他机构做对象与概念之间的协调;服务可靠性
10、难以跨语言术语消歧
其他障碍:许可比ODC-BY更限制,机构把关联数据当作研究项目而非基础结构,本地感兴趣的关联数据集数量不足,API限制,结合消费关联数据到日常工作流程的资源不足。

——— 项目实例(按机构类型)———
– 国家图书馆:16个国家图书馆项目,美国、法国、德国居12个消费最多项目之列。
英国国家书目的SPARQL Query Viewer(图1)
德国国家图书馆的4个项目:国家书目,德国集成规范档GND,BIBFRAME原型,实体事实(图2)
日本国会图书馆的5个项目:书目数据、规范数据、日本图书馆和相关组织的国际标准标识符ISIL、有关2011年关东大地震的集成资源、日本十进分类法
– 网络
美国数字公共图书馆DPLA
欧洲Europeana
德国北莱茵威斯特伐利亚图书馆服务中心(hbz):发布最大关联数据集之一(10-15亿三元组),其关联开放数据API提供访问hbz联合目录的2000万书目记录及4500万馆藏,德国集成规范档(GND),以及图书馆地址数据(来自图书馆及相关组织德国国际标准标识符注册库ISIL)。
OCLC:发布抽取自自MARC记录和图书馆规范档的200亿RDF三元组,是世界上最大的图书馆集成关联数据资源,其中FAST、VIAF和WorldCat居2015年调查10个最高关联数据来源。
– 高校图书馆:大部分高校馆的关联数据项目是实验性质的
– 公共图书馆:很少公共馆参与调查,仅2个有项目运行中,其一是【Zepheira公司】LibHub项目的早期采用者;另一是奥斯陆公共图书馆,转换MARC目录为RDF关联数据,用外部收割来的信息强化,由SPARQL更新查询构建,挪威图书馆所写书评集链接到书目数据。
– 博物馆:很少博物馆参与调查
– 学术项目【由原始资料转换为结构化数据、生成三元组】
Dalhousie University’s Institute for Big Data Analytics:集成全世界一战档案中数据。从数字化文献中抽取数据,转换为可支持进一步研究的结构化数据库
Pratt Institute’s Linked Jazz project:“关联爵士乐”项目:从5个爵士乐档案的访谈文字内容生成三元组,即从数据而非转换现有元数据。(参见:BIBFRAME试验项目培训资料
Nomisma:美国钱币学会主持的国际协作项目,提供钱币术语和标识符的关联数据叙词表。
– 出版社
斯普林格是唯一参与调查的出版社。正把科学会议数据,以LOD提供关于出版物、作者、论题和会议的信息,方便探索、促进分析作者、研究机构和会议的生产力和影响。

参见:
hangingtogether.org: More on international linked data survey for implementers (2016-7-11) by Karen Smith-Yoshimura
圖書館觀點:全球關聯數據(Linked Data) 實施情況(2016-8-1)