研究数据管理元数据(附OCLC研究报告《搭积木:为研究数据管理项目奠定基础》)

由于众多研究资助机构要求受助者让数据可公共获取,研究数据管理(RDM,数据监护Data Curation的近义词)在欧美相当受重视,一些图书馆开始主动寻求满足研究者在这方面的需求。OCLC研究部2016年4月13日发布研究报告《搭积木:为研究数据管理项目奠定基础》,为高校启动研究数据管理项目提供指引。从初级的提供信息(第1部分)到实际推出服务(第2部分),报告提供了大量参考资料,包括各机构实施样例与可用资源。

研究数据管理中离不开元数据。“数据只有在可被理解时才是有用的。鼓励研究者提供有关其数据的结构化信息,提供情景与含义,让其他人查找、使用并适当引用数据。至少建议研究者清楚告知他们的故事:如何收集和使用数据、为什么目的。这样的信息最好放在readme.txt文件中,并包含项目信息、项目级元数据,以及有关数据本身的元数据(如文件名、文件格式、所用软件、题名、作者、资助者、版权所有者、描述、关键词、观察单元、数据种类、数据类型和语言)。”(第8页)
对研究者来说,提供元数据可能是个负担,也需要获取帮助——对图书馆来说,就是提供培训;在实施阶段,也包括代研究者做质量控制与清洗。

本报告“元数据”提供的参考资料,包括如何撰写、可用工具、元数据标准清单:
• Cornell University. “Guide to Writing ‘readme’ Style Metadata.” 康奈尔大学(准备元数据文档)
• DMPTool. “Data Management General Guidance: Metadata Data Documentation.” (元数据文档制作工具)
• DCC. “Disciplinary Metadata.”  (英国)数据监护中心:学科元数据一览(生物、地球科学、通用研究数据、物理学、社会与人文科学)
• Research Data Alliance (RDA). “Metadata Directory.” 研究数据联盟:元数据标准目录(艺术与人文科学、工程、生命科学、物理学和数学、社会和行为科学、通用研究数据)

元数据中有“唯一标识符”,包括个人ID、数据集ID及数据集的引用格式,可用于追踪下载、引用及影响测度。数据集有DOI、Handle、ARK(档案资源键),个人有ORCID和ISNI(没提ResearcherID),相关参考资料:
• California Digital Library, University of California Curation Center. “EZID.” 加州数字图书馆、加州大学监护中心:EZID(有偿提供DOI和ARK创建与维护,每年300-2500美元不等)
• International DOI Foundation. “DOI Registration Agencies.”
• ORCID, Inc. “Register for ORCID ID.”  个人ID(开放研究者与贡献者ID)
• ISNI International Agency. “Do you have an ISNI?” 个人ID(国际标准名称标识符)
• DataCite. https://www.datacite.org/

via hangingtogether.org: Metadata for research data management / Karen Smith-Yoshimura (2016-4-18)

——— 搭积木:为研究数据管理项目奠定基础 ———
Erway, Ricky, Laurence Horton, Amy Nurnberger, Reid Otsuji, and Amy Rushing. Building Blocks: Laying the Foundation for a Research Data Management Program. Dublin, Ohio: OCLC Research, 2016.

第1部分:打下基础
需求评估
提供信息(培训,数据管理规划,活动数据管理,元数据,权利与隐私,数据发布、保存与存档)
通告、推广与宣传
第2部分:建立与推出
需求评估(单位、研究者)
定义政策、指南与策略
提供服务(培训,数据管理规划,活动数据管理,元数据,数据发布、保存与存档)
通告、推广与宣传(社区参与与告知,在线呈现,合作发展)

参见荔园图志:OCLC Research发布“建立科研数据管理新基础”的报告 (2016-6-1)

OAI-ORE《对象重用与交换》笔记

《对象重用与交换》(OAI-ORE),此标准的名称说明了目的或功用,但“对象”指什么?这个“对象”,当指资源及其组合,在OAI-ORE中称为“聚合”(aggregations)。
“我们使用多页Web文档首页的URI来标识整个文档,我们使用HTML页面的URI提供访问一个Flickr集以识别整个图像集。但这些URI实际上只是识别这些特定页面,不是构成整个文档的页面联合,或者识别在一个Flickr聚合中所有图像的联合。本质上,此问题是,没有标准途径去描述聚合的成分或边界,这正是OAI-ORE致力于提供的。”——ORE User Guide – Primer

OAI-ORE目前为1.0版,用户指南文件包括入门、抽象模型、词表、序列化格式等:
Open Archives Initiative Object Reuse and Exchange (OAI-ORE) (version 1.0, 17 October 2008)

概要:
在Web中,“资源”指代感兴趣的任何项目,聚合则指资源的某种组合。
OAI-ORE基于语义网,以RDF图(三元组)描述Web资源的聚合。
OAI-ORE使用资源地图(Resource Map)描述聚合的成分或边界,揭示聚合本身及与被聚合资源间关系,并可选用代理(Proxy)指明被聚合资源。
OAI-ORE标准可用于网络爬虫、网络计量研究、数据交换与交互、数据重用与重构等,供机读使用。

ORE模型中关键实体间关系UML图

———- ORE Specification – Abstract Data Model 抽象数据模型 ———-

聚合特征
– 资源可能在一个服务器上,也可能分布在Web上;
– 资源间关系各异,如包含、替代等;
– 资源类型可能不同,甚至由不同词表定义,如书目、目次等;
– 资源与外部资源间关系各异,如引文、镜像、译文等。

聚合举例
– 相同类型、不同项目:收藏图片集,来自不同网站;多页HTML文档,以“前页”、“后页”链接;
– 相同项目、不同格式:Flickr上的照片,有多个尺寸与分辨率的图像,另有评论等;学术出版物,以过渡页(splash page)形式存储在arXiv等中,链接到多种格式全文,另有引文链接等;
– 不同类型资源组合:研究成果集,由成果、数据、可视化分析工具组成;
– 有层次的资源组合如:叠加期刊(overlay journal),文章组合为期、期组合为卷、卷组合为期刊。

5.3代理(Proxy)【这个没完全弄明白,尤其是第3个】
特定于聚合环境的关系(非全域/全局关系,即不是在所有情况下成立),必须断言两个三元组(代理P作为被聚合资源AR的代理,在聚合A中起作用):
<P> <ore:proxyFor> <AR>
<P> ore:proxyIn <A>

用途:
– 被聚合资源间关系(如:顺序关系,只适用于特定聚合中。参考文献的顺序,对各参考文献本身不适用)
<P-1> <hasNext> <P-2>
– 外部被断言关系到被聚合资源(如:引用关系。聚合是最佳论文集,用代理表明所引被聚合资源为最佳论文)
<URI-1> <xyz:cites> <P-1>
– 链接被聚合资源(如:起源或出处,被聚合资源来源于另一个资源)
<P-1> <ore:lineage> <P-2>
对主体代理的资源地图必须包含三元组 <P-1> <ore:proxyFor> <AR-1>
对客体代理的资源地图必须包含三元组 <P-2> <ore:proxyFor> <AR-1>(两个三元组中被聚合资源AR-1相同)

the use of ore:lineage

———- ORE Specification – Vocabulary 词表 ———-
指导原则是在可能的情况下重用已有词表。
使用命名空间:ore(本身), oreatom; dc, dcterms, dcmitype; foaf; owl, rdf, rdfg, rdfs

自定义类与关系
(4个)
ore:Aggregation 聚合;父类 dcmitype:Collection
ore:AggregatedResource 被聚合资源
ore:Proxy 代理(代表一个存在于特定聚合中的被聚合资源)
ore:ResourceMap 资源地图;父类 rdfg:Graph

关系/谓词(8个)
ore:aggregates 聚合;父属性 dcterms:hasPart;定义域 ore:Aggregation,值域 ore:AggregatedResource
ore:isAggregatedBy 被聚合;父属性 dcterms:isPartOf;逆属性 ore:aggregates
ore:describes 描述;定义域 ore:ResourceMap,值域 ore:Aggregation
ore:isDescribedBy 被描述;逆属性 ore:describes
ore:lineage 世系;定义域、值域 ore:Proxy
ore:proxyFor 代理;定义域 ore:Proxy,值域 ore:AggregatedResource
ore:proxyIn 代理在;定义域 ore:Proxy,值域 ore:Aggregation
ore:similarTo 相似;父属性 rdfs:seeAlso;定义域 ore:Aggregation,值域 ore:Resource

推荐的重用词表(例举而非枚举)
– 类
DCMI类型:为资源赋予大类
DCTerms:主要作为关系的定义域、值域
FOAF:用于与人相关的资源,包括个人、组织和项目

– 关系(两类关系:1、资源-关系-文字;2、资源-关系-资源)
DC元素:dc:description,dc:format(建议用MIME类型),dc:language(建议使用ISO 639-1),dc:rights,dc:title
DCTerms:dcterms:audience(建议客体dcterms:AgentClass),dcterms:contributor(建议客体dcterms:Agent),dcterms:conformsTo(建议客体dcterms:Standard),dcterms:creator(建议客体dcterms:Agent, foaf:Person),dcterms:created(ISO8601格式),dcterms:extent,dcterms:isVersionOf,dcterms:modified(ISO8601格式),dcterms:references(建议客体Resource),dcterms:replaces,dcterms:rights(建议客体dcterms:RightsStatement)
FOAF:foaf:mbox,foaf:name,foaf:page
RDF:rdf:type(建议客体rdfs:Class)
RDFS:dfs:isDefinedBy(为类规定取值词表),rdfs:label(为类规定人读标签),rdfs:seeAlso

NISO发布新计划:开发书目词表交换标准

美国国家信息标准委员会(NISO)在2012年下半年得到梅隆基金资助,计划评估新书目框架及未来需求,2014年上半年报告发布时称为“书目路标”(Bibliographic Roadmap)。针对“书目路标”中被识别为具有高优先度的领域,NISO在2014年底确定开发支持书目数据交换与互操作的标准,包括三个新项目:词表使用与复用政策、词表文档和词表保存需求(Vocabulary policies on use and reuse, Vocabulary documentation, and Vocabulary preservation requirements)。消息昨天公布:
时间表如下:
建议批准:2015年1月
任命工作组主席及第一次指导委员会会议:2015年2月
批准初始工作计划及任命工作组:2015年2月
完成初始草案标准:2015年11月
公开征求意见阶段:2015年12月
完成最后草案:2016年6月

2012年11月NISO宣布计划评估新书目框架及未来需求时,还是BIBFRAME模型发布(2012-11-21)前夜。如今BIBFRAME已经成形,处于实施前的测试阶段。NISO的新标准和BIBFRAME将是一种什么关系?

参见:
NISO Bibliographic Roadmap Development Project
ROADMAP FOR THE FUTURE OF BIBLIOGRAPHIC EXCHANGE: SUMMARY REPORT / National Information Standards Organization. APRIL 2014. ISBN: 978-1-937522-43-8. (10 p. pdf)
NISO Launches New Projects to Develop Standards for Bibliographic Vocabulary Exchange (18 Mar 2015)
A Proposed NISO Work Item: Development of Standards to Support Bibliographic Data Exchange. November 14, 2014, Last Modified: December 18, 2014. (3p. pdf)

NISO有意主导取代MARC新标准制订?(2011年11月6日)
NISO得到梅隆基金资助,评估新书目框架现状及未来需求(2012年11月9日)
2014-2-13更新:最新进展:NISO报告:通过新交换环境绘制航线:NISO书目路标行动(报告摘要于2014年4月发布)