BIBFRAME扩展:哈佛电影本体及动态图像扩展

在LD4P和LD4L-Labs项目中,哈佛大学的工作包括对哈佛电影档案馆(Harvard Film Archive, HFA)馆藏的关联数据转换。据哈佛的LD4P项目计划(Harvard Project Proposal,由 Alissa Hafele创建, 最终由 Michelle Futornick修改于 二月 07, 2017):
“作为LD4L-Labs配套项目(5.2哈佛电影档案馆(HFA))的一部分,哈佛将探索和评估将动态图像资源的遗留元数据转换为关联数据的问题。本项目还将探讨使关联数据对研究和发现有用的问题。将开发元数据转换工具,为哈佛电影档案馆(HFA)拥有的各种格式(电影拷贝、底片、DVD、VHS、超8等)和内容(故事片、预告片、家庭电影、民族志电影、宣传片)及相关档案资料(包括制作元素、艺术品、电影剧照和宣传短片)创建关联数据描述。本项目将评估BIBFRAME作为数据模型用于描述动态图像资料,对于研究需求的有效性,并在关联数据环境中识别用于描述这些材料的特定词汇表。HFA项目将为HFA电影拷贝数据库中的记录创建映射,重点关注女性导演的一部分动态图像材料(之前曝光不足的作品,在许多情况下是该馆藏的独特之处)。在可能的情况下,实体将与关联数据URI进行调和,包括个人和公司名称(ISNI、LCNAF)、地名(GeoNames)、体裁(LC体裁/形式、Getty AAT)和作品。”

据介绍项目完成了35,000电影单件从Filemaker Pro数据库到关联数据的转换,生成3,600,000三元组,1,000电影制作人名称获取到ISNI身份。为描述HFA资料所用的哈佛电影本体,对BIBFRAME在动态图像资源方面估了有限的扩展,称为MI扩展(MI extension)。
哈佛电影档案使用主要本体如下(注意到非限定RDA得到多处利用):
描述领域:Works ; Instances ; Items;模型/本体: BIBFRAME
描述领域:Work to work relationships;模型/本体:BIBFRAME, RDAU, MI extension
描述领域:Titles ; Notes ; Annotations;模型/本体:Bibliotek-o, Web Annotations
描述领域:Activities and Agents;模型/本体:Bibliotek-o, dcterms, ISNI, FOAF
描述领域:Content/Carrier/Media ; Subjects ; Genres ;模型/本体:dcterms, schema.org, MI extension
描述领域:AV characteristics and preservation;模型/本体:RDAU, MI extension
描述领域:Provenance;模型/本体:ArtFrame-RareMat

via: LD4P + LD4L Labs projects for geospatial and cartographic resources + moving image materials at Harvard (Marc McGee and Christine Fernsebner Eslao; presentation for IGELU-ELUNA Linked Open Data Working Group Show & Tell, July 10, 2018,梯子自备) [slides]

去GitHub上的LD4L_Film_Ontology(2018-4-20最后更新)看MI extension.ttl,新增词表中技术细节不多,更偏重使用。概要如下:

新增类(4个)及其取值(Individuals,41个)
mi:ConditionDefect(缺陷情况),18个取值
mi:ConditionGrade(等级情况),4个取值
mi:Caution(注意),11个取值
mi:ColorCharacteristic(色彩特征),8个取值

新增子类(5个):
bf:Identifier子类:
– mi:ImdbNumber(IMDb标识符)
活动子类(bib:指bibliotek-o.org命名空间)
bib:Activity 子类
– mi:ProductionCompanyActivity(?原文件说明有误)
– mi:UseActivity(使用)
— mi:ScreenerActivity(促销放映)
bib:AcquisitionActivity 子类
– mi:PurchaseActivity(购买)

新增属性(4个):
dcterms:language(语言)子属性:
– mi:intertitleLanguage
– mi:spokenLanguage
– mi:subtitleLanguage
rdau:P60305(is based on)子属性http://www.rdaregistry.info/Elements/u/#P60305
– mi:isPromotionFor(是……的宣传片)【2018-4-20 最后增加】

更多详细信息见:Working documents for Moving Images LD4L Labs(Created by Christine Fernsebner Eslao, last modified on Apr 18, 2017)

文献中个人资料的信度

领导布置为本校的“上海社科大师”写微信公众号文章,以响应上海市社会科学界联合会“礼赞上海社科大师”活动(参见:“礼赞上海社科大师”主题地铁专列,2018-05-23)。我对大师所在领域并不了解,如果为写而写,只能抄录已有资料,没多大意思,而且还会因为对原文的理解偏差而出错。如果作为搜集人物资料的结果,倒有可能发现与时代结合的亮点,写出来会更有可看性。当然,还有另外的理由。
这些社科大师都是名人,不乏评价介绍文章。但从查到的资料看,介绍文章中信息未必都准确,甚至某些可算得上第一手资料的亲历者回忆,也因年代久远记忆模糊而与事实不符。图书馆员不是领域专家,不可能写得比专家好。然而图书馆员坐拥日益丰富的全文数据库,又擅长查资料,应当修正可能的事实错误,并补充更丰富的信息——特别是由于时代原因曾被刻意省略的民国年间活动。

说到第一手资料,不免想到1980年代最流行的英语教科书《新概念英语》里,记者为统计非洲某国总统府台阶数量而身陷囹圄的故事(New Concept English, 第3册第5课:The facts)。因此,如果为资料信度排序的话,报刊上的活动报道可居前列,尤其是正规大报,绝对的第一手资料(小报有捕风捉影的可能)。比如《申报》中的消息(事前)和报道(事后)相当丰富,是了解民国年间人物活动、社会关系的绝佳来源。当然,报道中XXX博士之类的称呼,就不能作为是否获得博士学位的证据了。

事实类信息,以机构本身出版物为信度最高的资料。比如高校名录、年报,会有教职员名单、各级学生名单、当年毕业生名单、甚至校友名单(可确认毕业年份与学位)。当年《申报》上有不少任职信息,比如开学前后,报道某校聘定院长、系主任之类,通常也是可信的——在找不到机构本身出版物时,可作为信史。

对学术成就的评价,官方评奖的评语信度最高。比如本次“上海社科大师”名单下对各位的评语。
对本领域学术成就的评价,学会协会编写的出版物信度较高,尤其是周年庆出版物,通常不会因过度偏向某一个人而致事实出错。

个人回忆录或口述历史,我通常会放在第一手资料的最后。原因一是时间久远,一是情感偏向。
个人纪念文集中收录的纪念文章,通常属于个人回忆范畴,有时时间并不久远,但指向性太强,会有过誉风险。
名人集、名人录中收录的文章、条目,信度再低一级。因为不能确定作者是否真的了解所写名人,文章所据是否为第一手资料。

最后,如何发现事实错误?简单地说,不能只看纪念TA的文章——很多是抄来抄去的好嘛(如果我不查原始资料就写,我也只能抄)。要用全文搜索,查找提及TA的文章。浏览相关内容,会发现评价其他人时提及TA(比如纪念其他人)的文章,就可以比较评价的不同、事实的差异,发现进一步查找的线索。其实这通常是查评论报道文献时顺带的发现。
更辛苦的是,把报纸上有关TA的报道全部记录下来,然后发现根本没有很多文章中讲到的TA在某机构任职的任何信息。这个是特例,是个意外发现,如果作为经验总结的话,可以试着全文查:人名+机构名,也可以得出同样结论。但我其实在记录有关TA的报道的过程中,对TA有了全面的了解,写出了自以为很有可读性的介绍文章——当然这不是目的,我由这些报道作出了TA的社会关系云图,更期望能作出真正的社会关系图。

此为重拾文献检索之二。第一篇见:怎么查作者的英文姓名?(2019-1-10)

BIBFRAME扩展:地理空间和制图资源本体(GCRO)

地理空间和制图资源本体(Geospatial and Cartographic Resources Ontology,GCRO)是BIBFRAME 2.0扩展本体bibliotek-o的扩展本体,目前为工作草案/beta版(2018-3-30最后更新),暂时采用 http://ontology.library.harvard.edu/geo/ 作为GCRO扩展的命名空间(占位、未激活)。
GCRO是LD4P项目中哈佛大学承担的制图资料项目中的重要内容。介绍见维基:Cartographic Extension (由 Michelle Futornick创建, 最终由 Marc McGee修改于 七月 17, 2018)
项目完成了6个优先考虑的概念领域(投影Projection、空间范围-边界框坐标 Spatial Extent – Bounding Box Coordinates、比例尺 Scale、地势 Relief、制图资源类型 Types of Cartographic Resources 和本初子午线 Prime Meridians)的本体开发,以支持完成11位研究员、学生和图书管理员用例。创建了GCRO本体的OWL文档,信息见:
LD4P Cartographic Materials GitHub repository
大致统计,GCRO共定义了153个类,5个对象属性,1个数据类型属性,24个取值(Named Individuals)。

根据某网络会议PPT(Linked Data Description of Cartographic Resources (Marc McGee, ALCTS Webinar, May 2, 2018),梯子自备)
GCRO为描述地理空间和地图资源,对BIBFRAME 2和bibliotek-o模型进行扩展,可能情况下复用已有LOD本体,包括:RDA, GeoSPARQL, Web Annotations, DCMI Metadata Terms, FOAF;推荐选择支持实体取值词汇。
GCRO所用主要本体:
描述领域:作品、实例、单件 —— 模型/本体:BIBFRAME
描述领域:活动、题名、内容/载体/媒介、主题、附注和注释 —— 模型/本体:bibliotek-o
描述领域:比例尺、地势、投影、坐标、制图资源类型 —— 模型/本体:GCRO
描述领域:本初子午线 —— 模型/本体:rdau
描述领域:测度 Measurements —— 模型/本体:ArtFrame-RareMat

参见:BIBFRAME扩展:bibliotek-o(及ArtFrame和RareMat)(2018-5-1)

——— 附:LD4P项目中哈佛大学制图资料项目(计划) ———
Harvard Project Proposal(由 Alissa Hafele创建, 最终由 Michelle Futornick修改于 二月 07, 2017)

哈佛大学将探索为图书馆制图资源创建本地关联数据描述的最佳实践,包括印刷地图、地图集、数字地理空间数据集和其他制图信息资源。本项目将评估BIBFRAME作为数据模型的有效性,用于描述研究需求的制图材料,并将比较BIBFRAME的有效性与其他可用的关联数据描述性模式。此外,本小组将评估与制图资源描述相关的叙词表和受控词汇表,以识别最适合描述关联数据环境中制图资源的词汇表。
本项目的LD4L-Labs部分(5.1地理空间数据集和地理空间图像)将侧重于转换哈佛地理空间图书馆、斯坦福EarthWorks和康奈尔大学地理空间信息库的OpenGeoMetadata元数据记录的子集(现在使用地理空间社区标准“联邦地理数据委员会”(FGDC)架构,ISO 19139 表示),成为关联数据描述。
目标/预期成果【据PPT增加注释】
* 识别图书馆制图资源元数据用例、用户故事和研究需求。
* 评估现有BF模式是否适合描述制图资源。【schema.org?】
* 评估其他可用的LOD词表以描述制图资源的属性。【id.loc.gov, FAST, ISNI, VIAF, ISO 19139, GeoNames】
* 开发并记录BF配置文件以描述制图资源。
* 与制图资源社区合作,开发用于描述制图资源的BF最佳实践。
* 使用开发的BF配置文件(珍稀资料到原生数字、不同的语言)编目并转换代表性的制图资源选集,并为项目三元组库提供描述。
* 制订一套由联邦地理数据委员会(FGDC)地理空间元数据标准到关联数据的映射规则
* 使用LD4L-Labs将一组OpenGeoMetadata记录转换为使用制图资料本体的关联数据描述;协调和Originators、Place和Theme关键字以及丛编作品的源元数据中的关联数据实体;将描述发布到关联数据三元组库。
* 通知元数据生成工具的开发,以确保描述制图资源的兼容性。【VitroLib】
* 通知制图资料元数据可视化工具的开发。
* 评估项目结果并分享一系列建议,以便进一步研究和开发。
* 将项目结果呈现给适当的图书馆和关联数据社区,如ALA地图和地理空间信息圆桌会议(MAGIRT)、合作编目计划(PCC)、DLF(数字图书馆联盟)、数字人文组织联盟(ADHO)。
【以上是当初的计划书,从前引维基页面看,有2项推迟到将来:1、创建GCRO的SHACL应用配置文件;2、使用VitroLib的哈佛地理空间元数据实例中的GCRO应用配置文件测试一系列地理空间和制图资源的编目】