乱花迷眼 – 第 27 页 – 编目精灵III

数字人文 vs 电子科学（“数字人文与语义技术”会议报告随记）

今天参加上海市图书馆学会举办的2014年图书馆前沿技术论坛（IT4L）“数字人文与语义技术”。因为注册了这个会议，所以对数字人文就特别关注起来。其实今年2月OCLC发布研究报告《每个研究图书馆都需要一个数字人文中心么？》时就下载了的，但一直没有看。
Does Every Research Library Need a Digital Humanities Center? / Jennifer Schaffner , Ricky Erway. OCLC Research, February 2014. ISBN 978-1-55653-466-9. 18 p.

直觉“数字人文”就是用计算方式进行人文科学研究——比如以前就听说过的用文学作品语料库统计分析写作风格之类，只是那时可能没有用这个名词。今日午餐时和几位说起为什么没有数字科学，以为自然科学是通过实验做研究的、不似人文科学更依赖思辨，需要用计算的方式进行定量研究。待回到家中，才发现我的电脑收藏中不知何时已建有e-sci文件夹。查维基百科，自然科学和数字人文对应的，或许就是电子科学吧——当然采用的方法肯定不同，就是人文科学中也不会相同。
维基百科词条：Digital Humanities vs e-Science

———-“数字人文与语义技术”会议报告随记———-
刘炜《数字人文与关联数据》是入门课，从起源讲到“云中上图”。像上图这样的图书馆，还真有很多资源可做。
特别有感觉的是说数字人文不是学科，而是研究领域……（待看PPT）。

曾蕾《语义技术应用与知识再发现》举例说明如何用图情一直以来的强项，即基于图书馆资源的半结构数据，用语义技术做挖掘。报告中提到无结构的大数据、有结构的智慧数据（smart data）和半结构的XML文档（概念来自《数字人文杂志》：Big? Smart? Clean? Messy? Data in the Humanities / CHRISTOF SCHÖC）。
另外，第一次听说CCO（Cataloging Cultural Objects）图像标引三层次：一描述、二辨识（即主题）、三阐述（即意义）——有一种豁然开朗的感觉。

秦健《从欧美数字人文奖励项目说开去》对受资助项目做了归类。从数据类型上说，既包括非结构化的文本，也包括结构化的包括GIS数据集，以及数字和纸质地图、各种档案、音乐信息、语音文档、图像数据。

不同的人文科学肯定会有不同的数字人文方法，比如前述文学作品研究，与林海青《用GIS数据呈现历史事件》介绍的空间历史学，就完全不同。
除此报告外，其他报告所举例子也有不少地图应用。人文科学、社会科学研究中，与时间、地点相关的内容是相当重要的。
AHA 2014: Getting Started in Digital History Spatial History & hGIS Breakout Session

复旦大学张亮《数字人文中的IT推动力-以二十世纪中国人物志数字图书馆原型系统为例》，介绍了名为“数风流人物”的原型系统。数据来源是国家社科基金重大课题“中国人物传记数据库”，原库有5万余人，PDF全文检索。原型系统只取了十多个人（？），从时间、地理、人物关系等予以揭示。

上图杨佳《数字人文中的可视化技术》将可视化技术分为五类，举了不少例子，需慢慢消化。

上图夏翠娟《以书目框架建模的上图家谱知识库系统》介绍上图已用BIBFRAME构建了家谱本体，并对预期服务作了十分丰富的设想。可做的不少，能做到多少自然是另一个问题，夏MM自己提出了在数据加工、初始数据清洗、实例和规范数据提取、不同时代地理信息差别及纠错机制上的问题及困境。
雨师提问则是另一个问题：本体要做到何种深度，才能达到把金庸与徐志摩关联起来？答案是BIBFRAME是文献本体，还需要内容本体（要加上谱系本体）——深为受教。
对于夏MM提出的问题，张亮教授对数据清洗的看法我还是很同意的：清洗不可能准确，能做多少是多少。——大数据中，信息缺失或错误不可避免，未必影响结果，只是对采用的方法肯定有影响。

最后中科院生命科学信息中心陈涛、张永娟《关联数据在生化学会会员系统中的应用》，基于上海社科基金课题。利用PubMed数据，采用非关系型数据库、RDF数据进行关联，对中国生物化学与分子生物学会部分会员的个人发文信息、人际关系等进行揭示，还可对会员进行相关内容与会员的推荐。
系统做得相当好。比较遗憾的是如张亮教授提问所指出的，生化领域有PubMed的RDF数据可用，此法对其他领域未必适用。

注：下午迟到，很遗憾错过了上图王曼隽《上海年华的故事》。
P.S. 佩服sogg边听报告边给出提及内容链接的本事。

———联想的分割线———-
各报告介绍的众多实例、原型系统、设想，很有启发。期待PPT分享，再细细看过。
联想到本馆，有一个《中国年谱数据库》，一直以来用者了了。而年谱中可挖掘的数据，包括人物、时间、地点、事件、人物关系……完全可以比肩家谱。如果有意试水数字人文，倒也是个不错的数据源。
秦健教授在问答环节中指出：图书馆从提供数据资源，到提供数据产品。这大概就是图书馆要有一个数字人文中心的理由吧？

珀尔修斯数字图书馆（从人类可读信息到机器生成知识）

珀尔修斯数字图书馆项目（Perseus Digital Library Project）始于1985年，专注古希腊及古罗马的历史、文学与文化，是一个由领域专家主持的数字化项目。主编Gregory R. Crane是塔夫茨大学教授，一位数字人文的早期实践者。
项目于今年5月发布了珀尔修斯目录（The Perseus Catalog），目标是包括所有主要的古希腊和古罗马作者、每人至少收录一部联机版作品。发布当时包括3,679部作品，以及1.1万余全文链接（其中谷歌图书6,419部、互联网档案5,098部、HathiTrust为593部)。
目录细览页有全文时，按行分页显示，左栏为文字导航、上面为条形导航。点击全文中任意词，会跳转到该词的分析页，包括词典解释、出现统计等。如埃斯库罗斯的希腊文版《阿伽门农》。

该目录采用了图情与IT领域的不少通用技术，有不少可圈可点之处：
– 元数据格式：通用的采用LC的MODS和MADS，专业方面采用Homer Multitext Project开发的Canonical Text Services及CTS-URN protocols（应该是做某些强化）
– 软件界面：采用开源的Blacklight及Solr
– 输出格式：目前为HTML和ATOM，但对所有文本组、作品、版本及译本提供稳定、可链接的标准URI；后续版本将提供RDF三元组（语义网与关联数据世界又将多一个数据来源）
目前该项目已把MADS格式的作者规范数据贡献给了虚拟国际规范档（VIAF），未来也将在目录中提供到VIAF的链接。

项目网站的Research部分谈到其使命，最后说明其关注三个方面，并有详细解释：
– 人类可读信息
– 机器可操作知识
– 机器生成知识
从前面部分行文看，似乎写于2008-2009年，尽管没有出现语义网或关联数据字样，但后两个方面应该正是抓住了这一趋势。

参见：珀尔修斯数字图书馆目录项目的博客：The Perseus Catalog Blog
Announcing The Perseus Catalog, release 1.0 / by LISA M. CERRATO (2013-5-10)
Contribution to the Virtual International Authority File / by ANNA KROHN (2013-11-25)

从NISO工作组看当前技术热点

美国信息标准化委员会（NISO）目前有三个专题委员会即商务信息、内容与馆藏管理、发现到传递，每个委员会下面有若干工作组或委员会。”NISO工作组与委员会专辑”，是NISO Newsline季度附刊，提供各工作组、委员会的信息。2013年4月号，包括各工作组/委员会的网络工作空间(Workroom)链接——通常有丰富的资料，以及刚完成或正在制订的标准或推荐实践(Recommended Practices)的情况，或可由此了解当前技术热点。
Working Group Connection. April 2013

———-Business Information Topic Committee 商务信息专题委员会———-
* Demand Driven Acquisitions Working Group 需求驱动采购工作组——有关DDA或PDA的标准
* I2 (Institutional Identifiers) Working Group 机构标识符（I平方）工作组（4月刚发布推荐实践NISO RP-17-2013；工作组与ISNI（国际标准名称标识符）国际局的协作协议是，采用ISNI标准（ISO27729），而不单独发布自己的标识符）
* PIE-J (Presentation & Identification of E-Journals) Working Group 电子期刊展示与识别工作组（3月下旬发布推荐实践NISO RP-16-2013；提供电子期刊展示指导，尤其在题名展示、精确使用ISSN和引用实践方面。希望解决连续出版物馆员长期关注的某些问题，最终帮助用户在联机环境中工作，更方便地使用引文元素获取基于文章的资料）
* SERU (Shared E-Resource Understanding) Standing Committee 共享电子资源理解（SERU）指导委员会（ 2012年更新了最初创建于2008年的推荐实践NISO RP-7-2012，使之更灵活地用于电子期刊之外的联机产品）（SERU注册）
* SUSHI (Standardized Usage Statistics Harvesting Initiative) Standing Committee 标准化使用统计收割项目（SUSHI）指导委员会（3月上旬更新的SUSHI标准ANSI/NISO Z39.93-2013，及COUNTER-SUSHI实施文档NISO RP-14-2012）——电子资源使用统计收割
* Z39.7 Data Dictionary Standing Committee 数据字典指导委员会（ANSI/NISO Z39.7）（持续维护中的联机标准“信息服务与利用：图书馆与信息提供者的计量与统计-数据词典”，目的是帮助信息界指明并定义有用的可量化信息，测量图书馆的资源与表现，提供一批有关美国图书馆的有效且可比较的数据；最新更新版已经作为标准修订得到投票批准，只等ANSI批准后出版；相关ISO标准：ISO 2789“国际图书馆统计”和ISO 16439“评估图书馆影响的方法与过程”）——图书馆测评用标准

———-Content & Collection Management Topic Committee 内容与馆藏管理专题委员会———-
* Digital Bookmarking and Annotation Sharing Working Group 数字书签与标注共享工作组（致力于联机引用与标注共享的系统需求与句法规范。在数字环境中（尤其是电子书），需要跨越多种硬件平台、乃至跨越不同版本，定位参引点、共享引用及标注；尚处于起步阶段，界定与“开放标注协作”(Open Annotation Collaboration)间的关系）
* Journal Article Versions (JAV) Addendum Working Group 期刊文章版本（JAV）补遗工作组（2008年开发的期刊文章版本推荐术语集（NISO RP-8-2008）用于一篇文章生命周期中的各个版本(iteration)，可作为出版者、图书馆员、集成者、索引者及最终用户的可靠工具。JAV被采纳，但发现“校样”(proof)一词的范围不太准确、难以应用，因而建议发布补遗；小组还将考虑提出可结合JAV术语的元数据框架或词典。计划6个月提出推荐）
* Standardized Markup for Journal Articles (JATS: Journal Article Tag Suite) Working Group 期刊文章标准化标记（JATS：期刊文章标签套件）工作组（2012年下半年出版ANSI/NISO Z39.96-2012，延续NLM期刊存档与交换标签套件3.0版的；已成立与ANSI兼容的持续维护机制JATS指导委员会）（专用网站jats.niso.org；一套描述期刊文章的文本及图像内容的XML元素及属性集，也可用于某些非文章资料如来信、编者按及图书与产品评论）
* NISO/NFAIS Supplemental Journal Article Materials Project 期刊文章补充资料项目（与全国高级信息服务联盟(NFAIS)合作项目，推荐实践2013年上半年发布，说明围绕出版才包含、处理、显示及保存补充期刊文章材料相关问题；由A和B两部分组成，A为商务政策与实践，说明语义与政策问题；B为技术考虑与实施推荐，说明“如何”实施链接、封装和存档)

———-Discovery to Delivery Topic Committee 发现到传递专题委员会———-
* IOTA (Improving OpenURLs Through Analytics) Working Group 通过分析改进OpenURL（IOTA）工作组（评估与比较内容供应者OpenURL实施的质量；面向链接解析器供应者的推荐实践，将于下月经发现到传递专题委员会批准出版；正考虑升级为委员会）（网站：openurlquality.niso.org）
* NISO/UKSG KBART (Knowledge Bases And Related Tools) Phase 2 Working Group 知识库及相关工具（KBART）第2阶段工作组（支持第1阶段推荐实践NISO RP-9-2010；第2阶段推荐实践专门针对电子图书与会议录元数据，及通过联盟封装许可领域；另外探索开放获取资料领域，以及其元数据如何在知识库中出版与共享；第2阶段推荐实践的公示草案计划5月底公布）（KBART注册[在GoogleSite上，有墙]）
* NCIP (NISO Circulation Interchange Protocol) Standing Committee NISO流通交换协议（NCIP）指导委员会（2012年出版NCIP最新版2.02；4月会议讨论了通用图书馆通信框架（SIP及其他））
* Open Discovery Initiative Working Group 开放发现项目工作组（ODI致力于定义基于索引检索的新一代图书馆发现服务的标准和/或最佳实践，自2012年1月以来经常开会，近几个月四个子组开展工作：技术格式，图书馆索引权/层次的沟通；公平链接的定义；使用统计。计划5月末形成一个公示草案）
* ResourceSync Working Group 资源同步工作组（研究、开发、原型、测试与布署大规模Web资源同步，意在同步对象本身，不仅仅是其元数据，建立在OAI-PMH策略上。核心小组得到斯隆基金资助，也得到包括其他产业及研究伙伴（部分受JISC赞助）的助力；年初发布公示了beta版规范，希望5月底完成最终规范供投票批准；实施规范包括Python和Jave代码库，以及DSpace专用Java实施，正进行中，马上会提供）
* Specification for Open Access Metadata and Indicators Working Group 开放获取元数据与指示符规格工作组（刚起步。开发标准化书目元数据及可视指示符，除潜在描述期刊文章如何“开放”外，也描述其可获得性；首先聚焦描述与OA文章相关的阅读权的元数据元素）（出版商在开放获取(OA)、增强获取、公共获取或其他描述的旗帜下，含义各不相同。目前没有标准化的书目元数据，能提供特定文章是否免费可读、读者有何重用权的信息；在不同出版商、甚至同一出版商的不同期刊中，表明文章开放性的可视指示符或图标的设计与使用也不一致）
* Standard Interchange Protocol (SIP) Working Group 标准交换协议（SIP）工作组（SIP于1993年由3M引入，允许ILS应用与自助服务设备间无缝通信，已成为世界范围的事实标准。工作组将现SIP 3.0版规范纳入NISO标准，2012年10月启动，考虑4个重要领域，即：SIP3文档本身，包括修订/更正/增补、解决歧义等；维护机构；SIP3相关的隐私标准与安全性；与NCIP的关系）