数字人文 vs 电子科学（“数字人文与语义技术”会议报告随记）

今天参加上海市图书馆学会举办的2014年图书馆前沿技术论坛（IT4L）“数字人文与语义技术”。因为注册了这个会议，所以对数字人文就特别关注起来。其实今年2月OCLC发布研究报告《每个研究图书馆都需要一个数字人文中心么？》时就下载了的，但一直没有看。
Does Every Research Library Need a Digital Humanities Center? / Jennifer Schaffner , Ricky Erway. OCLC Research, February 2014. ISBN 978-1-55653-466-9. 18 p.

直觉“数字人文”就是用计算方式进行人文科学研究——比如以前就听说过的用文学作品语料库统计分析写作风格之类，只是那时可能没有用这个名词。今日午餐时和几位说起为什么没有数字科学，以为自然科学是通过实验做研究的、不似人文科学更依赖思辨，需要用计算的方式进行定量研究。待回到家中，才发现我的电脑收藏中不知何时已建有e-sci文件夹。查维基百科，自然科学和数字人文对应的，或许就是电子科学吧——当然采用的方法肯定不同，就是人文科学中也不会相同。
维基百科词条：Digital Humanities vs e-Science

———-“数字人文与语义技术”会议报告随记———-
刘炜《数字人文与关联数据》是入门课，从起源讲到“云中上图”。像上图这样的图书馆，还真有很多资源可做。
特别有感觉的是说数字人文不是学科，而是研究领域……（待看PPT）。

曾蕾《语义技术应用与知识再发现》举例说明如何用图情一直以来的强项，即基于图书馆资源的半结构数据，用语义技术做挖掘。报告中提到无结构的大数据、有结构的智慧数据（smart data）和半结构的XML文档（概念来自《数字人文杂志》：Big? Smart? Clean? Messy? Data in the Humanities / CHRISTOF SCHÖC）。
另外，第一次听说CCO（Cataloging Cultural Objects）图像标引三层次：一描述、二辨识（即主题）、三阐述（即意义）——有一种豁然开朗的感觉。

秦健《从欧美数字人文奖励项目说开去》对受资助项目做了归类。从数据类型上说，既包括非结构化的文本，也包括结构化的包括GIS数据集，以及数字和纸质地图、各种档案、音乐信息、语音文档、图像数据。

不同的人文科学肯定会有不同的数字人文方法，比如前述文学作品研究，与林海青《用GIS数据呈现历史事件》介绍的空间历史学，就完全不同。
除此报告外，其他报告所举例子也有不少地图应用。人文科学、社会科学研究中，与时间、地点相关的内容是相当重要的。
AHA 2014: Getting Started in Digital History Spatial History & hGIS Breakout Session

复旦大学张亮《数字人文中的IT推动力-以二十世纪中国人物志数字图书馆原型系统为例》，介绍了名为“数风流人物”的原型系统。数据来源是国家社科基金重大课题“中国人物传记数据库”，原库有5万余人，PDF全文检索。原型系统只取了十多个人（？），从时间、地理、人物关系等予以揭示。

上图杨佳《数字人文中的可视化技术》将可视化技术分为五类，举了不少例子，需慢慢消化。

上图夏翠娟《以书目框架建模的上图家谱知识库系统》介绍上图已用BIBFRAME构建了家谱本体，并对预期服务作了十分丰富的设想。可做的不少，能做到多少自然是另一个问题，夏MM自己提出了在数据加工、初始数据清洗、实例和规范数据提取、不同时代地理信息差别及纠错机制上的问题及困境。
雨师提问则是另一个问题：本体要做到何种深度，才能达到把金庸与徐志摩关联起来？答案是BIBFRAME是文献本体，还需要内容本体（要加上谱系本体）——深为受教。
对于夏MM提出的问题，张亮教授对数据清洗的看法我还是很同意的：清洗不可能准确，能做多少是多少。——大数据中，信息缺失或错误不可避免，未必影响结果，只是对采用的方法肯定有影响。

最后中科院生命科学信息中心陈涛、张永娟《关联数据在生化学会会员系统中的应用》，基于上海社科基金课题。利用PubMed数据，采用非关系型数据库、RDF数据进行关联，对中国生物化学与分子生物学会部分会员的个人发文信息、人际关系等进行揭示，还可对会员进行相关内容与会员的推荐。
系统做得相当好。比较遗憾的是如张亮教授提问所指出的，生化领域有PubMed的RDF数据可用，此法对其他领域未必适用。

注：下午迟到，很遗憾错过了上图王曼隽《上海年华的故事》。
P.S. 佩服sogg边听报告边给出提及内容链接的本事。

———联想的分割线———-
各报告介绍的众多实例、原型系统、设想，很有启发。期待PPT分享，再细细看过。
联想到本馆，有一个《中国年谱数据库》，一直以来用者了了。而年谱中可挖掘的数据，包括人物、时间、地点、事件、人物关系……完全可以比肩家谱。如果有意试水数字人文，倒也是个不错的数据源。
秦健教授在问答环节中指出：图书馆从提供数据资源，到提供数据产品。这大概就是图书馆要有一个数字人文中心的理由吧？

《数字人文 vs 电子科学（“数字人文与语义技术”会议报告随记）》上有4条评论

CJ说道：

2014年7月12日 04:27

你好！对这次会议很感兴趣，想请教下，你提到张亮教授在做的人物传记数据库，是不是哈佛那个CBDB数据库？
1. catwizard说道：
  
  2014年7月12日 21:08
  
  不是。张教授是复旦的，那个数据库来源数据有5万人，但目前还只是原型系统，没有收录多少人，并且似乎也没有对外开放的查询入口。
  查了下，哈佛的CBDB有38万人，由费正清中国研究中心、台湾中研院历史语言研究所和北大中国古代史研究中心共同开发。——真是个好东西呀。谢谢提供信息！
Pingback：哈佛大学《中国历代人物传记资料库》（CBDB） » 编目精灵III
Pingback：基于BIBFRAME的上海图书馆家谱本体发布 » 编目精灵III

评论已关闭。