数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)

今天参加上海市图书馆学会举办的2014年图书馆前沿技术论坛(IT4L)“数字人文与语义技术”。因为注册了这个会议,所以对数字人文就特别关注起来。其实今年2月OCLC发布研究报告《每个研究图书馆都需要一个数字人文中心么?》时就下载了的,但一直没有看。
Does Every Research Library Need a Digital Humanities Center? / Jennifer Schaffner , Ricky Erway. OCLC Research, February 2014. ISBN 978-1-55653-466-9. 18 p.

直觉“数字人文”就是用计算方式进行人文科学研究——比如以前就听说过的用文学作品语料库统计分析写作风格之类,只是那时可能没有用这个名词。今日午餐时和几位说起为什么没有数字科学,以为自然科学是通过实验做研究的、不似人文科学更依赖思辨,需要用计算的方式进行定量研究。待回到家中,才发现我的电脑收藏中不知何时已建有e-sci文件夹。查维基百科,自然科学和数字人文对应的,或许就是电子科学吧——当然采用的方法肯定不同,就是人文科学中也不会相同。
维基百科词条:Digital Humanities  vs e-Science 

———-“数字人文与语义技术”会议报告随记———-
刘炜《数字人文与关联数据》是入门课,从起源讲到“云中上图”。像上图这样的图书馆,还真有很多资源可做。
特别有感觉的是说数字人文不是学科,而是研究领域……(待看PPT)。

曾蕾《语义技术应用与知识再发现》举例说明如何用图情一直以来的强项,即基于图书馆资源的半结构数据,用语义技术做挖掘。报告中提到无结构的大数据、有结构的智慧数据(smart data)和半结构的XML文档(概念来自《数字人文杂志》:Big? Smart? Clean? Messy? Data in the Humanities / CHRISTOF SCHÖC)。
另外,第一次听说CCO(Cataloging Cultural Objects)图像标引三层次:一描述、二辨识(即主题)、三阐述(即意义)——有一种豁然开朗的感觉。

秦健《从欧美数字人文奖励项目说开去》对受资助项目做了归类。从数据类型上说,既包括非结构化的文本,也包括结构化的包括GIS数据集,以及数字和纸质地图、各种档案、音乐信息、语音文档、图像数据。

不同的人文科学肯定会有不同的数字人文方法,比如前述文学作品研究,与林海青《用GIS数据呈现历史事件》介绍的空间历史学,就完全不同。
除此报告外,其他报告所举例子也有不少地图应用。人文科学、社会科学研究中,与时间、地点相关的内容是相当重要的。
AHA 2014: Getting Started in Digital History Spatial History & hGIS Breakout Session

复旦大学张亮《数字人文中的IT推动力-以二十世纪中国人物志数字图书馆原型系统为例》,介绍了名为“数风流人物”的原型系统。数据来源是国家社科基金重大课题“中国人物传记数据库”,原库有5万余人,PDF全文检索。原型系统只取了十多个人(?),从时间、地理、人物关系等予以揭示。

上图杨佳《数字人文中的可视化技术》将可视化技术分为五类,举了不少例子,需慢慢消化。

上图夏翠娟《以书目框架建模的上图家谱知识库系统》介绍上图已用BIBFRAME构建了家谱本体,并对预期服务作了十分丰富的设想。可做的不少,能做到多少自然是另一个问题,夏MM自己提出了在数据加工、初始数据清洗、实例和规范数据提取、不同时代地理信息差别及纠错机制上的问题及困境。
雨师提问则是另一个问题:本体要做到何种深度,才能达到把金庸与徐志摩关联起来?答案是BIBFRAME是文献本体,还需要内容本体(要加上谱系本体)——深为受教。
对于夏MM提出的问题,张亮教授对数据清洗的看法我还是很同意的:清洗不可能准确,能做多少是多少。——大数据中,信息缺失或错误不可避免,未必影响结果,只是对采用的方法肯定有影响。

最后中科院生命科学信息中心陈涛、张永娟《关联数据在生化学会会员系统中的应用》,基于上海社科基金课题。利用PubMed数据,采用非关系型数据库、RDF数据进行关联,对中国生物化学与分子生物学会部分会员的个人发文信息、人际关系等进行揭示,还可对会员进行相关内容与会员的推荐。
系统做得相当好。比较遗憾的是如张亮教授提问所指出的,生化领域有PubMed的RDF数据可用,此法对其他领域未必适用。

注:下午迟到,很遗憾错过了上图王曼隽《上海年华的故事》。
P.S. 佩服sogg边听报告边给出提及内容链接的本事。

———联想的分割线———-
各报告介绍的众多实例、原型系统、设想,很有启发。期待PPT分享,再细细看过。
联想到本馆,有一个《中国年谱数据库》,一直以来用者了了。而年谱中可挖掘的数据,包括人物、时间、地点、事件、人物关系……完全可以比肩家谱。如果有意试水数字人文,倒也是个不错的数据源。
秦健教授在问答环节中指出:图书馆从提供数据资源,到提供数据产品。这大概就是图书馆要有一个数字人文中心的理由吧?

数字媒体A到Z:知多少?

数字营销培训所(DMTI,Digital Marketing Training Institute)在Slideshare提出了一个数字产业所用关键术语的简明词汇表,字母A-Z每个对应一个术语,有解释并配图,供快速更新有关数字内容(Digital Stuff)的知识。
没有看到版权说明,故仅录26个术语,解释从略,正好可以测试一下数字媒体素养。针对媒体、营销,词汇自离不开广告、收益等等,“元数据”亦在其中。

A to Z of Digital Media: Alphabetical Glossary / by DMTI on Jun 11, 2014
数字媒体A到Z:字顺词汇表

A-A/B Split Testing A/B对比测试
B-Behavioral Targeting 行为定向
C-Click Through Rate 广告点阅率
D-Deep Linking 深层链接
E-Encryption 加密
F-Flog=Fake blog 伪博客(营销目的)
G-GPRS
H-HTTP
I-IP Address IP地址
J-Jump Page Ad 跳转页广告
K-KEI Analysis 关键词效率指标(Keyword Effectiveness Indicator)分析
L-Link Bait 链接诱饵
M-Metadata 元数据
N-Netiquette 网络礼节
O-ORM=Online Reputation Management 在线声誉管理
P-Phishing 网络钓鱼/网络欺诈
Q-Quality Score 质量分(影响广告点击排名与费用的变量)
R-Referral 参引/推荐
S-Search Engine Algorithm 搜索引擎算法
T-Tactic 策略/战略
U-Unique Visitors 不同访客
V-Visit 访问
W-Web Server Web服务器
X-XML=eXtensible Markup Language 扩展标记语言
Y-Yield 收益(也称广告点击率)
Z-Zone file 域名文件

A to z digital glossary from DMTI(如看不到嵌入PPT,请自架梯)

美国大学生去图书馆做什么?

记得有统计数据表明,近年美国公共图书馆入馆人数一直在上升,但高校图书馆利用却不容乐观。因之现在改造空间环境与设施、增加24小时开放区域等举措大行其道,为的就是吸引读者到馆。在这点上,我国的情况似也颇为相似。
美国大学生去图书馆做什么?正好看到麻省理工学院图书馆博客上,一位勤工俭学的学生博主推荐大家去做的十件事,摘译如下。这十件事未必是美国大学生常做的,但可供了解美国高校图书馆现状。两国情况不同(最明显的是教学方式的差异),读者利用图书馆的习惯、图书馆员工及提供的服务自然也不尽相同,仅作参考用。

——— 发现图书馆:须知十件大事 ———
MIT Libraries News: Discovering the Libraries: Top 10 things to know / Posted June 5th, 2014 by Pritee Tembhekar
1、 图书馆僻静处学习更佳。图书馆有许多美丽之地可供学习,还有24小时研究室。
2、为教科书拜访图书馆。在教参区有教科书,可以借2小时。也有在线教科书,可以节省不少钱。
3、课程之外,在图书馆找乐子。图书馆有科技之外的资源,比如影像资料和旅游书。
4、同样,图书馆可助你追逐自己的兴趣。路易斯图书馆有音乐会和公开麦克风,有助于培养和保持你的音乐兴趣。
5、图书馆的学生工作职位是赚钱与学习的好方式。有很多参与方式。。从我访谈过的学生工,我感觉到在图书馆工作不只是一个工作。在我短暂的工作期间,关于写博我学到了很多,也感受了图书馆员工社区。
6、图书馆可以使做研究不那么痛苦!对于长期深入的研究,约定一位图书馆员大有帮助,主题专家可以在方向上给予正确的推动。
7、研究指南提供更快的方位和简明的信息。可在线访问,覆盖范围广泛的学科。
8、不太为人所知的图书馆资源是图书馆主办的系列特别活动。比如使用Mendeley软件管理PDF和参考文献,也有3D打印及商务资源。有些活动可能令人惊讶,比如有关历史上“折信”的活动。
9、在校期间,至少接触一位图书馆员。图书馆员不仅是令人难以置信的资源,而且对沉浸于科技的人来说,有令人耳目一新的独特兴趣。
10、图书馆的扫描仪很奇妙。简单制作高质量图像。当我问一些高年级朋友他们最喜欢什么,这是最让人吃惊的答案。

MIT图书馆与学生制作的相关视频:了解MIT图书馆:来自学生的秘诀
Get to know MIT’s Libraries: Tips from students (August 15, 2013)
5个秘诀:
1、问图书馆员
2、强大的浏览
3、学习间休息
4、最好的学习地
5、图书馆是资源