进化中的图书馆AI策略(ARL问卷调查及AI素养培训)

美国研究图书馆协会(ARL)在2023年4月和12月,针对火热的生成式人工智能(Generative AI)对成员馆代表进行了两次问卷调查。调查分析报告日前发布:

进化中的图书馆AI策略:来自研究图书馆协会成员代表九个月来的两次调查见解

Lo, Leo S., and Cynthia Hudson Vitale. Evolving AI Strategies in Libraries: Insights from Two Polls of ARL Member Representatives over Nine Months. Washington, DC: Association of Research Libraries, March 2024. https://doi.org/10.29242/report.aipolls2023.

在127个ARL成员馆中,4月的第1次问卷仅收到20个回复(16%),时隔9个月的第2次问卷收到74个回复(58%),显示对AI关注的显著增长。问卷主要关注对AI对图书馆服务的潜在影响的看法,当前AI在其图书馆内的探索和实施程度,以及认为最相关的潜在AI应用,以期全面分析成员馆对图书馆环境中AI集成的态度、策略和预期。两次问卷在基本内容稳定的情况下,第2次问卷对“生成式AI在未来12个月内在研究图书馆中最相关的潜在应用”部分进行了增强,显示出图书馆应用视野的扩大,以及更积极地参与用户指导的趋势,2次问卷此题选项变化如下:

  • a.自动化编目和元数据生成
  • b.用于用户支持的聊天机器人
  • c.个性化内容推荐
  • d.研究数据分析和可视化
  • e.支持AI用户社区【12月新增】
  • f.关于进行AI辅助文献综述的指导和咨询【12月增加“指导和咨询”】
  • g.关于评估生成AI回复准确性的指导【12月新增】
  • h.提示工程指导(Instruction on prompt engineering)【12月新增】
  • i.数字藏品搜索、发现和分析【12月新增】
  • j.其他(请具体说明)

以下摘译部分“调查结果”:

  • 如何描述你对未来12个月图书馆服务中生成式AI技术潜力的看法?(两次调查的比较突显了ARL成员代表对AI的态度发生了重大变化,在九个月的时间里,他们从普遍的谨慎乐观转变为对AI对图书馆的变革力量更有信心)【与社会普遍看法一致】
  • 您的图书馆目前在多大程度上探索或实施生成式AI能解决方案?(对两次调查的比较分析突显了学术图书馆内AI参与格局的重大转变。越来越多的图书馆从探索转向积极实施)
  • 请选择未来12个月内你认为最相关的生成AI在研究图书馆的潜在应用(第2次得到34-35次选择的应用:指导评估AI回复,自动编目和元数据生成,用于用户支持的聊天机器人,支持AI用户社区)
  • 图书馆如何加强其信息素养计划,帮助学生和研究人员更好地理解和评估AI生成的信息?(两次调查演变反映了一种转变,即从简单地想与其他单位合作,到在图书馆工作人员中深入思考AI素养的必要性)
  • 如何描述图书馆员工对生成AI的态度?(各种各样)
  • 从长远来看,预计生成式AI会以何种方式影响图书馆运营和服务?(预计将对图书馆运营和服务产生重大的长期影响:将简化工作流程,提高生产力,并重新定义图书馆员工队伍。然而,他们也认识到需要在乐观与现实之间取得平衡,承认潜在的挑战,如供应商在没有图书馆参与的情况下开发的AI工具。伦理考虑,包括负责任的AI开发和应用,仍然是图书馆在驾驭这一快速发展的技术时关注的重点)
  • 请描述你正在进行的关于生成AI的校园或组织对话的类型,以及图书馆在这些讨论中扮演的角色,例如,保持学术诚信、出版和作者身份、研究诚信等(图书馆在与生成式AI相关的全组织对话和倡议中的作用的演变。两次调查间,许多图书馆从主要专注于创建指南和研讨会转变为积极参与制定机构AI战略。合作的增加和跨学科的方法表明,图书馆在高等教育中驾驭生成式AI的复杂景观方面越来越重要。随着各机构努力应对AI对学术诚信、研究和出版的影响,图书馆处于提供宝贵见解和指导的有利地位。然而,并非所有成员代表都报告参与了其组织举措或对话。这表明,随着图书馆在生成式AI时代继续定义其角色,仍有增长和增加参与的空间)
  • 在过去的九个月里,你对生成AI的看法发生了怎样的变化?(起初许多代表对AI持谨慎乐观的态度,但随着他们获得更多知识,并见证了图书馆部门的真实应用,他们的观点朝着更积极、更明智的方向发展。这种观点的变化可以归因于几个因素,包括对AI工具的接触增加,对该技术的潜在好处和局限性有了更好的理解,以及人们越来越认识到AI将继续存在。随着成员代表更多地参与AI,他们对其可能性更有信心,并开始看到其改变图书馆服务和运营的潜力。然而,对负责任地使用AI以及使生成式AI工具对研究和实际应用有用所需的投资的持续担忧,缓和了这种积极性的增加。成员代表承认,虽然AI有潜力提供巨大的好处,但如果不负责任或不道德地实施,也会带来风险。他们强调图书馆需要批判性地参与AI,并确保其使用符合伦理原则和负责任的做法)

报告最后部分“可采取行动的建议”之一是“开发AI素养计划”——为图书馆员工和用户举办结构化的AI素养讲习班,侧重以下7项能力[引用本报告作者文献/见下],使员工和用户能够自信、负责任地使用AI技术:

  • 1.AI基础:介绍与图书馆服务相关的AI基本概念,包括机器学习和自然语言处理。
  • 2.AI的批判性评估:培训参与者批判性地评估AI生成的信息的准确性和可靠性。
  • 3.AI的伦理使用:讨论算法偏见和数据隐私等道德问题,强调图书馆中负责任的AI使用。
  • 4.AI数据管理:教授AI在数据管理和管理中的作用,强调数据质量的重要性。
  • 5.实际的AI应用:展示AI在图书馆运营中的应用,如自动编目和用户支持。
  • 6.导航AI增强的资源:为用户提供高效使用AI增强数据库和数字图书馆进行研究的技能。
  • 7.持续的AI学习:促进关于AI进步及其对图书馆的影响的持续教育。

[参考文献:评估大学图书馆的AI素养:以美国员工为重点的调查研究] Leo S.Lo,Evaluating AI Literacy in Academic Libraries: A Survey Study with a Focus on US Employees,” The University of New Mexico Digital Repository, 2024, https://digitalrepository.unm.edu/ulls_fsp/203.

2018国际关联数据实施者调查分析

OCLC研究部曾在2014年和2015年进行过2次国际关联数据实施者调查。为了解近三年的变化,以及格式化元数据为关联数据或者后续使用关联数据的新项目或服务,OCLC研究部于2018.4.17-5.25再次进行同样的调查,Karen Smith-Yoshimura综合三次调查结果,写了分析文章,发表在网刊code4lib Journal:
Karen Smith-Yoshimura. Analysis of 2018 International Linked Data Survey for Implementers. code4lib Journal, Issue 42, 2018-11-08
调查包括:概述,发布什么关联数据及为什么,消费什么关联数据及为什么,忠告,结论。内容太丰富,很难概括总结,只能摘录部分如下。

【一】概述
【机构与项目数量】共有23个国家的143家机构参加了一次或多次调查(见文后附录)。参加2018年调查的81家机构中,46家参加过先前一次或两次调查。但参加过先前调查者介绍的也不一定是同样的关联数据项目或服务【换言之,原项目已不再继续】。在2018年介绍的104个关联数据项目或服务中,仅42个以前介绍过。即使介绍同样的项目或服务,有时回复也与以前不同【应该是项目本身有变化】。
【国别】2018年调查中美国回复34家机构占42%,接下来是西班牙12家,英国8家,荷兰4家,加拿大、德国、挪威各3家,意大利2家,1家的是澳大利亚、奥地利、中国【终于有了,竟然不是上海图书馆,而是敝校】、捷克、芬兰、法国、匈牙利、日本、卢森堡、葡萄牙、南非和瑞士。
【机构类型】研究图书馆23家28%,国家图书馆13家16%,研究机构11家14%,图书馆网络和政策各8家10%,服务供应商6家7%,公共图书馆5家6%,博物馆4家5%,其他2家(1家音乐厅、1家出版社)。此分布基本上与前次调查相同,只有一个例外——第一次收到来自服务供应商的回复,是向其客户提供关联数据服务。
【项目运行时间】2018年的104个关联数据项目或服务中,18个已运行2年以上4年以下,31个已运行4年或以上。3个还不可访问,3个“私有”仅供本机构使用。
【协作】大部分关联数据项目或服务完全在内部完成(61个),部分为多机构实施(23个),20个由外部厂商或服务供应商提供。不过,即使回复说工作所由内部完成的,也报告与外部小组或机构协作。仅25个实施为“仅本机构”。
【员工】大部分机构把关联数据加到了当前员工的职责(86家),仅15家没有。与2015年调查相比最大不同是,有员工专门从事关联数据的数量增加了50%。
【资助】22个关联数据项目或服务收到基金资助,73个由图书馆/档案馆和/或母机构资助。6个关联数据项目接受来自伙伴机构的支持,5个私人资助,1个接受团体资助。8个从未申请项目,但计划申请。
【成功评估】2018年比2015年有更多回复者报告其关联数据项目或服务成功或“大多”成功。已经运作至少4年的提出以下成功指标:[1]使用;[2]数据重用;[3]互操作;[4]用户满意;[5]影响;[6]专业发展
【发布与消费】在2018年和2015年的调查中,大多数项目/服务既消费也发布关联数据。2018年的调查中,只发布关联数据的项目更少。【更重视消费?】

【二】发布什么关联数据、为什么?
【LD类型】鉴于回复者中图书馆的代表性相对较大,描述性元数据(51)和书目数据(47)是最常见的数据类型,规范数据紧随其后(45)。其他数据类型:关于人的数据(33)、本体/词表(33)、数字馆藏(27)、地理数据(23)、数据集(19)、关于博物馆实物的数据(12)、组织数据(12)、编码档案描述EAD(3)和统计数据(3)等。
【三元组数量】超过10亿三元组的关联数据集数量从3个增加到11个,其中3个超过50亿三元组:Biblioteca de Galicia的数字图书馆(63亿三元组)、Europeana (略高于50亿)和OCLC的WorldCat关联数据(超过100亿三元组)。 但是大多数关联数据集都很小。在报告其数据集大小的63个回复中,33个不到1000万个三元组,9个在10到1亿个三元组之间,10个在1亿到10亿个三元组之间。
【发布动机】比较2018年和2015年的调查结果,发布关联数据的主要动机似乎没有变化。2018年依次为:在Web上迥更多受众曝光数据(74%);证明数据集作为关联数据可做什么(65%);听说关联数据,想试试曝光某些本地数据为关联数据(45%);探索发布数据为关联数据,是否会改进本地资源的搜索引擎优化(SEO)(24%);管理层要求我们曝光我们的数据为关联数据(11%)。
【使用情况】超过半数回复要么不知道、未保留或无法访问使用统计数据,要么尚未使用(103家回复中61家) 。通过每天平均请求数衡量的八个使用最多的关联数据集(每天超过10万个请求):
[1]美国钱币学会的nomisma(钱币概念叙词表)
[2]法国国家图书馆的data.bnf.fr
[3] Europeana,汇集欧洲各地博物馆、档案馆和视听档案馆的数字对象元数据
[4]美国国会图书馆的关联数据服务
[5]日本国立国会图书馆的NDL搜索,提供日本图书馆、档案馆、博物馆和学术研究机构的书目数据
[6]北莱茵 – 威斯特伐利亚图书馆服务中心的关联开放数据服务,提供对书目资源、图书馆和相关组织以及规范数据的访问
[7]OCLC的虚拟国际规范档(VIAF),来自不同国家和地区的40多个规范档的汇总
[8]OCLC的WorldCat关联数据,包含超过4亿条书目记录的目录
另外3个关联数据集每天收到5-10万请求:
[9]不列颠图书馆的《英国国家书目》
[10]芬兰国家图书馆的芬兰叙词表和本体服务
[11]OCLC的FAST(标题表的分面应用),一种来自《美国国会图书馆标题表》的分面主题标题表
【RDF词表与本体】大多数项目使用多个。使用SKOS的百分比从2015年的60%下降到2018年的44%【第2位】,这与使用Schema.org的增加相反(2015年为30%,2018年为46%【第1位】)。类似减少出现在使用DC基本元素集【第3位】、DCMI元数据术语【第5位】和foaf【第4位】,使用RDF Schema的略微减少【并列第5位】。BIBFRAME词表使用率从2015年的15%增加到2018年的27%【第7位】。
【许可】32个项目/服务未宣布任何明确的许可,19个采用CC0 1.0 Universal,这是2018年调查受访者使用的最常见的许可。
【访问及格式】在发布关联数据的70个项目或服务中,19个目前不可在其机构之外访问其数据。
那些提供多种访问格式的,网页是最常见的,随后是文件转储【批下载】、内容协商、SPARQL端点、SPARQL编辑器、嵌入式标记和应用程序。
最常用的关联数据序列化是RDF/XML,其他较少使用的序列化,依引用频率:Turtle,JSON-LD,N-Triples,RDF/JSON,RDFa,N3 RDF三元组和N-Quads。
【技术】发布关联数据所使用的技术是多种多样的,并且大多数使用多种技术。最多有20多家提到:SPARQL、Java。……
【障碍】2018年和2015年调查中出版关联数据的障碍或挑战排名大致相同。最大障碍是员工陡峭的学习曲线【要学的东西太多】,其次是遗留数据中的不一致【数据清洗吧】,第三是选择适当的本体。

【三】消费什么关联数据、为什么?
【关联数据源】2018年前10(超过12个项目或服务使用):id.loc.gov;VIAF;DBPedia;GeoNames;Wikidata;WorldCat.org;Getty Vocabularies;FAST;ISNI;我们自己转换为关联数据的资源。
与2015年相比的最大变化:维基数据使用激增(排名第5,2015年排名第15),与WorldCat.org使用情况相当。ISNI也升至“前10名”,而“我们自己转换为关联数据的资源”从2015年的第5下降到2018年的第10。
【动机】消费关联数据的主要原因在2018年和2015年的调查中排名相同:[1]为本地用户提供更丰富的体验;[2]通过消费其他来源的关联数据强化本地数据。百分比及排名下降较多的有:实现更有效的内部元数据管理(从2015年的47%【第3】到2018年的30%【第4】)。
为本地用户提供更丰富的体验
【障碍】主要障碍是对来源数据和关联数据源进行匹配、消歧和对齐。最大的区别在于2018年指向不稳定端点和服务可靠性的回复数量的增加。

【四】忠告【每一句都是经验之谈,须自己看原文体会】

【五】结论
对2018年调查的回应可能被视为仍在发展的关联数据环境的另一部分快照。这种观点受限于哪些机构对调查作出回复以及谁作的回复【这个对结果的影响确实很大】,因为早期调查中描述的关联数据实施的回复可能因个体观点的不同而不同。
【与2015年调查的显著差异】
[1]只发布关联数据的项目或服务更少,对照那些发布和消费链接数据的项目或服务增加。
[2]更多专门从事关联数据的员工。
[3]用schema.org和BIBFRAME发布关联数据的增加,对照用SKOS的减少。
[4]维基数据Wiki作为关联数据源的兴起。

参见:
2018年国际关联数据实施者调查(2018-5-18)
关联数据应用现状:2015国际关联数据实施者调查的分析(2016-9-4)
OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)

OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议

OCLC研究部2014年7月7日到8月15日在网上做了一个关联数据项目与服务调查,针对图书馆档案馆发布关联数据,以及在自己的数据或应用中摄入关联数据资源,目的在于了解谁、为什么使用关联数据。
调查信息通过其博客hangingtogether.org发布,8月底Karen Smith-Yoshimura在该博客上分6次发布了调查分析结果,并提供原始调查结果汇总表供下载。
调查对象要求是已经或正在实施关联数据项目的,但在收到的122个参与者,有26个目前并未实施,只是有计划或兴趣。其余96个实施了172个关联数据项目/服务,其中76个项目被描述:25个消费关联数据,4个发布关联数据,47个既消费也发布。对项目进行描述的47个机构有很好的国际代表,过半在美国,其余来自14个国家:澳大利亚、加拿大、捷克、法国、德国、爱尔兰、意大利、荷兰、挪威、新加坡、韩国、西班牙、瑞士、英国。调查得到的数据及分析,对了解当前国际上图博档领域关联数据应用现状很有参考价值。
以下概述7篇博文内容:

So who is using linked data? And for what? / July 7, 2014
发布调查邀请,说明调查目的等(调查链接已失效)

Linked Data Survey results 1 – Who’s doing it (Updated) / August 28, 2014
关联数据调查结果1:谁在做
调查结果概述(见前),参与调查机构、日均请求、是否成功达到期望结果、机构中参与的部门等

Linked Data Survey results 2: Examples in production (Updated) / August 29, 2014
关联数据调查结果2:成果举例
关联数据项目简介

Linked Data Survey results 3–Why and what institutions are consuming (Updated) / September 1, 2014
关联数据调查结果3:为什么及什么机构在消费
消费关联数据的理由、方法、关联数据源、面临的障碍或挑战。

用得最多的关联数据源
* id.loc.gov – 30
* DBpedia – 25
* GeoNames – 25
* VIAF – 24

Linked Data Survey results 4–Why and what institutions are publishing (Updated) / September 3, 2014
关联数据调查结果4:为什么及什么机构在发布
发布关联数据的理由、发布的数据类型、许可、面临的障碍或挑战。

用得最多的RDF词表与本体
* SKOS – 38
* FOAF – 30
* Dublin core terms – 29
* Dublin core – 27
* Schema.org – 22
(关注:RDA–10;BIBFRAME–6)

Linked Data Survey results 5 – Technical details / September 5, 2014
关联数据调查结果5:技术细节
访问方法、序列化、消费技术、发布技术。

访问方法前3位
* Web pages 网页 – 25
* SPARQL Endpoint – 24
* file dump 文件下载 – 23

序列化前3位
* RDF/XML – 47
* Turtle – 30
* RDF/JSON – 26

Linked Data Survey results 6 – Advice from the implementers / September 8, 2014
关联数据调查结果6:来自实施者的忠告
建议、资源推荐、调查结果源数据下载

忠告:困难的是什么?[1]组织支持与人员配置;[2]词表;[3]技术;[4]法律问题……

[update 2014-10-29] 参见荔园图志:OCLC发布关联数据调查报告 (2014-10-21)