日志标签 ‘元数据’

图书在线发现新时代的关键是什么?元数据!

2012年5月11日

图书全文搜索时代,元数据还有用吗?在图书设计网站文章上看到如题的结论,还真另有一番感受。应该说,元数据原来就是图书发现的关键,现在仍然如此。
现在个人写书售卖,可以在亚马逊的Kindle平台、苹果商店、谷歌的Play……国内有豆瓣、盛大……,正是所谓的自出版。那篇文章标题是《自出版基础:元数据导论》,以浅显的文字告诉自行出版图书的作者:1、元数据是什么;2、元数据在检索中的作用;3、元数据与关键词合用。编译如下。

Self-Publishing Basics: Introduction to Metadata / by JOEL FRIEDLANDER (MAY 2, 2012)

元数据是关于某物的信息,图书元数据就是关于图书的信息,最常见的有题名、副题名、作者、出版日期等。另外还有类别、描述、读者对象,对图书的可发现性很关键。
元数据用于创建图书信息数据库,搜索图书时,就是查这些数据库中的元数据。如果元数据记录不完整或不准确,图书就不会显示在检索结果中。
关键词是帮助你的图书在搜索结果中排名靠前的秘密武器。发现最佳关键词是第一步,在元数据中使用它们是第二步。使用这些关键词的最佳位置包括如下字段:题名、副题名、类别、描述、目标用户。
五步完成最具优势的元数据
1、总结出最想要的关键词
2、创建元数据主文档
3、填写字段,特别注意题名、副题名、类别、描述、目标用户五个字段。“描述”字段尤为重要,有时被称为“注释”或“关于本书”之类,你可以在其中放入所有关键词,只要读得通顺。
4、每当要填写关于你的图书的表单时,就使用这个元数据主文档。
5、随时根据你的图书所面向的市场优化你的元数据。
更新元数据这样的无聊琐事,却是帮助你的图书在每个月出版的成千上万种图书中脱颖而出的利器。确保你的元数据完整、准确、富含信息,能使你的图书更有机会被目标读者注意到。

via mod librarian: Metadata Monday: Self-Publishing Metadata

JISC的PDA与元数据报告(元数据部分)

2012年2月12日

续:JISC的PDA与元数据报告(2012年2月12日)

全文搜索时代,元数据是不是还有作用?Ken Chad 咨询公司为JISC所作项目的最终报告“PDA及元数据在电子书的发现、选择和采访中的作用”提出了它的结论。读完报告后觉得,现在的元数据范围更广,与以往熟悉的元数据面貌已有很大不同,社会元数据的外延也在扩展。

Patron Driven Acquisitions (PDA) and the role of metadata in the discovery, selection and acquisition of ebooks: Final report for the JISC / Ken Chad Consulting Ltd., December 2011.
网页版:https://ebmotmet.wikispaces.com/Report;PDF下载

报告共22页,包括封面和参考文献(3页),正文内容中“7 元数据的作用”篇幅最大(8页)。

7.1 元数据的“能力” (p.11)
这里汇总了项目启动会上人们对元数据作用的看法。[由于并无最终用户参会,实际反映的是馆员、出版商和供应商的看法。(参前文)]
· 和全文索引相比,元数据能使搜索/发现更精确
· 元数据的关键能力是过滤,例如出版日期可作为至关重要的过滤器
· 元数据潜在的关键用法是帮助评估图书是关于什么的。但就此点而言,对“传统”元数据的价值有相当大的怀疑。题名重要,除了有时未能高度描述内容;学生很少了解LCSH。一致认为这类元数据的价值在后台,如链接到其他资源以寻找相关的替代品(以LCSH为例)。认为电子书平台可以使用这类数据,而不必显示给用户看。
· 对于用户确定图书内容、看是否与手头工作有关,文摘、章节标题及生产信息更有用。
· 需要唯一标识符,帮助区别有不同“权力”的不同电子书版本,比如有没有DRM更宽松的版本
· 某些情况下,图片很重要,因此关于电子书是否有图片的元数据会有帮助 [有点出乎意料,这至少提醒编目员,在什么情况下加上“插图”才是有意义、有必要的]
· 图书馆员尤其认为,用户不愿意花时间和精力增加诸如标签、评论推荐及评分之类的“社会元数据”,但用户却准备使用这类数据。自动形成数据可在某种程度上解决此悖论,如推荐可来自使用数据及点击。
· 关于用户的元数据可能是重要的,提供的服务因之了解该学生是谁、他们正学习的课程,可以传递更相关的结果。
· 使用与活动元数据可用于驱动其他服务如推荐/建议(如它构成了Elsevier的电子书采访循证模式)
· 元数据在对馆藏分组(scoping)中起关键作用,馆员基于元数据,在后台设置优先级。

7.2 质量问题
电子书元数据由出版商/集成商提供而非图书馆员编制。问题自然有,但PPT(见后)总结的馆员观点是,总体上记录质量是好的(p.27);

7.3 发现过程(Discovery)
所有参与项目及访谈者均认同元数据对发现的重要性。但电子书的发现路径不同,碰到的元数据也不同。路径按用户调查,依次为导师推荐31%、图书馆服务(包括目录、发现平台、数据库)31%、阅读清单18.7%、电子书网站11.6%等。(p.13)
报告认为导师推荐和阅读清单等超过图书馆目录,说明图书馆目录更适合作为他处发现(discovered)文献的寻找(finding)工具。其所举例子是焦点小组的某研究生在图书馆目录和Metalib里搜索,找到一本认为合适的书,发现图书馆没有,结果在Google图书里查到了免费版本。──本无收藏,自然无从发现。
另一个例子是学者(教师)更肯定阅读请单与导师推荐对发现的重要性,阅读清单还有对阅读重点说明──这个是毫无疑问的。报告由此引伸出,图书馆的发现与管理系统与阅读清单集成,会是一个明显的机会,并举Huddersfield大学的阅读清单系统、Talis的Aspire,以及其他发现系统。

7.4 选择和采购
对图书馆来说,采用PDA的主要问题是钱用得太快。因此需要使用元数据控制用户可发现的书目──换言之,通过某种过滤减少提供的书目。用于过滤的元数据包括主题、出版日期(去掉旧书)、语种、出版国,还有分类号。
这里提到了标识号问题,因为电子书与纸本书,或者不同来源电子书间如何判重,对书目过滤至关重要。而未来可能成为趋势的电子书内容碎片化(章节出版),让标识问题更需解决。BIC (book Industry Communications) Metadata Futures Group正致力于此。

7.5 评价
评价是选择过程中的关键活动──也就是说,找到后先判断是否有价值,再决定是不是选中它。
调查显示,对判断最有用的,按回答数量依次是:题名118、主题关键词112、列入阅读清单110、作者109、价格109、图书内容信息(护封耳页介绍、摘要)108;按得分高低依次是:题名、图书内容信息、列入阅读清单、作者、出版日期、主题关键词(p.17)。

社会元数据:标签、评论、评分、推荐。如Huddersfield大学的“读这本书的也读……”,ExLibris Primo发现服务对期刊文章的bX推荐服务……Kobo阅读器的Pulse功能……NISO在2011年10月法兰克福书市上举办了“电子书标注共享与社会阅读”研讨会。

8 结论和建议(2 对JISC的主要建议,内容近似)
8.2.2 社会元数据
有些复杂:社会媒体和元数据覆盖许多不同的事,包括评级、评论、标签标注等。有些可能由用户明确生成(如评论),而另一些可能自动生成(如基于以往利用的推荐服务)。同样重要的是它包括关于用户的元数据,或者是明确表达的(如其课程),或者是在其联机活动中隐含表达的(如点击)。

———-会议报告的元数据总结———-
最终报告页面有关于本项目的会议报告PPT,为最终报告中统计数据制作有彩色图示,也是项目内容概述:
ebooks: metadata & patron (demand) driven acquisitions / Ken Chad at the ‘ebooks unbound’ conference in Glasgow in October 2011

元数据部分的总结(p.30)
出版商和集成商的元数据质量总体是好的,并在改善中
图书馆主要用于管理──通过限制可检索的文献集来调节需求
学生使用评价性元数据吗──也许不,但……
目次及护封耳页介绍在发现与评价中都具宝贵作用
阅读清单注释极受到高度重视
社会元数据有潜力

———-项目网站之焦点小组———-
最后总结的对读者最有用的元数据:
电子期刊上的书评,对寻找相关电子书很好
不关注“主题” [但从报告的数据看,提到主题关键词的居第2位,只是打分在全部十项中列第6位]
出版日期相当重要(一致同意),印刷版可能是最新版,获取最新版很重要
索引对寻找信息相当重要──一旦定位图书,目次并不总是寻找特定信息的最佳途径,使用索引更快,快速到达正确的页面。[在全文搜索时代,书后索引仍很重要,可惜本国学术著作附索引的太少]

RDA与ISBD和ISSN的协调

2011年11月6日

IFLA制订一部国际统一编目条例的设想已有十年,ISBD变成了统一版,但那部设想中的编目条例仍没有影子。IFLA为此曾在全球不同区域召开了五次编目专家会议(IME-ICC),其成果ICP为RDA所用,但ISBD与RDA却诸多不一致,甚至比AACR2的差别更多。对于一心想成为国际编目条例的RDA来说,这种分裂对于非RDA编制国使用RDA无疑是不可回避的障碍;而对于IFLA来说,RDA成为事实上的国际编目条例的前景似乎日渐光明,自己的条例怕已没有指望。总之大家谁也无法忽视对方。

在此背景下,RDA与ISBD的协调终于开场了,2011年11月3日,JSC与ISBD评审组及ISSN网络代表会面,讨论三个标准间不一致条款的协调问题。
上午会议着重RDA与ISBD间的问题,下午会议处理影响新描述创建的RDA、ISBD和ISSN指导文本。
会议报道开首指出,“协调的目标是达到在实践上,根据各自标准创建记录的互操作,并支持跨标准元素映射。

如果说看到这句时还没有什么感觉的话,接下去看讨论问题的第一条就看得很泄气:
“信息源:ISBD与RDA条款的不同,意味着由于某些元素值因取自不同来源而不同。初步同意,如并列题名与其他题名信息这样的元素可以映射……。另一种方式是在应用文档中包括信息,指出某RDA选项不应当用于ISBD兼容记录。”
编目专家们未免在细枝末节上太固执已见,也算明白了前面那句话的含意。如果连图书馆界本身的书目数据,甚至像并列题名取自哪里这样的小问题都不能一致,还需要通过映射来实现互操作,难道不是太失败了?

会议讨论的都是些很具体的细节问题,余下的不录也罢。协商不可能一次完成,虽说本次协调也偶有取得一致的内容,但总体上看前景并不让人乐观。
因为是JSC的ALA代表方面的报道,所以可能更多表达的是RDA方面的观点。

Resource Description and Access: ALA Rep notes
Report of the Meeting of the Joint Steering Committee, 3 November 2011 / By JOHN ATTIG

[update 2011-11-7] Report of the Meeting of the Joint Steering Committee, 4 November 2011
第二天会议的两个问题:
1、ISBD0与RDA载体类型、内容类型的映射
2、ISBD与RDA元素的映射
两个映射最终将以RDF/SKOS格式置于开放元数据注册(Open Metadata Registry
另:LC的Barbara Tillett接替BL的Alan Danskin任JSC主席

NISO有意主导取代MARC新标准制订?

2011年11月6日

NISO Newsline, November 2011

执行主任Todd Carpenter发刊词专谈MARC,似有意主导取代MARC标准的制订:
“LC的MARC标准办公室长于指导,他们有很好的意图,其目标是代表并服务于使用这一重要格式的所有(机构)。但是,在领导与控制间有一线之差。希望LC愿意领导,同时允许更广泛领域的控制,无论(开发)过程会多麻烦。”

Karen Coyle在RDA-L邮件组中引用了如上内容,并评论说,“NISO在性质上比LC包括更广泛的客户,更重要的,是一个把服务图书馆、创建图书馆系统的厂商聚集在一起的地方。”
她还认为,“没有标准进程是完美的,也没有标准特别迅速。广泛的参与性及最广泛的数据使用案例将确保成果服务最大数量的潜在用户”。似乎是觉得LC给新标准设定两年时间太短了。

Via [RDA-L] NISO offers itself as the standards body for future format (2011年11月3日) / Karen Coyle
参见:国会图书馆书目框架计划总体规划 (2011年11月2日)

未来书目格式的目标与测度

2011年11月2日

粗粗看完了LC的“书目框架计划总体规划”,感觉就是个“总体规划”,因为没看到多少具体的东西,除了方法部分起始提到的“新书目框架计划将关注Web环境、关联数据原则与机制,以《资源描述框架》(RDF)作为基本数据模型”,以及“两年”这个大概可以看到“原型”的时间。
一直致力于图书馆元数据改进的Karen Coyle写了博文,从费用、协作与创新三个方面,为该计划撰写她所设想的目标与测度。大致翻译如下:

未来格式:目标与测度
Coyle’s InFormation: Future Format: Goals and Measures Karen Coyle(梯子自备)

LC未来书目格式报告(亦称取代MARC)出来了。报告短而少细节,除了选择RDF为潜在数据格式。报告的重要部分列举了需求,在性质上也太大体而不够广泛。

在进一步前行前需要做的是开始说明我们的特定目标,以及确定是否满足这些目标的准则。某些目标会在发展新环境过程中发现,因此这会是个增长的清单。我认为,在条件允许的范围内,每个目标都有与之相关的测度很重要。如果我们不能够知道这些改变会达成什么,做出改变就没有意义。如下是这样一些我认作目标的例子,可能并非该计划的实际目标,只是我虚构的例证。

费用
- 目标:编目过程中创建书目数据应当不那么昂贵
测度:使用时间研究,比较用MARC编目和用新格式编目
- 目标:格式维护应当不那么昂贵
测度:比较一个典型的MARBI提案所需所有时间与新格式所需时间
- 目标:厂商做所需改变与增加应当不那么昂贵
测度:比较在MARC环境与新环境中所改变所需编程时数

协作
- 目标:与更广泛社区协作创建数据
测度:计算[改变]前后与非图书馆界共享数据的数量
- 目标:小图书馆更大参与共享数据
测度:计算改变前后共享的图书馆数量
- 目标:让图书馆数据供其他信息界使用
测度:计算[改变]前后非图书馆网络环境中图书馆数据的使用

创新
- 目标:图书馆技术人员应当能够比现在更快且方便地为其图书馆实施“应用”
测度:或者以创建的应用数,或者实施的时间测度(这个可能难以比较)
- 目标:图书馆系统厂商可以比过去更快且便宜地开发新服务
测度:一年中变化的数量,或者致力于变化的员工数。另一测度可以是要图书馆付什么钱,在某一时间段中多少图书馆做了改变

从本清单可知,大部分测度要求系统实施,而不只是开发一个新格式。但新格式本身不能是一个终点,目标必须是使用该格式的系统与服务的实施。第一个开发出来的MARC格式在LC工作流程中做过测试,看是否满足该馆的需求。这要求创建一个系统(称为“MARC试验计划”),测试期为一年。对RDA实施的测试或可与之相比,可作为一个样板。某些测度在完全实施前无法进行,比较包容更小的图书馆。需要持续的测试。

那么现在,什么是“你”最关注的目标?
—–
参见:
MARC的日子屈指可数?(2011年11月1日)
国会图书馆书目框架计划总体规划 (2011年11月2日)