四种来源的元数据

    Lorcan总结了图书馆中使用的四种描述性元数据(Four sources of metadata about things),并且分析了各自状况。他给暂时起的名:professional, contributed, programmatically promoted, and intentional。这样的分类非常清晰,可以弄清很多问题。简单摘译:

专业的 professional
应用编目规则、控制词表、规范档、地名词典等形成的。
[也就是一般编目员、标引员完成的,现存问题已经谈得很多了,此处略去]

贡献的 contributed
近年出现的邀请、集成、挖掘用户贡献的评价、推荐等数据形成的。
他们反映了人们之间的关系。图书馆开始实验这些方法,但单个图书馆恐怕难用得好。

程序获取的 programmatically promoted
由程序通过挖掘从数字资源本身获取的。
方法包括聚类 clustering、实体标识 entity identification、自动分类automatic classification等。

intentional
收集用户使用数据而来的。
Google的集成链接的Pagerank,亚马逊集成购买选择的推荐,OCLC的根据收藏馆数量的排序。

这四种元数据方法不仅不互相排斥,而且相互可以配合得很好。如:
规范档可支持在大量文本资源中识别由程序获取的人员、地名;
社交网络应用中反映出来的共享兴趣经抽象后,可形成intentional数据,产生推荐或“相关作品”服务;
标签与主题词表之间将发展形成关联与交互模式。

《四种来源的元数据》上有3条评论

  1. 学习!
    一个在美国的朋友,就是研究programmatically promoted的,他说,只要做这样的算法,才容易发论文。
    偶觉得contributed应该会大放异彩,群众的智慧是无穷的嘛。

  2. 我也比较看好programmatically promoted;其次是intentional;contributed是不错,但不是那么容易得到,相对来说不具有普遍性。

评论已关闭。