奥地利的语义Web公司(Semantic Web Compan)正在开发一个自动生成英语和德语叙词表的工具SKOSsy。SKOSsy可以针对某个领域,从维基百科的关联数据形式DBPedia中抽取数据,生成基于SKOS的叙词表“种子”,随后再使用专门的叙词表编辑工具清理,增加概念、关系及链接等。也就是说不必一切从零开始了。
据该公司博客介绍,利用SKOSsy制作某一领域叙词表雏形,然后使用PoolParty系列工具完成词表,进而自动标引、形成检索系统的过程如下:
1、在维基百科/DBPedia中找到最合适的类别
2、由SKOSsy遍历DBPedia收集所有资源、等级与非等级关系、交替标签、定义及其他属性,并组织成一个有效的SKOS叙词表。整个过程持续几分钟。
3、把初成的叙词表装入PoolParty Thesaurus Manager (PPT),人工完善。
4、使用PoolParty Extractor (PPX)生成定制的文本抽取器。
5、用PPX从文档中自动抽取命名的实体并做索引。
6、数秒钟后语义搜索引擎就可以用了。 PoolParty Semantic Search (PPS)可以提供类别自动完成、分面检索、内容推荐(类似检索)及智能检索提示。
这广告实在很生动。虽然博文中提供了一个自动生成的示例词表的链接,但需要登录才能看,效果不明。想要实际体验的话,可以向他们发送自己感兴趣的领域,他们会向你发送测试邀请,或者为你准备一段演示。
Via mod librarian: Metadata Monday: Automated Controlled Vocabularies?(梯子自备)
SKOSsy Dynamically Generates Thesauri: Automated Controlled Vocabularies A Real Possibility?
by NARESH SARWAN on DECEMBER 2, 2011
Introducing SKOSsy – generate thesauri on the fly!
November 29, 2011 by Andreas Blumauer
博主,你好,最近一直都在看OPAC2.0的东西。
例如用wordpress+scriblio来搭建OPAC2.0。但是遇到一些问题不知道怎么解决。首先我看到scriblio官方的视频中插件中有个scriblio catalog enrichment 这个插件,但就是找不到下载。
其次我们用的是iii的millennium系统,我通过WP的后台导入是可以获取到类似:
LEADER 00000nam 2200037 a 4500
008 000921n ch 000 0 chi d
020 9577175864|cNT $420
041 chi
090 TK 9969|bShiwm 2000
100 1 施威銘.
245 10 PCDIY 2000完全掌握你的電腦 /|c施威銘硏究室著.
260 臺北市 :|b旗標 ,|c2000.
300 1 v. (various pagings) :|bcol. ill. ;|c24 cm.
650 0 Microcomputers|xAmateurs’ manuals.
650 0 電腦|x業餘手册.
700 1 施威銘硏究室.
这样的数据,但是在处理完成时会出现:
Processing complete.
records harvested. with 0 warnings and 0 errors.
不明白为什么一条记录都拿不到。不知道怎么处理。
求解答。
抱歉我不懂技术。香港科技大学在用Scriblio,而且他们的系统也是Millennium,向他们请教应该是最合适的。