过去,寻找正确的内容十分容易,从鞋盒里找到正确的软盘就可以了。但那样的日子早已一去不返了。如今,普通的桌面计算机都会包含数千兆、甚至数太字节的数据!如此多的信息相互关联,再以简单的层级结构组织文件夹和文件可能不再能够帮助您找到您需要的文件。需要有这样一种工具,可以智能地索引您的文件并帮助您在正确的上下文环境中定位这些文件。Google 等已经创建了商业的桌面搜索引擎。不过,现在也有一些开源的桌面搜索引擎可用。 接下来,我将着重介绍两种开源桌面搜索引擎:imgSeek 和 Terrier,这两种工具在搜索图像文件以及包含了文本以及对图像的引用的 XML 文档时十分方便。我可以使用一个草图或是导入一个图像来从数百个不相干的图像中查询类似的图像 — 类似于从图像堆中寻找一两个图像。搜索结果可能会返回重复的图像,只是文件名不同。除了按内容查询之外,还可以按元数据关键字,比如文件名、描述和创建日期来查找文件。 有了 Desktop Terrier,我就可以将我的搜索缩小到查找包含一个或两个单词,且引用我在搜索字段内指定的图像的文档。我有几个搜索选择。在搜索字段内,我可以指定文档中必须包含的一个单词以及不能包含的另一个单词。如果一个单词比另一个单词更为重要或更具相关性,我就会为该单词分配一个权重。包含重要单词的文档在搜索结果中首先出现。一般,我对结果都比较满意。Terrier 也提供批处理模式和交互模式。 imgSeek 的桌面版本是一个免费的开源可视相似性项目集合。我可以将此查询表述为我所绘制的一个草图或我提供的另一个图像。imgSeek 使用的算法是此查询和数据库图像的多尺度小波分解。如果您对将一个基于内容的图像数据库集成到一个与图像相关的网站感兴趣,也可以使用服务器端版本。 图 1 显示了首次初始化时,其桌面版本的主页。 在启动 imgSeek 时,可以改变 imgSeek 出现在其主页上的方式。如果想要将按图像内容搜索作为主页,可以单击 Search,然后单击 Image。退出 imgSeek 并重新启动。图 2 显示了结果。 |