设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客

开源桌面搜索引擎简介及应用技巧

2011-6-6 19:06| 发布者: joejoe0332| 查看: 8016| 评论: 0|原作者: developerworks|来自: developerworks

摘要:   过去,寻找正确的内容十分容易,从鞋盒里找到正确的软盘就可以了。但那样的日子早已一去不返了。如今,普通的桌面计算机都会包含数千兆、甚至数太字节的数据!如此多的信息相互关联,再以简单的层级结构组织文件 ...

  文本桌面搜索引擎:Terrier

  若您对图像查询结果还算满意,那么接下来的一步是使用 Terrier 来搜索包含了这些图像的 XML 文档。与 imgSeek 不同,需要从命令行提示符启动 Terrier 的 GUI。请确保已经在计算机上安装了 Java™ 的正确版本。

  在它的主窗口,Terrier 只显示了两个选项卡:Search 和 Index。当首次运行 Terrier 时,它聚焦于 Index 选项卡并显示了一个对话框(参见 图 9),询问您是否想要 Terrier 索引它自己的文档或您所选择的文档。

  选择想要索引的 XML 文档的文件夹。当重启 Terrier 时,它会将聚焦转移到 Search 选项卡。可以在查询之前,转到 Index 选项卡来重新索引您的文档。

  索引文件

  在 Index 选项卡上,选择文件夹以弹出一个窗口,在其中指定 Terrier 应该索引哪些文档。完成后,单击 OK 返回到 Index 选项卡并开始创建索引的过程。

  Terrier 并不支持递增索引。每次创建一个索引,Terrier 都将删除旧的索引并从头索引所有指定的文件夹。

  在窗口底部可以观察索引过程。Terrier 完成索引后,会将焦点转到 Search 选项卡。

  Terry 查询语言

  Search 选项卡非常简单,只包含用来输入 Terrier 查询的一个字段。可以使用此查询语言来搜索单个单词或者是词组内的单词。如下的一些例子展示了如何对包含了用 imgSeek 找到的图像的文档进行查询。

  示例 1:word1 word2

  此查询会返回包含一个或两个单词的文档,但并不总是会返回同时包含这两个单词的文档。让我们假设第一个单词是 boat,第二个单词是 imgboat1.png。搜索结果可能会显示包含了 boat 但不包含 imgboat1.png 的一个文档。第二个文档则包含了 imgboat1.png,而不包含 boat。第三个文档包含了这两个单词。

  搜索结果可能会以随机的顺序显示这些文档。这有助于辨别哪些文档包含了被错误标签的图像。

  示例 2:word1^2.3 word2

  第一个单词的权重提高了 2.3,而第二个单词的权重则仍保持为 1。在键入查询时,不要忘记在单词和权重值之间插入一个 ^ 符号。搜索结果会返回总是包含第一个单词但不一定包含第二个单词的那些文档。搜索结果还会首先显示包含了加权词的文档。

  与第一个例子中的文档不同,包含了权重为 2.3 的 boat 的文档总是会显示在结果的顶部。而这些文档中不一定会包含对此 boat 图像的引用。

  为了进一步完善搜索,在搜索字段输入第三个单词,比如 flower。为此单词分配的权重可以高于或低于分配给第一个单词的权重。权重越高,比如第一个单词 7.2,第三个单词 2.5,那么包含第一个单词的文档首先出现在搜索结果内的可能性就越高。

  示例 3:+word1 +word2

  也可以通过输入加号作为单词前缀来获得包含了这两个单词的文档。这两个单词可以处于文档的单独位置。它们也不必如同在一个词组内那样相邻。比如,flowerimgflower1.png 处于不同的位置,但 flower 可能与 imgflower1.png 不相关。在一个文档内,此图像可能会被标记为 Flower,而在这个相同文档的不同版本,此图像也可能会被标记为 Rose

  示例 4:+word1 -word2

  在寻找包含了第一个单词而不包含第二个单词的文档时,就可以参照这个示例。可以通过在第一个单词前面放上加号,在第二个单词前面放上减号来达到这个目的。如果一个文档既包含第一个单词,也包含第二个单词,那么这个文档将不会出现在搜索结果内。

  比如,如果搜索三个单词: +boat +imgboat1.png-canoe,得到的将是包含了 boatimgboat1.png 但不包含 canoe 的文档。


酷毙
2

雷人

鲜花

鸡蛋
1

漂亮

刚表态过的朋友 (3 人)

  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部