元搜索引擎架构

我认为这个问题还不够清楚。这是一个更新的直接问题:

构建元搜索引擎的常见架构有哪些,是否有任何库可用于构建这种类型的搜索引擎?

我正在考虑建立一个“企业”类型的搜索引擎,其中索引数据可能来自专有(如Autonomy或Google Box)或公共搜索引擎(如Google Web或Yahoo Web)。


答案 1

如果你看看大蒜(pdf),你会发现它的架构足够通用,可以适应元搜索引擎。

更新:

粗略的建筑草图是这样的:

   +---------------------------+
   |                           |
   |    Meta-Search Engine     |         +---------------+
   |                           |         |               |
   |   +-------------------+   |---------| Configuration |
   |   | Query Processor   |   |         |               |
   |   |                   |   |         +---------------+
   |   +-------------------+   |
   +-------------+-------------+
                 |
      +----------+---------------+
   +--+----------+-------------+ |
   |             |             | |
   |     +-------+-------+     | |
   |     |    Wrapper    |     | |
   |     |               |     | |
   |     +-------+-------+     | |
   |             |             | |
   |             |             | |
   |     +-------+--------+    | |
   |     |                |    | |
   |     | Search Engine  |    | |
   |     |                |    +-+
   |     +----------------+    |
   +---------------------------+

描述的部分是:

  • 元搜索引擎 - 引擎,协调整个事情。
  • 查询处理器 - 引擎的一部分,解析功能,发送请求并聚合特定搜索引擎的结果(通过包装器)。
  • 包装器 - 将元搜索引擎 API 桥接到特定的搜索引擎。每个包装器都适用于特定的搜索引擎。向元搜索引擎公开外部搜索引擎功能,接受并响应搜索请求。
  • 搜索引擎 - 外部搜索引擎查询,它们通过包装器暴露给元搜索引擎。
  • 配置 - 配置元搜索引擎的数据,例如,要使用的包装器,在哪里可以找到更多包装器等。还可以配置包装器。

答案 2

看看卢塞恩

Apache Lucene是一个完全用Java编写的高性能,功能齐全的文本搜索引擎库。该技术适用于几乎任何需要全文搜索的应用程序,尤其是跨平台搜索。


推荐