Hawk搜索引擎平台是面向中小型网站,可以定制的垂直搜索引擎平台。本搜索引擎平台目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的网站信息的桌面搜索等应用领域。它改造自Lucene,Hadoop和Nutch系统,是纯Java的搜索平台软件,可以运行于Windows及Linux等平台,具备基本的抓取、索引和检索功能。
平台特点简介

  • 对网页进行深度抓取和分析,自定义抓取规则,实现站内搜索。
  • 可以索引各种常用类型文档,实现桌面文档检索。
  • 单台PC服务器能索引上千万文档,可以用于中小型检索服务。
  • 可以自定义网页展示模板,或XML接口,轻松与各种系统整合。
  • 自动分析网页文本,提取新词,如人名,地名等。
  • 支持检索词自动推荐以及繁简转换功能。
  • 可以定制主页的各项文字,包括包含自己的欢迎网页。