P4

  基于HITS算法的搜索引擎概述 文档

摘要:本文简要介绍了目前搜索引擎中应用较为广泛的一种算法——HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法通过两个评价权值 - 内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。它专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。

yuchihuo 2012-05-28   4032   0
P

Lucene Code 3.03 中文api文档 文档

Lucene Code 3.03 中文api文档

javastu 2012-05-12   422   0
P648

  搜索引擎核心技术与实现 文档

搜索引擎开发实战:基于Lucene和Solr 。本章首先概要的介绍搜索引擎的总体结构和基本模块,然后会介绍其中的最核心的模块:全文检索的基本原理。为了尽快普及搜索引擎开发技术,本章介绍的搜索引擎结构可以采用开源软件实现。为了通过实践来深入了解相关技术,本章中会介绍相关的开发环境。本书介绍的搜索技术使用Java编程语言实现,之所以没有采用性能可能会更好的C/C++,是希望读者不仅能够快速完成相关的开发任务,而且可以把相关实践作为一个容易上手的游戏。另外,为了集中关注程序的基本逻辑,书中的Java代码去掉了一些错误和异常处理,实际可以运行的代码可以在本书附带的光盘中找到。在以后的各章中会深入探索搜索引擎的每个组成模块。

lxfsbxh 2012-05-11   790   0
P21

  文本分类在比价搜索中应用可行性分析 文档

文本分类在比价搜索中应用可行性分析

welldone 2012-04-21   3393   0
P35

  lucene 初级学习资料 文档

lucene是一套Java API,它不是一个独立的搜索引擎系统,但是你可以使用lucene开发搜索引擎系统。现在我们学习lucene主要是学习如何使用别人开源的东西,来组建自己想要的搜索引擎系统。

welldone 2012-04-21   4371   0
Lucene   搜索引擎   HTML   Java   SQL  
P21

  分布式搜索引擎技术 - Lily 文档

Lily以NoSQL技术为主题,是建立在云计算上的内容仓库(content repository)。它是基于Apache的 HBase(存储)和Solr(索引/搜索),并提供了大型内容集合存储与检索的解决方案。可运用在 门户网站,内容管理系统,及时搜索,档案应用,文案管理,等等。<br> Lily的优势在于她强大的搜索能力,无论是文本匹配还是全文索引,通通都能搞 定。但我觉得Lily在获取这些优势的同时付出了相当大的代价,最主要的代价就是系统的复杂性。想想看,为了能够使用Lily,你需要安装并维护以下系 统:HDFS, HBase, Zookeeper, SOLR, Lily. 这些系统任何一个都可能让Operation Team抓狂,更不用说他们混在一起了。

ykyx00 2012-04-01   5121   0
P26

  Lucene 的学习 文档

通过这几天的看书和学习,对Lucene有了更进一步的认识,所以总结一下这些天的学习成果把Lucene的学习心得也学出来。提到Lucene很多人都知道这个开源的搜索工具,其魅力也是很大的。它让我们对搜索引擎的认识不在那么神秘,也不会在觉得百度和google的技术多么的高深没测,其实其原理都是一样的,只是他们要做的更好,走的更远罢了。 Lucene可以对任何的数据做索引和搜索,说这样的话其实不过分,真的就是这样,只要你能处理好这些数据,交给Lucene去建立索引它都可以帮你把这些数据给检索出来,是不是很好玩了。真正好玩的地方还在后面呢。

sayhix 2012-03-12   2847   0
P13

  搜索相关笔记(Nutch) 文档

Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。

q985962490 2012-02-29   724   0
P76

  文本信息提取技术概述 文档

内容(1)信息提取的含义、目标(2)信息提取技术中若干相关基础问题(3)(中文)信息提取系统的流程与设计(4)Web信息提取。

lzp432500 2012-02-23   4125   0
搜索引擎   HTML   XML   C/C++   Go  
P4

  solr 分布式部署 文档

需求:1. 实现SOLR主,辅服务器更新同步,每次客户端COMMIT请求都会及时应用在辅服务器上。2. 实现MULTICORE,实际生产环境中往往会有多个搜索应用实例。

mingzhou 2012-02-15   5649   0
P51

  Nutch 1.0 源代码分析 文档

Nutch1.0源代码分析

228823266 2012-01-17   431   0
P9

  Nutch 主要类分析 文档

org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造url,CrawlDatum,在构造过程中给CrawlDatum初始化得分,分数可影响urlhost的搜索排序,和采集优先级!5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host。

228823266 2012-01-17   5175   0
P4

  Nutch 源代码学习(5)-解读 Nutch -运行,爬行过程 文档

Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。

228823266 2012-01-17   582   0
P24

  Lucene 使用心得分享 文档

Lucene是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎应用,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

liaoxu 2012-01-17   4981   0
P150

  利用Lucene构建一个简单的Web搜索程序 文档

Lucene入门、 全文检索的概念,倒排索引的概念、 建立索引、 搜索、 中文分词的实现、 Nutch入门、 串知识点Html,css,javascript,servlet,jsp,mysql, 介绍MVC的概念、 演示借用一些javascript的成熟的框架实现页面的特殊效果。例如:rico、 学会使用myeclipse、 熟悉mysql数据库的用法、 什么时候用lucene、 数据库大量数据,文本。

xiaobalu186 2012-01-13   6045   0
P10

  搜索算法的通用优化方法 文档

[BFS][双向搜索]在bfs算法所能解决的问题当中,有相当一部分,是给你初状态和末状态,让你求一条从初状态到末状态的最短路,实际上,bfs的结点产生系统也最适合解决这一类的问题。对于无休止以指数级膨胀的队列长度,选手们往往束手无策。其实这一类问题,有一个比较难实现,但是却能很好提高算法效率的办法,那就是,我们从初始结点开始扩展,每扩展一层(暂时称它为f1),再从目标结点按照产生系统相反的办法来扩展结点(称它为f2),直到f1和f2产生出了相同的结点,把中间路线输出就可以了。

yugouai 2012-01-07   3481   0
P10

  搭建sphiSphinx+MySQL5.1x+SphinxSE+mmseg中文分词搜索引擎架构 文档

Sphinx+MySQL5.1x+SphinxSE+mmseg中文分词搜索引擎架构搭建手记。研究了一下sphinx,发现真是个好东西,先来几句废话,什么是Sphinx?Sphinx是一个在GPLv2下发布的一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原生支持)。Sphinx的特性高速的建立索引(在当代CPU上,峰值性能可达到10MB/秒);高性能的搜索(在2–4GB的文本数据上,平均每次检索响应时间小于0.1秒);可处理海量数据(目前已知可以处理超过100GB的文本数据,在单一CPU的系统上可处理100M文档);

xlong07 2012-01-05   648   0
P21

  搜索引擎技术 文档

Lily以NoSQL技术为主题,是建立在云计算上的内容仓库(content repository)。它是基于Apache的 HBase(存储)和Solr(索引/搜索),并提供了大型内容集合存储与检索的解决方案。可运用在 门户网站,内容管理系统,及时搜索,档案应用,文案管理,等等。 Lily的优势在于她强大的搜索能力,无论是文本匹配还是全文索引,通通都能搞 定。但我觉得Lily在获取这些优势的同时付出了相当大的代价,最主要的代价就是系统的复杂性。想想看,为了能够使用Lily,你需要安装并维护以下系 统:HDFS, HBase, Zookeeper, SOLR, Lily. 这些系统任何一个都可能让Operation Team抓狂,更不用说他们混在一起了。

lingmeiwen 2011-12-26   4208   0
P14

  Sphinx全文索引安装教程[图文教程] 文档

基本上看看上面的官方教程和中文使用手册,你应该会安装和使用Sphix全文索引,当然,还有一些细节,需要不断的google和baidu,那为了节省大家的时间,就出一个完整的Sphinx安装教程和结合PHPWIND程序的使用教程(PHPWIND7.5版本支持)。

long983 2011-12-26   615   0
P8

  扩展Lucene的索引文件存储 文档

本文主要叙述如何通过引入Commons-VFS项目来扩展Lucene的索引文件存储方式。在阅读本文之前,您必须对Lucene有一定的了解,最好是有编写过Lucene代码。另外文章中所提到的Lucene如果不做特殊说明指的是Lucene的Java版本。使用过Lucene来做为搜索引擎的朋友知道,Lucene默认的使用文件系统来存储索引文件。

franktang 2011-12-26   581   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档