如何使用bloomfilter构建大型Java缓存系统

jopen 10年前

在如今的软件当中，缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行，相反，你可以只执行一次，把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上，比如你不想重复的查询数据库，你想把结果缓存起来，只在数据发生变化时才去数据查询来更新缓存。

与上面的情况类似，有些场合下我们需要进行快速的查找来决定如何处理新来的请求。例如，考虑下面这种情况，你需要确认一个URL是否指向一个恶意网站，这种需求可能会有很多。如果我们把所有恶意网站的URL缓存起来，那么会占用很大的空间。或者另一种情况，需要确认用户输入的字符串是包含了美国的地名。像“华盛顿的博物馆”——在这个字符串中，华盛顿是美国的一个地名。我们应该把美国所有的地名保存在内存中然后再查询吗？那样的话缓存会有多大？是否能在不使用数据库的前提下来高效地完成？

这就是为什么我们要跨越基本的数据结构map，在更高级的数据结构像布隆过滤器（bloomfilter）中来寻找答案。你可以把布隆过滤器看做Java中的集合（collection），你可以往它里面添加元素，查询某个元素是否存在（就像一个HashSet）。如果布隆过滤器说没有这个元素，这个结果可能是错误的。如果我们在设计布隆过滤器时足够细心，我们可以把这种出错的概率控制在可接受范围内。

解释

布隆过滤器被设计为一个具有N的元素的位数组A（bit array），初始时所有的位都置为0.

添加元素

要添加一个元素，我们需要提供k个哈希函数。每个函数都能返回一个值，这个值必须能够作为位数组的索引（可以通过对数组长度进行取模得到）。然后，我们把位数组在这个索引处的值设为1。例如，第一个哈希函数作用于元素I上，返回x。类似的，第二个第三个哈希函数返回y与z，那么：

A[x]=A[y]=A[z] = 1

查找元素

查找的过程与上面的过程类似，元素将会被会被不同的哈希函数处理三次，每个哈希函数都返回一个作为位数组索引值的整数，然后我们检测位数组在x、y与z处的值是否为1。如果有一处不为1，那么就说明这个元素没有被添加到这个布隆过滤器中。如果都为1，就说明这个元素在布隆过滤器里面。当然，会有一定误判的概率。

算法优化

通过上面的解释我们可以知道，如果想设计出一个好的布隆过滤器，我们必须遵循以下准则：

好的哈希函数能够尽可能的返回宽范围的哈希值。
位数组的大小（用m表示）非常重要：如果太小，那么所有的位很快就都会被赋值为1，这样就增加了误判的几率。
哈希函数的个数（用k表示）对索引值的均匀分配也很重要。

计算m的公式如下：

m = - nlog p / (log2)^2;

这里p为可接受的误判率。

计算k的公式如下：

k = m/n log(2) ;

这里k=哈希函数个数，m=位数组个数，n=待检测元素的个数（后面会用到这几个字母）。

哈希算法

哈希算法是影响布隆过滤器性能的地方。我们需要选择一个效率高但不耗时的哈希函数，在论文《更少的哈希函数，相同的性能指标：构造一个更好的布隆过滤器》中，讨论了如何选用2个哈希函数来模拟k个哈希函数。首先，我们需要计算两个哈希函数h1(x)与h2(x)。然后，我们可以用这两个哈希函数来模仿产生k个哈希函数的效果：

gi(x) = h1(x) + ih2(x);

这里i的取值范围是1到k的整数。

Google guava类库使用这个技巧实现了一个布隆过滤器，哈希算法的主要逻辑如下：

long hash64 = …; //calculate a 64 bit hash function  //split it in two halves of 32 bit hash values    int hash1 = (int) hash64;    int hash2 = (int) (hash64 >>> 32);  //Generate k different hash functions with a simple loop  for (int i = 1; i <= numHashFunctions; i++) {      int nextHash = hash1 + i * hash2;  }

应用

从数学公式中，我们可以很明显的知道使用布隆过滤器来解决问题。但是，我们需要很好地理解布隆过滤器所能解决问题的领域。像我们可以使用布隆过滤器来存放美国的所有城市，因为城市的数量是可以大概确定的，所以我们可以确定n（待检测元素的个数）的值。根据需求来修改p（误判概率）的值，在这种情况下，我们能够设计出一个查询耗时少，内存使用率高的缓存机制。

实现

Google Guava类库有一个实现，查看这个类的构造函数，在这里面需要设置待检测元素的个数与误判率。

import com.google.common.hash.BloomFilter;  import com.google.common.hash.Funnels;    //Create Bloomfilter  int expectedInsertions = ….;  double fpp = 0.03; // desired false positive probability  BloomFilter bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.forName("UTF-8")), expectedInsertions,fpp)

如何使用bloomfilter构建大型Java缓存系统

解释

添加元素

查找元素

算法优化

哈希算法

应用

实现

更多资料

相关经验

目录