前言 :  即可能误判    不会漏判
 
一、什么是Bloom Filter
    Bloom Filter是一种空间效率很高的随机数据结构,它的原理是,当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位阵列(Bit array)中的K个点把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检索元素一定不在;如果都是1,则被检索元素很可能在。这就是布隆过滤器的基本思想。
 
    但Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。
 
    有人可能想知道它的中文叫法,倒是有被译作称布隆过滤器。该不该译,译的是否恰当,由诸君品之。下文之中,如果有诸多公式不慎理解,也无碍,只作稍稍了解即可。

1.1、集合表示和元素查询

下面我们具体来看Bloom Filter是如何用位数组表示集合的。初始状态时,Bloom Filter是一个包含m位的位数组,每一位都置为0。

为了表达S={x1, x2,…,xn}这样一个n个元素的集合,Bloom Filter使用k个相互独立的哈希函数(Hash Function),它们分别将集合中的每个元素映射到{1,…,m}的范围中。对任意一个元素x,第i个哈希函数映射的位置hi(x)就会被置为1(1≤i≤k)。注意,如果一个位置多次被置为1,那么只有第一次会起作用,后面几次将没有任何效果。在下图中,k=3,且有两个哈希函数选中同一个位置(从左边数第五位,即第二个“1“处)。

在判断y是否属于这个集合时,我们对y应用k次哈希函数,如果所有hi(y)的位置都是1(1≤i≤k),那么我们就认为y是集合中的元素,否则就认为y不是集合中的元素。下图中y1就不是集合中的元素(因为y1有一处指向了“0”位)。y2或者属于这个集合,或者刚好是一个false positive。

1.2、错误率估计

前面我们已经提到了,Bloom Filter在判断一个元素是否属于它表示的集合时会有一定的错误率(false positive rate),下面我们就来估计错误率的大小。在估计之前为了简化模型,我们假设kn<m且各个哈希函数是完全随机的。当集合S={x1, x2,…,xn}的所有元素都被k个哈希函数映射到m位的位数组中时,这个位数组中某一位还是0的概率是

其中1/m表示任意一个哈希函数选中这一位的概率(前提是哈希函数是完全随机的),(1-1/m)表示哈希一次没有选中这一位的概率。要把S完全映射到位数组中,需要做kn次哈希。某一位还是0意味着kn次哈希都没有选中它,因此这个概率就是(1-1/m)的kn次方。令p = e-kn/m是为了简化运算,这里用到了计算e时常用的近似:

令ρ为位数组中0的比例,则ρ的数学期望E(ρ)= p’。在ρ已知的情况下,要求的错误率(false positive rate)为:

(1-ρ)为位数组中1的比例,(1-ρ)k就表示k次哈希都刚好选中1的区域,即false positive rate。上式中第二步近似在前面已经提到了,现在来看第一步近似。p’只是ρ的数学期望,在实际中ρ的值有可能偏离它的数学期望值。M. Mitzenmacher已经证明[2] ,位数组中0的比例非常集中地分布在它的数学期望值的附近。因此,第一步的近似得以成立。分别将p和p’代入上式中,得:

相比p’和f’,使用p和f通常在分析中更为方便。

最新文章

  1. [AS3.0] HTMLLoader与js交互
  2. Tomcat服务相关
  3. UART总线(异步)
  4. 破解LR时,解决loadrunner 破解错误:license security violation.Operation is not allowed
  5. MagSpoof:能预测并窃取你下一张信用卡号码的廉价设备
  6. python中的类简单讲解
  7. 【转载】之 破解 (【原创】Xenocode Postbuild 2009 加壳破解 (不断更新中...))
  8. SQL Server附加数据库拒绝访问
  9. 反射操作辅助类ReflectionUtil
  10. JAVA操作Hbase基础例子
  11. Redis 4.0新功能介绍
  12. Android 网络优化,使用 HTTPDNS 优化 DNS,从原理到 OkHttp 集成
  13. 优雅的使用git
  14. ajax入门学习
  15. 线段树模板hdu 1166:敌兵布阵
  16. git远程删除分支后,本地git branch -a 依然能看到的解决办法
  17. ES6 Reflect 与 Proxy
  18. java 基础之 list
  19. 分形之希尔伯特-皮亚诺(Hilbert-Peano)曲线
  20. Swift3.0:PhotoKit的使用

热门文章

  1. PHP案例:学生信息管理系统
  2. Linux进程状态转换图
  3. display:flex和display:box布局浏览器兼容性分析
  4. EasyUI的window加载的页面不执行js问题说明
  5. JMeter基础之-使用技巧
  6. oracle的dual表
  7. 网络I/O:Socket→RMI
  8. ARGOX 力象 OS-214Plus 条码打印机 B/S 打印
  9. Linux服务器 大量的CLOSE_WAIT、TIME_WAIT解决办法
  10. hdu 5090 Game with Pearls(最大匹配)