HyperLogLog

什么是 HyperLogLog

HyperLogLog 是基于 HyperLogLog 算法的一种数据结构,该算法可以在极小空间完成独立数量统计。

在本质上还是字符串类型。

重要 API

命令 含义
pfadd key element1 [element2...] 向HyperLogLog中添加元素
pfcount key1 [key2...] 计算HyperLogLog的独立总数
pfmerge destKey key1 [key2...] 合并多个hyperLogLog到destKey中

演示

内存消耗

以百万独立用户为例

elements = ""
key = "2019_06_02:unique:ids"
for i in `seq 1 1000000`
do
elements = "${elements} uuid-"${i}
if [[$((i%1000)) == 0 ]]
then
redis-cli pfadd ${key}${elements}
elements = ""
fi
done
内存消耗
1 天 15 KB
1 个月 450 KB
1 年 15KB * 365 = 5 MB

可以看到内存消耗是非常低的,比我们之前学过的 BitMap 还要低得多。

使用经验

Q:既然 HyperLogLog 那么好,那么是不是以后用这个来存储数据就行了呢?

A:这里要考虑两个因素:

  1. hyperloglog 的错误率为:0.81%,存储的数据不能百分百准确。
  2. hyperloglog 不能取出单条数据。api 中也没有相关操作。

如果你没有这两个方面的顾虑,那么用 HyperLogLog 来存储大规模数据,还是非常不错的。

最新文章

  1. 在VS2010 下编译 cocos2d-x-2.1.4
  2. C++ 类里面,函数占用存储空间问题
  3. 删除svn文件的批处理文件
  4. Struts2的值栈和对象栈
  5. Python [Leetcode 344]Reverse String
  6. mysql_install_db出错,Unable to lock /usr/local/mysql/var/ibdata1, error: 11
  7. 整理php操作memcache缓存为基础的方法
  8. Django:之不得不说的web框架们
  9. 关于c语言中栈和堆释放的问题
  10. 【解决】Server Tomcat v7.0 Server at localhost failed to start.
  11. 【算法】解析IEEE 754 标准
  12. Java分割ID和姓名(String不能当输出参数)
  13. 命名实体识别,使用pyltp提取文本中的地址
  14. Django框架----Object Relational Mapping(ORM)
  15. 2017/2/10springMVC中文乱码问题
  16. css初识和css选择器
  17. java实现版本比较
  18. 杂项:.NET Framework
  19. Ubuntu 安装uwsgi遇到的问题
  20. mac os maverick下安装nginx+php-fpm via homebrew

热门文章

  1. flask 第六篇 flask内置的session
  2. JS基础_toString()
  3. Vue中注意target和currentTarget的使用
  4. Qt新安装之后出现Error while building/deploying (kit: Desktop Qt 5.7.0 GCC 64bit) When executing step "Make”
  5. java list对象按照某个属性去重
  6. swift--【do..catch与try,try?,try!】
  7. C++中的各种容器实现原理
  8. SQL学习(六)select into:复制表信息
  9. Spring学习之==>入门知识
  10. sql 死锁查看