Redis的HyperLogLog算法怎么用

网友投稿 417 2023-11-28

Redis的HyperLogLog算法怎么用

这篇文章主要介绍了Redis的HyperLogLog算法怎么用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Redis的HyperLogLog算法怎么用文章都会有所收获，下面我们一起来看看吧。

今天是周五，你正开心的摸鱼，产品经理通过邮件给你发了一个需求文档。需求大概是：公司要统计网站每天的访客 IP，而且这个统计是一个长期的行为，短则数月、长则几年。

你看完需求就觉得这 so easy 啊，使用 Redis 的集合类型可以轻松实现这个功能：每天生成一个集合类型的键，使用 SADD 存储每天的访客 IP，使用 SCARD 命令就可以轻松得到每天访客 IP 的数量。

你很快就敲完了代码并通过测试，这个功能就上线了。上线后运行一段时间发现 Redis 所在服务器开始告警，原因是某些键的内存占用过大，你看了一下发现这些键都是存储访客 IP 的集合键。你这才拍了一下脑袋，知道自己给自己挖了一个大坑。

假设存储一个 IPv4 格式的 IP 地址最多需要 15 个字节，网站每天最多有 100 万个访客访问网站。这些集合键一个月就将使用 0.45 GB 的内存，一年将占用 5.4 GB 的内存，这还只是估算了 IPv4 格式的情况下，若是 IPv6 格式将占用更多的内存。SADD 和 SCARD 的时间复杂度虽然都是 O(1)，但是它们对内存的消耗是无法接受的。

你在 Redis 的官方网站翻了翻，发现 Redis 还提供了一种数据类型 HyperLogLog，它既可以实现产品的需求还占用更少的内存。

HyperLogLog 算法

HyperLogLog 是一个专门为了计算集合的基数而创建的概率算法，它可以计算出一个给定集合的近似基数。

近似基数并非集合的实际基数，它可能会比实际的基数小一点或者大一点，但是估算基数和实际基数之间的误差会处于一个合理的范围之内，对于那些不要求十分精确的统计就可以使用 HyperLogLog 算法。

HyperLogLog 的优点在于它计算近似基数所需的内存并不会因为集合的大小而改变，无论集合包含的元素有多少个，HyperLogLog 进行计算所需的内存总是固定的，并且是非常少的。

Redis 的每个 HyperLogLog 类型只需要使用 12KB 内存空间，就可以对接近：264 个元素进行计数，而算法的标准误差仅为 0.81%。

如果使用 HyperLogLog 类型实现上述功能，每天有 100 万个访客的情况下，1 个月也仅仅占用 360KB 的内存。

PFADD

通过 PFADD 命令可以对给定的一个或多个集合元素进行计数。

PFADD key element [element...]

根据给定的元素是否已经进行过计数，PFADD 命令可能返回 0，也可能返回 1：

如果给定的所有元素都已经进行过计数，那么 PFADD 命令将返回 0，表示 HyperLogLog 计算出的近似基数没有发生变化。

如果给定的元素中出现了至少一个之前没有进行过计数的元素，导致 HyperLogLog 计算出的近似基数发生了变化，那么 PFADD 命令将返回 1。

例如：

redis> PFADD letters a b c -- 第一次添加 (integer) 1 redis> PFADD letters a -- 第二次添加 (integer) 0

如果在调用该命令时仅指定 key 而不指定元素也是可以的，如果 key 存在，则不会有任何操作，如果不存在，则会创建一个数据结构（返回 1）。

PFCOUNT

通过 PFCOUNT 命令可以获取 HyperLogLog 为集合计算出的近似基数。若给定的 key 不存在将返回 0。

PFCOUNT key [key...]

例如：

redis> PFCOUNT letters (integer) 3

当向 PFCOUNT 传入多个 HyperLogLog 时，PFCOUNT 命令将先对所有的 HyperLogLog 求并集，然后返回近似基数。

redis> PFADD letters1 a b c (integer) 1 redis> PFADD letters2 c d e (integer) 1 redis> PFCOUNT letters1 letters2 (integer) 5PFMERGE

PFMERGE 命令可以对多个 HyperLogLog 执行并集计算，然后把计算得出的并集 HyperLogLog 保存到指定的键中。

PFMERGE destKey sourceKey [sourceKey...]

如果指定的键已经存在，PFMERGE 命令将覆盖已有的键。

redis> PFADD letters1 a b c (integer) 1 redis> PFADD letters2 c d e (integer) 1 redis>PFMERGE res letters1 letters2 OK redis> PFCOUNT res (integer) 5

可以看到 PFMERGE 和 PFCOUNT 命令十分相似，实际上 PFCOUNT 命令在计算多个 HyperLogLog 的近似基数时会执行以下操作：

在内部调用 PFMERGE 命令，计算所有给定 HyperLogLog 的并集，并将这个并集存储到一个临时的 HyperLogLog 中。

对临时 HyperLogLog 执行 PFCOUNT 命令，得到它的近似基数。

删除临时 HyperLogLog。

返回得到的近似基数。

当程序需要对多个 HyperLogLog 调用 PFCOUNT 命令，并且这个调用可能会重复执行多次时，可以考虑把这一调用替换成相应的 PFMERGE 命令调用：通过把并集的计算结果存储到指定的 HyperLogLog 中而不是每次都重新计算并集，程序可以最大程度地减少不必要的并集计算。

业务场景

HyperLogLog 的特性十分适合：计数（月度、年度统计）、去重（垃圾短信检测）等场景。

关于“Redis的HyperLogLog算法怎么用”这篇文章的内容就介绍到这里，感谢各位的阅读！相信大家对“Redis的HyperLogLog算法怎么用”知识都有一定的了解，大家如果还想学习更多知识，欢迎关注行业资讯频道。

标签：算法学习程序检测

暂时没有评论，来抢沙发吧~

Redis的HyperLogLog算法怎么用

Redis的HyperLogLog算法怎么用

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

洞察了解什么是信创国产化，如何通过小程序技术推动数字化转型，满足行业合规与多样化需求。

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计