百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

利用 Redis 集合计算新增用户和次日留存率

wptr33 2024-12-18 17:32 19 浏览

假设你负责一个 SaaS 平台的用户行为统计分析。平台通过用户的机器码来标识每个用户。为了评估平台的增长和用户活跃度,我们需要计算以下两个指标:

1、新增用户数:在某一时间段(例如一天)内,首次登录应用的用户数量。

2、次日留存率:即当天新增的用户,在第二天是否仍然登录应用,计算公式为:

这些计算需要对大量用户数据进行统计。如果直接通过传统的 SQL 语句查询,效率将变得非常低。为了提高效率,我们可以通过 Redis 的集合(Set)操作来完成这些任务。

步骤分析

1. 将所有出现过的用户机器码存储在 Redis 中

首先,我们需要将历史数据中所有出现过的用户机器码存储到 Redis 的集合中。假设你有多个日期的用户数据,每天的用户机器码是不同的。你可以通过类似如下的 SQL 查询来获取每一天的机器码:

SELECT DISTINCT(user_device) FROM `statistic_20241201`;
SELECT DISTINCT(user_device) FROM `statistic_20241202`;...

将这些机器码存储在 Redis 的集合 user_device 中:

$redis->sadd('user_device', '6ab3d84ace678644f44645');  // 添加机器码

user_device 集合中的元素是所有曾经登录过应用的用户机器码。

2. 计算当天新增的用户机器码

接下来,我们需要获取当天新增的用户机器码。假设今天是 2024 年 12 月 3 日,我们通过 SQL 查询获取 12 月 3 日的机器码:

SELECT DISTINCT(user_device) FROM `statistic_20241203`;

将这些机器码存储在 Redis 的临时集合 tmp_20241203 中:

$redis->sadd('tmp_20241203', '5a6vhbb84ace678fgv44f44645');  // 添加机器码

3. 获取新增用户(当天首次登录的用户)

我们可以通过 Redis 的 sdiffstore 命令来计算 user_device 集合和 tmp_20241203 集合的差集。差集就是当天首次登录的机器码,即 2024 年 12 月 3 日的新增用户。

$redis->sdiffstore('new_20241203', 'user_device', 'tmp_20241203');

此时,new_20241203 集合中的元素就是 12 月 3 日新增的用户机器码。为了防止占用内存过多,给这个集合设置 1 天的过期时间:

$redis->expire('new_20241203', 86400);  // 86400秒 = 1天

4. 计算新增用户数量

使用 Redis 的 SCARD 命令获取 new_20241203 集合中的元素数量,这个数量就是 2024 年 12 月 3 日的新增用户数:

$new_user_count = $redis->scard('new_20241203');

5. 合并当天的机器码到 user_device集合中

为了确保历史数据不断更新,我们需要将当天出现的所有机器码合并进 user_device 集合中。这可以通过 Redis 的 sunionstore 命令实现:

$redis->sunionstore('user_device', 'user_device', 'tmp_20241203');

然后删除临时集合 tmp_20241203,以释放内存:

$redis->del('tmp_20241203');

6. 计算次日留存率

为了计算 12 月 3 日新增用户的次日留存率,我们需要查看 12 月 4 日新增的用户机器码。假设 12 月 4 日的用户机器码通过 SQL 查询获得:

SELECT DISTINCT(user_device) FROM `statistic_20241204`;

将这些机器码存储到临时集合 tmp_20241204 中:

$redis->sadd('tmp_20241204', '5a6vhbb84ace678fgv44f44645');

然后,使用 Redis 的 sinterstore 命令计算 new_20241203tmp_20241204 集合的交集,即 12 月 3 日新增用户中,12 月 4 日仍然活跃的用户机器码:

$redis->sinterstore('next_day_retention', 'new_20241203', 'tmp_20241204');

此时,next_day_retention 集合中包含的是次日留存的用户机器码。

7. 计算次日留存的用户数和留存率

使用 SCARD 命令获取 next_day_retention 集合中的元素数量,这就是 12 月 3 日新增用户中,12 月 4 日仍然活跃的用户数:

$next_day_retention_count = $redis->scard('next_day_retention');

然后,通过除法计算次日留存率:

$next_day_retention_rate = $next_day_retention_count / $new_user_count;

总结

通过 Redis 集合的差集(sdiffstore)、并集(sunionstore)和交集(sinterstore)操作,我们能够高效地计算新增用户数和次日留存率,避免了在大数据量下使用 SQL 查询的性能瓶颈。

利用 Redis 的集合操作,不仅提升了计算效率,还大大减少了对数据库的压力。

优势总结

  1. 高效存储和计算:Redis 集合操作能在内存中快速进行集合的交集、并集和差集计算,适合处理海量数据。
  2. 简单易用:Redis 提供了丰富的集合操作命令,可以轻松完成复杂的统计任务。
  3. 扩展性强:随着用户量和数据量的增长,Redis 能够通过简单的命令和机制处理大规模数据。

通过这种方法,我们可以大幅提升数据处理效率,特别适合于高并发、高频次的实时统计需求。

相关推荐

Python自动化脚本应用与示例(python办公自动化脚本)

Python是编写自动化脚本的绝佳选择,因其语法简洁、库丰富且跨平台兼容性强。以下是Python自动化脚本的常见应用场景及示例,帮助你快速上手:一、常见自动化场景文件与目录操作...

Python文件操作常用库高级应用教程

本文是在前面《Python文件操作常用库使用教程》的基础上,进一步学习Python文件操作库的高级应用。一、高级文件系统监控1.1watchdog库-实时文件系统监控安装与基本使用:...

Python办公自动化系列篇之六:文件系统与操作系统任务

作为高效办公自动化领域的主流编程语言,Python凭借其优雅的语法结构、完善的技术生态及成熟的第三方工具库集合,已成为企业数字化转型过程中提升运营效率的理想选择。该语言在结构化数据处理、自动化文档生成...

14《Python 办公自动化教程》os 模块操作文件与文件夹

在日常工作中,我们经常会和文件、文件夹打交道,比如将服务器上指定目录下文件进行归档,或将爬虫爬取的数据根据时间创建对应的文件夹/文件,如果这些还依靠手动来进行操作,无疑是费时费力的,这时候Pyt...

python中os模块详解(python os.path模块)

os模块是Python标准库中的一个模块,它提供了与操作系统交互的方法。使用os模块可以方便地执行许多常见的系统任务,如文件和目录操作、进程管理、环境变量管理等。下面是os模块中一些常用的函数和方法:...

21-Python-文件操作(python文件的操作步骤)

在Python中,文件操作是非常重要的一部分,它允许我们读取、写入和修改文件。下面将详细讲解Python文件操作的各个方面,并给出相应的示例。1-打开文件...

轻松玩转Python文件操作:移动、删除

哈喽,大家好,我是木头左!Python文件操作基础在处理计算机文件时,经常需要执行如移动和删除等基本操作。Python提供了一些内置的库来帮助完成这些任务,其中最常用的就是os模块和shutil模块。...

Python 初学者练习:删除文件和文件夹

在本教程中,你将学习如何在Python中删除文件和文件夹。使用os.remove()函数删除文件...

引人遐想,用 Python 获取你想要的“某个人”摄像头照片

仅用来学习,希望给你们有提供到学习上的作用。1.安装库需要安装python3.5以上版本,在官网下载即可。然后安装库opencv-python,安装方式为打开终端输入命令行。...

Python如何使用临时文件和目录(python目录下文件)

在某些项目中,有时候会有大量的临时数据,比如各种日志,这时候我们要做数据分析,并把最后的结果储存起来,这些大量的临时数据如果常驻内存,将消耗大量内存资源,我们可以使用临时文件,存储这些临时数据。使用标...

Linux 下海量文件删除方法效率对比,最慢的竟然是 rm

Linux下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、findwithdelete、rsync、Python、Perl.首先建立50万个文件$testfor...

Python 开发工程师必会的 5 个系统命令操作库

当我们需要编写自动化脚本、部署工具、监控程序时,熟练操作系统命令几乎是必备技能。今天就来聊聊我在实际项目中高频使用的5个系统命令操作库,这些可都是能让你效率翻倍的"瑞士军刀"。一...

Python常用文件操作库使用详解(python文件操作选项)

Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能...

11. 文件与IO操作(文件io和网络io)

本章深入探讨Go语言文件处理与IO操作的核心技术,结合高性能实践与安全规范,提供企业级解决方案。11.1文件读写11.1.1基础操作...

Python os模块的20个应用实例(python中 import os模块用法)

在Python中,...