百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

因果推断Matching方式实现代码 因果推断模型

wptr33 2024-11-11 16:08 123 浏览

如果你对数据分析感兴趣,希望学习更多的方法论,希望听听经验分享,

欢迎移步宝藏公众号「小火龙说数据」,无广告、无软文、纯干货,更多精彩原创文章与你分享!


00 序言

之前文章中,小火龙和大家分享过在无法做AB实验的场景下,如何通过因果推断的方式,构造相对纯净的虚拟AB组,还不了解方法的同学可以戳这里「不适合做AB实验的场景下,通过这4种方式来衡量策略效果」

本章,分享其中Matching方法中的EM(精确匹配)、CEM(粗化精确匹配)的SQL实现代码,有需要的同学可以自取。详细理论这里就不再冗余介绍了,可以戳上面链接学习。

01 代码实现

步骤一:前置表(生成匹配前置用户表)
create table if not exists test.cem_user_original as
select
    uid,
    age,
    gender,
    edu_level,
    is_label --是否应用某些功能(作为虚拟AB的判断标识)
from
    test.user_table
where
    date between '20240301' and '20240330' --获取此段时间的用户
group by
    uid,
    age,
    gender,
    edu_level,
    is_label
;


步骤二:匹配(通过label=1去匹配label=0)
create table if not exists test.cem_user_result as

with
title_merge as --标签merge
(
select
    *
    ,is_click as is_ab_treatment --是否是虚拟实验组
    ,1-is_click as is_ab_contorl --是否是虚拟控制组
    ,concat_ws('_', age, gender, edu_level) as title_merge
from
    test.cem_user_original
),

title_count as --计算每个标签merge对应的虚拟AB组人数
(
select
    *
    ,sum(is_ab_treatment) over(partition by title_merge) as num_ab_treatment
    ,sum(is_ab_contorl) over(partition by title_merge) as num_ab_contorl
    ,row_number()over(partition by title_merge,is_ab_contorl order by rand()) as rank_ab_contorl
from
    title_merge
),

treatment_few as --当标签merge中「实验组用户≤控制组用户」时,实验组全取+控制组取与实验组相同人数
(
select
    *
from
    title_count
where
    num_ab_treatment <= num_ab_contorl
    and
    (
    is_click=1 or
    (is_click=0 and rank_ab_contorl<=num_ab_treatment)
    )
),

treatment_more as --当标签merge中「实验组用户>控制组用户」时,实验组全取+控制组全取(实验组用户明显偏少的情况)
(
select
    *
from
    title_count
where
    num_ab_treatment > num_ab_contorl
)


select
    *
from
    treatment_few

union all

select
    *
from
    treatment_more
;

最后,推荐一本数据分析进阶书籍《数据分析实践:专业知识和职场技巧》

侧重案例讲解,对于初、中级数据分析师的帮助极大!!!

相关推荐

Java常用工具类技术文档(java常用util工具类)

一、概述Java工具类(UtilityClasses)是封装了通用功能的静态方法集合,能够简化代码、提高开发效率。本文整理Java原生及常用第三方库(如ApacheCommons、GoogleG...

建议收藏!深入理解Java虚拟机:JVM垃圾回收算法+垃圾收集器

02JVM垃圾回收算法2.1什么是垃圾回收?...

Java 开发者线上问题排查常用的 15 个 Linux 命令

作为Java开发者,线上环境的问题排查是日常工作的重要组成部分。熟练掌握Linux命令能大幅提升排查效率,快速定位进程异常、日志错误、性能瓶颈等核心问题。本文结合Java应用特点,整理1...

Java-Maven详解(maven for java)

一、什么是Maven?ApacheMaven是一个软件...

java 文件操作(I/O流)(java文件流写入文件)

一、文件操作技术演进二、核心类对比分析...

如何使用Java API操作HDFS系统?(java编程操作hdfs能完成的功能有)

1.搭建项目环境打开Eclipse选择FileàNewàMavenProject创建Maven工程,选择“Createasimpleproject”选项,点击【Next】按钮,会进入“New...

那些被&quot;删除&quot;却仍占用空间的文件

在服务器运维过程中,磁盘空间不足是一个常见问题。而有时候,即使清理了大量文件,系统仍然报告磁盘几乎已满,这种情况尤为令人困惑。本文将通过一个实际案例,分享如何排查和解决Linux服务器上的"幽...

SpringBoot的Web应用开发——Web缓存利器Redis的应用!

 Web缓存利器Redis的应用Redis是目前使用非常广泛的开源的内存数据库,是一个高性能的keyvalue数据库,它支持多种数据结构,常用做缓存、消息代理和配置中心。本节将简单介绍Redis的使...

如何使用C#中的Lambda表达式操作Redis Hash结构,简化缓存中对象属性的读写操作

...

Redis 常用命令大全(redis常用命令及详解)

Redis常用命令全解析在当今的数据处理与存储领域,Redis凭借其高性能、丰富的数据结构等特性,成为了众多开发者和企业的首选内存数据库。下面将为大家详细介绍Redis的常用命令。键(Key)...

Redis+Lua脚本防超卖是万能解?这3个致命漏洞你可能没发现!

在高并发秒杀场景中,Redis+Lua脚本常被视为防止超卖的“银弹”。然而,许多开发者因对其底层逻辑理解不足,踩中了致命漏洞却不自知。本文通过真实案例剖析三个隐藏极深的问题,并提供完整解决方案,助你避...

10w qps缓存数据库——Redis(缓存技术 redis)

一、Redis数据库介绍:Redis:非关系型缓存数据库...

Redis安装及核心数据结构(redis一般安装在哪)

Redis安装官方下载地址:http://redis.io/downloadhttp://download.redis.io/releases/...

Python Redis数据库新玩法:从零到高手掌握操作技巧

介绍Redis(RemoteDictionaryServer)是一种高性能的开源内存数据库,它支持多种数据结构,如字符串、哈希、列表、集合、有序集合等,并提供了丰富的操作命令。Redis具有快速、...

redis知识总结(基础篇,可复习,可学习)

最近redis差不多看完了,前面学的也忘了好多,所以正好写篇博客复习复习。此篇介绍的是redis的基础篇,希望这篇能帮到各位大佬。...