百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

用户画像笔记2-关于用户拉链表 微博用户画像

wptr33 2024-11-11 16:08 20 浏览

Hive 数据仓库:

建立用户画像需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据,开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。

分区存储:(提速提效)

如果将用户标签开发成一张大的宽表,在这种宽表下放几时种类型标签,那么每天该画像宽表的ETL作业将会花费比较长时间,而且不便于向这张宽表中新增标签类型。

要解决这种ETL花费时间较长的问题,可以从一下几个方面着手:

1. 将数据分区存储,分别执行作业;

2. 标签脚本性能调优;

3. 基于一些标签共同的数据来源开发中间表;

分区存储的一个方案:

其中一种方案是把标签分表、分区存储,根据标签体系的人口属性、行为属性、用户消费、风险控制、社交属性等维度分别建立对应

的标签表进行分表存储对应的标签数据:

人口属性表: dw.userprofile_attribute_all;

行为属性表: dw.userprofile_action_all:

用户消费表: dw.userprofile_consume_all:

风险控制表: dw.userprofile_riskmanage_all

社交属性表: dw.userprofile_social_all

因为分表、分区存储导致需要做标签汇聚:

create table `dw.userprofile_userlabel_map_all` (

`userid` string COMMENT 'userid',

`userlabels` map<string,string> COMMENT 'tagsmap',)

COMMENT 'userid 用户标签汇聚'

PARTITIONED BY (`data_date` string COMMENT '数据日期')

insert overwrite table dw.userprofile_userlabel_map_all partition(data_date = "data_date")

select userid,

cast_to_json(concat_ws(',',collect_set(concat(labelid,':',labelweight)))) as userlabels

from "用户各维度的标签表“

where data_date = "data_date"

group by userid

ID-MAP:(把设备ID和用户ID按照时序关联)

开发用户标签的时候,需要把用户不同来源的身份标识通过数据手段识别为同一个主体。

用户的属性、行为相关数据分散在不同的数据来源中,通过ID-MAPPing 能够把用户在

不同场景下的行为串联起来,消除数据孤岛。

比如需要打通未登录时用户的cookieid 和登录会后的userid.

具体实现方法:从埋点表和访问日志表里面获取到cookieid 和 userid 同时出现的访问记录。

INSERT OVERWRITE TABLE ods.cookie_user_signin PARTITION(data_date = '$(data_date)')

select t.*

FROM (

select userid,

cookieid,

from_unixtime(eventtime,'yyyyMMdd') as signdate

FROM ods.page_event_log

WHERE data_date = '${data_date}'

UNION ALL

select userid,

cookieid,

from_unixtime(viewtime,'yyyyMMdd') as signdate

FROM ods.page_view_log

WHERE data_date = '${data_date}'

) t


创建一个ID—Map的拉链表:

创建语法



创建一个用户拉链表:


实时更新拉链表:

每天ETL 调度将数据更新到ID-Mapping 拉链表中,任务执行如下:



不同数据库在画像系统中的角色:

Hive 存储数据相关标签表、人群计算表的表结构设计以及ID-Mapping 的一种实现方式;

MySQL 存储标签元数据、监控数据、及结果集数据;

Hbase 存储线上接口实时调用的数据;

Elasticsearch 存储标签人群计算和人群多维透视分析;

相关表数据信息如下:

dw.userprofile_attribute_all: 存储人口属性维度的标签表;

dw.userprofile_action_all: 存储行为属性维度的标签表;

dw.userprofile_consume_all: 存储用户消费维度的标签表

dw.userprofile_riskmanage_all: 存储风险控制维度的标签表

dw.userprofile_social_all:存储社交属性维度的标签表

dw.userprofile_userlabel_map_all: 汇聚用户各维度标签的表。

dw.userprofile_usergroup_labels_all:存储计算后人群数据的表。

其它知识,left join 左连接,union all 全连接, union 内连接:

关于左连接:取出a表中所有数据,再加上与a,b 匹配的数据。


union : union 只取不同的数值。


相关推荐

Linux高性能服务器设计

C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...

独立游戏开发者常犯的十大错误

...

学C了一头雾水该咋办?

学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...

C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?

上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...

C语言实战小游戏:井字棋(三子棋)大战!文内含有源码

井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...

C++语言到底是不是C语言的超集之一

C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...

在C++中,如何避免出现Bug?

C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...

ESL-通过事件控制FreeSWITCH

通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...

物理老师教你学C++语言(中篇)

一、条件语句与实验判断...

C语言入门指南

当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...

C++选择结构,让程序自动进行决策

什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...

C++特性使用建议

1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...

C++程序员学习Zig指南(中篇)

1.复合数据类型结构体与方法的对比C++类:...

研一自学C++啃得动吗?

研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...

C++关键字介绍

下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...