百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

数据挖掘干货总结(五)--推荐算法之CB

wptr33 2024-11-11 16:08 24 浏览

本文共计2960字,预计阅读时长十分钟



推荐算法(一)--CB算法

推荐的本质

推荐分为非个性化和个性化非个性化推荐比如各类榜单而本系列主要介绍个性化推荐

在合适的场景合适的时机通过合适的渠道把合适的内容推荐给合适的用户

推荐算法的种类

1. 基于内容Content Based

2. 基于协同Collaboration Filtering

– User Based CF

– Item Based CF

、CB算法详解

1. Content的内容

只引入Item属性的Content Based推荐

优点

a.提升推荐结果的相关性

b结果可解释

c.推荐结果容易被用户感知

缺点

a.无个性化

b.依赖于对item的深入分析

引入ItemUser属性的Content Based推荐

在上一步的item提取特征之后的基础上加上了用户的一些行为数据。需要注意行为数据也需要特征化后才能和之前的item特征放在一起进行分析其中可能会涉及到一些one-hot编码的问题这里不展开需要了解的话见:

怎么理解one-hot?

优点

a.用户模型刻画了用户兴趣需求

b.推荐形式多样具有个性化

c.结果可解释

缺点

a.推荐精度低

b.马太效应

c.用户行为稀疏导致覆盖率低


2. 需求举例(仅基于item的特征):

用户小明听了一首歌每首歌(item)的数据属性包括编号(id)和内容(content),

idcontent

id1王铮亮 时间都去哪了私人订制插曲

......

根据CB,向他推荐10首歌

3. 解决步骤和核心代码:

对歌曲库中的每首歌content进行分词并用tf_idf赋值

+++jieba_score_udf.py+++

# coding=utf-8

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import jieba.analyse

import jieba

import json

import re

#正则匹配中文

pattern = re.compile(u'[一-龥]')

#切词并用tf_idf赋值

for line in sys.stdin:

cols = line.strip().split('')

id = cols[0]

words_list = jieba.analyse.extract_tags(cols[1],topK=10,withWeight=True)

for (word,score) in words_list:

if len(re.findall(pattern,word)) != 0:

print '%s%s%s' % (id,word,score)

大致得到数据是随便编的) t1

idwordscore

id1时间0.1

id1王铮亮0.5

id1私人0.5

id2时间0.4

id20.4

id20.1

id3私人0.3

.........

② 在hive中调用这个udf,得到倒排表

hive> add 'udfpath/jieba_score_udf.py'

hive> select

hive> word,collect_list(concat_ws(':',id,score)) as id_score_list

hive> from

hive> (select transform(id,desc) using 'python jieba_score_udf.py' as(id,word,score)

hive> from badou.musics sort by score desc

hive> ) t

hive> group by word;

大致得到数据是随便编的) t2

word id_score_list

王铮亮[id1:0.5,...]

时间[id2:0.4, id1:0.1...]

私人[id1:0.5, id3:0.3,...]

......

③ 得到ids推荐列表

hive> select tt1.id,collect_list(concat_ws('_', tt2.id, nscore)) ids

hive> from

hive> (select tt1.id, tt2.id, sum(tt2.score) nscore

hive> from

hive> (select tt1.id, tt2.id, tt2.score new_score

hive> from

hive> (select id, word from t1) tt1

hive> join

hive> (select word, id, score from t1) tt2

hive> on tt1.word = tt2.word

hive> ) tt3

hive> where tt1.id <> tt2.id

hive> group by tt1.id,tt2.id

hive> order by nscore desc) tt4;

大致得到数据是随便编的) t3

id ids

id1[id2:0.5,...]

id2[id1:0.5, id3:0.1...]

id3[id2:0.5, id1:0.3,...]

......

④ 推荐

i) 如果小明听的这首歌idt3表中存在那么直接取出对应的ids即可

ii) 如果小明听的这首歌idt3表中不存在

a. 需要在线对其content做分词得到一个word列表:(word1, word2, word3,...)

b. t1中找出对应的id分数求和排序top10即可

hive> select id, sum(score) nscore

hive> from

hive> (select id, word, score from t1

hive> where word in (word1, word2, word3,...) tt

hive> group by id

hive> order by nscore desc

hive> limit 10;

或者在t2倒排表中选取对应的ids,解析后求和排序结果都一样,但可能会更快一点

hive> select

hive> split(id_score,':')[0] as id,

hive> sum(split(id_score,':')[1] as score) nscore

hive> from

hive> (select word, explode(id_score_list,',') id_score

hive> from t2

hive> where word in (word1, word2, word3,...)

hive> ) ttt

hive> group by id

hive> order by nscore desc

hive> limit 10;




不切实际的期望和恐惧是造成焦虑的根源

我们需要以实际情况和发生概率为依据

避免非黑即白地去看待事物


相关推荐

Linux高性能服务器设计

C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...

独立游戏开发者常犯的十大错误

...

学C了一头雾水该咋办?

学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...

C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?

上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...

C语言实战小游戏:井字棋(三子棋)大战!文内含有源码

井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...

C++语言到底是不是C语言的超集之一

C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...

在C++中,如何避免出现Bug?

C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...

ESL-通过事件控制FreeSWITCH

通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...

物理老师教你学C++语言(中篇)

一、条件语句与实验判断...

C语言入门指南

当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...

C++选择结构,让程序自动进行决策

什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...

C++特性使用建议

1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...

C++程序员学习Zig指南(中篇)

1.复合数据类型结构体与方法的对比C++类:...

研一自学C++啃得动吗?

研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...

C++关键字介绍

下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...