文科生自学Python-pandas交叉透视表降维变换
wptr33 2025-06-09 00:43 21 浏览
--心有猛虎,细嗅蔷薇,学习编程成就更好的自己--
Python语言简洁生动,特别适合文科生学习入门IT世界,用几十行代码就能够做一个完整的爬虫脚本,开发效率杠杠的!短时间内即可解决工作和学习中碰到的棘手问题。(本人外语专业毕业,机缘巧合爱上编程,自学道路曲曲折折,痛并快乐!)在这里总结一下自学Python遇到的难点和重点,分享码过的代码和要点总结,希望能够给初学者一点启示和鼓励,同时愿意结交更多大神交流有助提升自己的水平。
平时在做数据处理和分析时经常使用pandas进行各种透视操作(pivot_table),而透视中最常见的是进行两个维度交叉查询,此时得到的透视结果集往往是二维表带多级标题,如何把二维表变换成为一维表呢?今天就针对这个问题展开展示和讲解,接下来看看实际案例吧:
原始数据如下:
该数据源主要包括日期,产品名称和销售收入,一般通过交叉透视查询可以得到不同产品在指定日期范围内的销售收入情况,但形成的结果往往是多维表并带多层标题,如何降维成一维表方便满足其他需求呢(例如生成热力图)?
下面来讲讲如何实现吧:
读取和查看数据基本情况:
添加必要的新字段方便后续处理:
通过pivot方法做交叉透视查询(产品和日期维度交叉)结果如下:
看到该表的产品上方是日期&星期标题,而日期&星期具体数据上方则是收入标题,如何消除日期&星期标题和收入标题呢?这样得到的就是一维数据表了。
关键步骤1-重置该透视表索引:
可以看到产品来到了数据帧里面,同时一个新的索引出现了,该索引是关键哦!!!!方便后续拼接数据。
关键步骤2-抽取日期对应的数据内容,数据索引还是那个新索引:
注意:这里得到的还是DataFrame即数据帧,这个部分就是透视表中的核心数值内容,但缺少产品名称。
关键步骤3-抽取产品名数据,数据索引还是那个共同的新索引:
关键步骤4-通过concat方法横向拼接两个数据得到结果:
最后把产品名称改为索引列如下:
是不是感觉到索引列十分有用和神奇哇!!
该一维结果集方便阅读同时方便其他处理,例如数据可视化(热力图)如下:
总结处理的全部过程,写成一个自定义函数来完成这个需求:
代码汇总如下:
#import seaborn to draw heatmap
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import plotly_express as px
import seaborn as sns
import pandas as pd
import numpy as np
import datetime
import os
#Set work path
def Set_Work_Path(x):
try:
os.chdir(x) #Set work file path
route = os.getcwd()
print(route) #print the changed path
return route
except Exception:
print("No Result")
work_path = r"E:\DATA\20211002"
Set_Work_Path(work_path)
#读取和检查数据
data = pd.read_excel("DATA-Heatmap.xlsx",header=0,sheet_name="DATA",engine="openpyxl")
display(data.head())
display(data.dtypes)
#构造新的字段方便后续分析
data["Weekday"] = data["Date"].dt.strftime("%a")
data["Date&Weekday"] = data["Date"].astype(str) +"-"+ data["Weekday"].astype(str)
display(data.head())
#通过pivot方法获取透视结果,纵轴显示产品而横轴显示日期和星期
pivot = pd.pivot_table(data,index=["Product"],columns=["Date&Weekday"],values=["Revenue"],aggfunc={"Revenue":np.sum},fill_value=0)
display(pivot)
#通过重置索引方便后续拼接数据
pivot.reset_index(level=0,inplace=True)
display(pivot)
#获取日期星期对应的数据和对应索引
target_content = pivot["Revenue"].astype(int)
display(target_content)
display(type(target_content))
#获取产品对应的数据和对应索引
target_column = pivot["Product"]
display(target_column)
display(type(target_column))
#把两个数据通过索引横向拼接在一起形成一维数据
target_data = pd.concat([target_column, target_content],axis=1) #concat two Dataframes with index
display(target_data)
#将产品重置为索引列
target_data.set_index("Product",inplace=True)
display(target_data)
#https://seaborn.pydata.org/tutorial/color_palettes.html#tools-for-choosing-color-palettes
def Get_Heatmap(X):
f, ax = plt.subplots(figsize=(20,5))
fig = sns.heatmap(X,annot=True,fmt="d",linewidths=0.5,cmap="RdBu_r") #Blues crest
nowTime = datetime.datetime.now()
Update_Time = nowTime.strftime('%Y-%m-%d-%H-%M')
data_out_title = "Product-Revenue-Heatmap-"+Update_Time
fig.set_title(label=data_out_title)
fig.xaxis.set_ticks_position("top")
return plt.show()
Get_Heatmap(target_data)
#定义一个降维函数
def Get_Pivot_To_df(X):
try:
pivot = pd.pivot_table(X,index=["Product"],columns=["Date&Weekday"],values=["Revenue"],aggfunc={"Revenue":np.sum},fill_value=0)
pivot.reset_index(level=0,inplace=True)
target_content = pivot["Revenue"].astype(int)
target_column = pivot["Product"]
target_data = pd.concat([target_column, target_content],axis=1) #concat two Dataframes with index
target_data.set_index("Product",inplace=True)
return target_data
except Exception:
pass
target = Get_Pivot_To_df(data)
display(target)
解决这个问题的关键就是重置索引后得到一个共同的新索引,新索引利用concat方法进行横向拼接,大家是不是也看明白了,如果有兴趣那就赶紧动手试一下哇!!!解决这个问题可能还有更简洁和优雅的办法,如果其他小伙伴恰好知道和熟悉别的途径,欢迎与本人分享和讨论。
END
我为人人,人人为我!!欢迎大家关注,点赞和转发!!!
~~人生不是赛场,梦想不容退场~~不断努力学习蜕变出一个更好的自己,不断分享学习路上的收获和感悟帮助他人成就自己!!!
相关推荐
- MySQL进阶五之自动读写分离mysql-proxy
-
自动读写分离目前,大量现网用户的业务场景中存在读多写少、业务负载无法预测等情况,在有大量读请求的应用场景下,单个实例可能无法承受读取压力,甚至会对业务产生影响。为了实现读取能力的弹性扩展,分担数据库压...
- 3分钟短文 | Laravel SQL筛选两个日期之间的记录,怎么写?
-
引言今天说一个细分的需求,在模型中,或者使用laravel提供的EloquentORM功能,构造查询语句时,返回位于两个指定的日期之间的条目。应该怎么写?本文通过几个例子,为大家梳理一下。学习时...
- 一文由浅入深带你完全掌握MySQL的锁机制原理与应用
-
本文将跟大家聊聊InnoDB的锁。本文比较长,包括一条SQL是如何加锁的,一些加锁规则、如何分析和解决死锁问题等内容,建议耐心读完,肯定对大家有帮助的。为什么需要加锁呢?...
- 验证Mysql中联合索引的最左匹配原则
-
后端面试中一定是必问mysql的,在以往的面试中好几个面试官都反馈我Mysql基础不行,今天来着重复习一下自己的弱点知识。在Mysql调优中索引优化又是非常重要的方法,不管公司的大小只要后端项目中用到...
- MySQL索引解析(联合索引/最左前缀/覆盖索引/索引下推)
-
目录1.索引基础...
- 你会看 MySQL 的执行计划(EXPLAIN)吗?
-
SQL执行太慢怎么办?我们通常会使用EXPLAIN命令来查看SQL的执行计划,然后根据执行计划找出问题所在并进行优化。用法简介...
- MySQL 从入门到精通(四)之索引结构
-
索引概述索引(index),是帮助MySQL高效获取数据的数据结构(有序),在数据之外,数据库系统还维护者满足特定查询算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构...
- mysql总结——面试中最常问到的知识点
-
mysql作为开源数据库中的榜一大哥,一直是面试官们考察的重中之重。今天,我们来总结一下mysql的知识点,供大家复习参照,看完这些知识点,再加上一些边角细节,基本上能够应付大多mysql相关面试了(...
- mysql总结——面试中最常问到的知识点(2)
-
首先我们回顾一下上篇内容,主要复习了索引,事务,锁,以及SQL优化的工具。本篇文章接着写后面的内容。性能优化索引优化,SQL中索引的相关优化主要有以下几个方面:最好是全匹配。如果是联合索引的话,遵循最...
- MySQL基础全知全解!超详细无废话!轻松上手~
-
本期内容提醒:全篇2300+字,篇幅较长,可搭配饭菜一同“食”用,全篇无废话(除了这句),干货满满,可收藏供后期反复观看。注:MySQL中语法不区分大小写,本篇中...
- 深入剖析 MySQL 中的锁机制原理_mysql 锁详解
-
在互联网软件开发领域,MySQL作为一款广泛应用的关系型数据库管理系统,其锁机制在保障数据一致性和实现并发控制方面扮演着举足轻重的角色。对于互联网软件开发人员而言,深入理解MySQL的锁机制原理...
- Java 与 MySQL 性能优化:MySQL分区表设计与性能优化全解析
-
引言在数据库管理领域,随着数据量的不断增长,如何高效地管理和操作数据成为了一个关键问题。MySQL分区表作为一种有效的数据管理技术,能够将大型表划分为多个更小、更易管理的分区,从而提升数据库的性能和可...
- MySQL基础篇:DQL数据查询操作_mysql 查
-
一、基础查询DQL基础查询语法SELECT字段列表FROM表名列表WHERE条件列表GROUPBY分组字段列表HAVING分组后条件列表ORDERBY排序字段列表LIMIT...
- MySql:索引的基本使用_mysql索引的使用和原理
-
一、索引基础概念1.什么是索引?索引是数据库表的特殊数据结构(通常是B+树),用于...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
程序员的开源月刊《HelloGitHub》第 71 期
-
详细介绍一下Redis的Watch机制,可以利用Watch机制来做什么?
-
假如有100W个用户抢一张票,除了负载均衡办法,怎么支持高并发?
-
如何将AI助手接入微信(打开ai手机助手)
-
Java面试必考问题:什么是乐观锁与悲观锁
-
redission YYDS spring boot redission 使用
-
SparkSQL——DataFrame的创建与使用
-
一文带你了解Redis与Memcached? redis与memcached的区别
-
如何利用Redis进行事务处理呢? 如何利用redis进行事务处理呢英文
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)