百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Redis进阶之底层存储数据结构及内存优化

wptr33 2025-02-03 15:29 33 浏览

前言

Redis作为高性能缓存中间件,除了拥有高性能的特点之后,相比于其他缓存而言还支持多种数据结构,而如String、List、Set、SortedSet和Hash都是redis对外支持的数据结构,而内部存储时实际上和传统理解上的String、List、Set、SortedSet以及Hash都有所不同。Redis针对不同类型的数据结构底层都进行了优化,会根据不同的数据采用不同的数据结构来进行存储。

一、Redis对象(RedisObject)

Redis中所有的key都是字符串,但是所有的value存储的时候实际上都不是直接采用String、List、Set、SortedSet和Hash这些结构来存储的,而是封装成了RedisObejct对象。相当于Redis就是一个庞大的<String, RedisObejct>集合

Redis每次新建一个键值对时都会创建两个RedisObject对象,一个是键的对象,一个是值的对象。

RedisObject数据结构如下所示:

type: 表示value代表的数据类型,取值范围为String、List、Set、SortedSet、Hash等五种类型

encoding:表示value的编码格式,包括int、embstr、raw、ziplist、linkedList、ht、intset、skipList等等

refCount:表示value对象引用计数,当refCount值为0的时候则表示可以被回收了

ptr: 指向底层数据的指针

lru: 上一次被访问的时间

其中不同类型的数据结构可能会对应多种不同的编码方式,通过采用不同编码方式的方法可以达到优化内存的效果。另外相同的数据类型同样也可能会有不同的编码方式来优化内存。

二、Redis的编码机制

Redis针对不同数据结构类型采用了多种编码方式,分别如下:

ziplist是压缩的列表,存储数据的内存空间是连续的,占用空间比较少但是处理数据需要耗时,相当于用时间代替了空间

主要数据结构不同情况下的编码方式分别如下:

redis在不同的数据情况下采用不同的编码方式,采用占用内存小的数据结构来达到内存优化的效果。

2.1、字符串编码方式

1、int编码

int编码仅仅用于字符串的value,当字符串的value为整数类型时,此时就用int编码

2、embstr编码

embstr是简单动态字符串(SDS)的一种编码,专门用于保存长度比较短的字符串。Redis存储数据都会创建一个RedisObject,RedisObject中有一个属性ptr是指向具体数据的指针。而保存字符串的数据结构时SDS,也就是sdshdr数据结构

采用embstr编码方式时,会调用一次内存分配函数分配连续的内存空间同时分配给RedisObject和sdshdr两个结构。

另外embstr编码的字符串是只读的,一旦发生修改就会升级为raw编码方式。

3、raw编码

raw也是简单动态字符串(SDS)的一种编码,当字符串的长度较长时就采用raw编码方式。raw编码方式和embstr编码方式的区别是raw只需要调用一次内存分配函数,而raw需要分别为RedisObject和sdshdr各申请一次内存分配函数。

raw和embstr保存字符串的效果完全一样,只不过raw在分配内存时需要多申请,同时释放内存时也需要比embstr多释放一次。

2.2、列表编码方式

列表对象的编码方式有ziplist和linkedlist两种

ziplist编码底层是通过压缩列表实现,压缩列表的每个节点保存一个列表的元素。列表value的RedisObject对象的ptr指向ziplist对象,

linkedlist编码底层是通过双向链表实现,链表的每个节点保存列表的一个元素。列表value的RedisObject对象的ptr执行linkedlist对象,

当列表的元素同时满足以下两个条件时才使用ziplist,否则就使用linkedlist

1、列表的元素个数不能超过512个,可以自定义具体的值

2、列表中所有元素的大小不能超过64个字节,可以自定义具体的值

相关视频推荐

redis 数据如何组织,如何存储,redis为什么这高效

为什么C/C++程序员一定要阅读redis源码?腾讯面试教你做人

学习地址:C/C++Linux服务器开发/后台架构师【零声教育】-学习视频教程-腾讯课堂

需要C/C++ Linux服务器架构师学习资料加qun812855908(资料包括C/C++,Linux,golang技术,内核,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK,ffmpeg,大厂面试题 等)

2.3、集合编码方式

集合的编码方式有intset和hashtable两种

intset编码底层实现就是整数集合,集合中存储的数据全部是整数类型。

hashtable编码底层实现就是一个字典,集合的所有元素就存在字典的键值对的键中,而字典的所有键的值都为NULL

当集合的元素同时满足以下两个条件时采使用intset,否则就使用hashtable

1、集合的元素个数不能超过512个,可以自定义具体的值

2、集合的所有元素都是整数类型

2.4、有序集合编码方式

有序集合的编码方式有ziplist和skiplist两种,有序集合的元素都有两个属性,一个是具体的值,一个是用于排序的分数。

ziplist编码底层是压缩列表,每个有序集合的元素都需要两个连续的压缩列表的节点存储,一个存储元素的值一个存储元素的分数。

另外压缩列表会将集合元素按分数进行排序,分数较小的排在靠近表头的位置,分数较大的排在靠近表尾的位置。

skiplist编码底层采用zset来实现,一个zset同时包含一个字典和一个跳跃表。

当有序集合的元素同时满足以下两个条件时采用ziplist,否则采用skiplist

1、当有序集合元素个数小于zset-max-ziplist-entries(默认为512个)且

2、所有的元素值大小都小于zset-max-ziplist-value(默认为64个字节)时

2.5、哈希对象编码方式

哈希对象的编码方式分为ziplist和hashtable两种

ziplist编码底层实现也是一个压缩列表,当哈希对象存储新的键值对时,先将键的节点插入到压缩列表的尾部,然后再将值的节点插入到列表的尾部,所以每一个键值对的键和值会生成两个压缩列表的节点连续存储在列表中的。并且后插入的节点会在列表尾部;

hashtable编码底层实现是字典结构,哈希对象的键值对就对应了字典中的键值对,且键和值都是字符串结构。

当哈希对象的元素同时满足以下两个条件时才使用ziplist,否则就使用hashtable

1、哈希保存的键值对数量不能超过512个,可以自定义具体的值

2、哈希保存的所有键值对的值的大小都不可以超过64个字节,可以自定义具体的值

三、Redis的底层数据结构

3.1、简单动态字符串(SDS)

虽然redis由C语言实现,但是redis没有使用C语言的字符串来用,而是采用了简单动态字符串简称SDS的数据结构来存储字符串,包括字符串类型的key和value

SDS定义如下:

struct sdshdr{

    /** 记录buf数组已使用字节数*/
    int len;
  
    /** 记录buf数组未使用字节数*/
    int free;

    /** 字节数组,用于保存字符串数据*/
    char buf[];
}

SDS除了有字节数组之外,还有两个int类型变量分别记录已使用和未使用的字节数。这样可以很方便的读取字符串的长度

另外由于C语言中的字符串不会存储自身的长度,底层实现是一个长度为N+1个字符长的数组(1个字符空间保存空字符表示结束标志),所以一旦字符串发生改变,无论是增长或者是缩短都需要重新进行一次内存分配。如果不重新分配内存,那么当字符串增长时会出现内存溢出,当字符串缩短时会造成内存泄露,都是会出现对内存不友好的结果,所以需要对字符串的内存进行重新分配。

而SDS就在C语言字符串实现的基础之上增加了两种优化策略,分别是空间预先分配和空间惰性释放

1、空间预先分配策略

当SDS的len长度小于1M时,预分配的空间和已使用的空间一样大,比如字符串增长之后len长度为100个字节,那么扩容之后SDS缓冲区的总长度会分配201个字节,其中100个字节已用,另外100个字节作为空闲空间,当后续字符串再增长时,可能就不需要再分配

当SDS的len长度大于1M时,预分配的空间始终保持是1M的空间,比如字符串长度为30M,那么扩容之后空间大小为31M,多余1M保留给后续字符串增长时使用。

所以通过内存预分配策略,当字符串经过N次增长之后,最多只会产生N次内存重新分配,而不是C语言字符串的必然N次内存重新分配,一定程度上是通过牺牲一部分的内存空间代价换来减少内存重新分配带来的效率提高的结果,相当于空间换时间

案例如下图示,原SDS保存了字符串“ABC”,后将字符串修改为“ABCDE”,扩容结果如下

2、空间惰性释放策略

空间惰性释放策略和空间预分配策略目的一致,同样是为了减少内存重新分配的次数,当字符串缩短之后,并不会立即将空闲的内存空间释放,而是仅仅修改free的值表示有空闲空间,并不会将当前空闲的空间立即释放,以便后续字符串增长时不需重新分配内存。

比如原先SDS值为“ABCDE”,此时free=0,len=6,此时将字符串值修改为“ABC”,那么不会将多余的空间释放,而是修改free=2,表示有2个字节空间

当然SDS也提高了API,用于显示的释放空闲空间,所以无需担心太多的空闲空间导致的内存泄露问题

总计下SDS相比于C语言字符串的优点

1、O(1)复杂度获取字符串的长度

2、避免了缓冲区溢出的问题

3、大幅度降低了当字符串修改时导致的内存重新分配次数

4、二进制安全,SDS缓冲区可以保存任意格式的二进制数据,而不是C字符串的仅能保存文本数据

5、SDS兼容了部分C字符串的函数,提高了代码复用率

3.2、链表

redis中链表的实现和其他高级语言的链表实现逻辑基本上一致,主要有链表节点和链表类组成,定义分别如下:

/** 链表节点结构定义 */
struct listNode{

   /** 前置节点*/
   struct listNode *prev;

   /** 后置节点*/
   struct listNode *next;

   /** 节点的值*/
   void *value;

}


/** 链表结构定义*/
struct list{

   /** 头节点*/
   listNode *head;

   /** 尾节点*/
   listNode *tail;

   /** 节点个数*/
   unsigned long len;
}

总结

1、链表主要用于redis的列表键,发布与订阅、慢查询、监视器等;

2、每个链表节点都包含前置节点和后置节点的指针,所以是双端链表;

3、头节点的前置节点和尾节点的后置节点都为空,所以链表是无环链表;

3.3、字典

字典是一种保存键值对的抽象数据结构,在Java语言中字典的实现就是Map,但是C语言中没有Map数据结构,所以redis需要自行实现字典数据结构,功能和Java中的Map类似。

redis的数据库底层就是通过字典实现,redis的key和value操作实际就是基于字典的key和value操作。另外redis的哈希数据结构底层也是通过字典实现的。

3.4、跳跃表

跳跃表(SkipList)是一种有序数据结构,通过多个节点同时维持其他多个节点的指针,从而达到快速访问节点的目的。

跳跃表是redis有序集合的底层实现方案之一,当redis的有序集合数据量达到默认的512个时或者某个key的值的大小达到64K时,就采用跳跃表来实现。

在同一个跳跃表中,每个节点的分数值可以相同,但是节点的成员对象必须是唯一的。优先按分数进行排序,分数相同的情况下按成员对象的值进行排序

3.5、整数集合

整数集合(intset)是redis用于保存整数类型的集合数据结构,定义如下:

typedef struct intset{
    
     /**编码方式*/
     unint32_t encoding;

     /**集合中元素数量*/
     unint32_t length;

     /**整数数组*/
     int8_t contents[];
}intset;

length保存整数集合保存的数据个数,contents用于保存整数数据,按从小到大的顺序进行有序存储。

虽然contents定义的是int8_t类型的值,但是实际上并不一定contents中存储的就是int8_t类型的值,而是由encoding的值来决定。encoding支持INTSET_ENT_INT8、INTSET_ENT_INT16、INTSET_ENT_INT32、INTSET_ENT_INT64四种类型,所以contents支持存储int8_t、int16_t、int32_t和int64_t类型的数据。contents只是默认采用int8_t类型,当有int16_t类型的数据需要存入contents中时,就会将contents升级为int16_t类型的数组,同理当存入的数据越来越大时,contents还可以升级为int32_t和int64_t的类型。

这样做的好处是可以节省内存,当集合中存储的数据值小时就按占内存小的数据结构存储,只有当需要存储数值大的数据结构时才进行升级。但是contents只能从小到大升级而不能从大到小降级。

总结:

1、整数集合是集合键的底层实现之一

2、整数集合底层是有序不重复的数组实现

3、当数组存储的数据类型变化时会进行升级操作,升级机制可以节省内存空间,但是不会进行降级

3.6、压缩列表

压缩列表(ziplist)是redis的列表键和哈希键的底层实现方式之一,当列表或哈希键的key数量小于默认的512个时,且每个键的值的大小比较小时(64K),那么就采用ziplist来实现底层数据存储。

压缩列表顾名思义是内存进行了压缩的列表,是由一系列特殊编码的连续的内存块组成的顺序型数据结构,目的是为了节省内存空间。

压缩列表由任意多个节点组成,每个节点存储一个字节数组或者是一个整数。

1、压缩列表的结构

如下图时:


2、压缩列表的节点

压缩列表核心是由各个节点组成,每个节点的结构如下图示:

3、连锁更新的风险

连锁更新值当新增一个或删除一个节点时,由于压缩列表的内存是连续的,可能会连锁导致其他节点的内存需要重新分配的问题。

比如压缩列表中目前有4个节点,4个节点的长度都是250~253之间的长度,由于小于254,所以后续节点的previous_entry_length值只需要1个字节存储即可。

此时在节点1的前面插入新节点,且新节点的长度大于254个字节,那么节点1就需要采用5个字节来存储新节点的长度值,所以节点1占用的内存空间就会多4个字节,所以会导致节点占用的空间也会超过254个字节;

同理由于节点1长度变化,会导致节点2的previous_entry_length需要由1个字节变成5个字节,从而导致节点2长度也会超过254个字节,同理后续的节点都会受到影响,这就是新增一个节点导致的连锁更新反应。

虽然连锁更新的风险比较大,但是实际情况下场景会比较少,因为实际情况下压缩列表中存在多个连续的占用字节数都在250 ~ 253之间的节点的概率很小,只要连续的这样的节点不多,连锁更新的节点不多的话也不会对整体性能带来影响。

总结

1、压缩列表是一种连续内存的顺序型数据结构,目的是为了节省内存;

2、压缩列表是redis中列表、有序集合、和哈希的底层实现方式之一;

3、压缩列表包含多个节点,每个节点可以保存整数也可以保存字节数组;

4、压缩列表新增节点和删除节点虽然有连续更新的风险,但是出现的概率非常小。

相关推荐

[常用工具] git基础学习笔记_git工具有哪些

添加推送信息,-m=messagegitcommit-m“添加注释”查看状态...

centos7安装部署gitlab_centos7安装git服务器

一、Gitlab介1.1gitlab信息GitLab是利用RubyonRails一个开源的版本管理系统,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目。...

太高效了!玩了这么久的Linux,居然不知道这7个终端快捷键

作为Linux用户,大家肯定在Linux终端下敲过无数的命令。有的命令很短,比如:ls、cd、pwd之类,这种命令大家毫无压力。但是,有些命令就比较长了,比如:...

提高开发速度还能保证质量的10个小窍门

养成坏习惯真是分分钟的事儿,而养成好习惯却很难。我发现,把那些对我有用的习惯写下来,能让我坚持住已经花心思养成的好习惯。...

版本管理最好用的工具,你懂多少?

版本控制(Revisioncontrol)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。...

Git回退到某个版本_git回退到某个版本详细步骤

在开发过程,有时会遇到合并代码或者合并主分支代码导致自己分支代码冲突等问题,这时我们需要回退到某个commit_id版本1,查看所有历史版本,获取git的某个历史版本id...

Kubernetes + Jenkins + Harbor 全景实战手册

Kubernetes+Jenkins+Harbor全景实战手册在现代企业级DevOps体系中,Kubernetes(K8s)、Jenkins和Harbor组成的CI/CD流水...

git常用命令整理_git常见命令

一、Git仓库完整迁移完整迁移,就是指,不仅将所有代码移植到新的仓库,而且要保留所有的commit记录1.随便找个文件夹,从原地址克隆一份裸版本库...

第三章:Git分支管理(多人协作基础)

3.1分支基本概念分支是Git最强大的功能之一,它允许你在主线之外创建独立的开发线路,互不干扰。理解分支的工作原理是掌握Git的关键。核心概念:HEAD:指向当前分支的指针...

云效Codeup怎么创建分支并进行分支管理

云效Codeup怎么创建分支并进行分支管理,分支是为了将修改记录分叉备份保存,不受其他分支的影响,所以在同一个代码库里可以同时进行多个修改。创建仓库时,会自动创建Master分支作为默认分支,后续...

git 如何删除本地和远程分支?_git怎么删除远程仓库

Git分支对于开发人员来说是一项强大的功能,但要维护干净的存储库,就需要知道如何删除过时的分支。本指南涵盖了您需要了解的有关本地和远程删除Git分支的所有信息。了解Git分支...

git 实现一份代码push到两个git地址上

一直以来想把自己的博客代码托管到github和coding上想一次更改一次push两个地址一起更新今天有空查资料实践了下本博客的github地址coding的git地址如果是Gi...

git操作:cherry-pick和rebase_git cherry-pick bad object

在编码中经常涉及到分支之间的代码同步问题,那就需要cherry-pick和rebase命令问题:如何将某个分支的多个commit合并到另一个分支,并在另一个分支只保留一个commit记录解答:假设有两...

模型文件硬塞进 Git,GitHub 直接打回原形:使用Git-LFS管理大文件

前言最近接手了一个计算机视觉项目代码是屎山就不说了,反正我也不看代码主要就是构建一下docker镜像,测试一下部署的兼容性这本来不难但是,国内服务器的网络环境实在是恶劣,需要配置各种镜像(dock...

防弹少年团田柾国《Euphoria》2周年 获世界实时趋势榜1位 恭喜呀

当天韩国时间凌晨3时左右,该曲在Twitter上以“2YearsWithEuphoria”的HashTag登上了世界趋势1位。在韩国推特实时趋势中,从上午开始到现在“Euphoria2岁”的Has...