百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

全网最清楚的:MySQL的insert buffer和change buffer 串讲

wptr33 2024-11-08 15:03 29 浏览

目录

  • 一、前言
  • 二、问题引入
    • 2.1、聚簇索引
    • 2.2、普通索引
  • 三、change buffer存在的意义
  • 四、再看change buffer
  • 五、change buffer 的限制
  • 六、change buffer 相关参数
  • 七、查看你的MySQL的change buffer
  • 八、灵魂拷问
  • 九、参考

一、前言#

终于《为研发同学同学定制的MySQL面试指南》第30篇更新来啦~

说来话长,都说Baidu是养老厂,结果偏偏干出了pdd的感觉。最近工作确实比较忙,然后周六日又想放松一下接连好多周六日都和同学出去游玩。

立个flag吧!后续的更新进度做到每周至少一更。欢迎关注白日梦,干货分享不断~

好!开始啦,做了这么久研发的你,有没有听别人说过、或者在哪里见过insert bufferchange buffer呢?这篇文章我们一起闲聊一下MySQL的insert bufferchange buffer,彻底揭开这两个名词的面纱!

二、问题引入#

在白日梦看来,如果你想更好的理解 insert buffer、change buffer。首先你的先掌握一些前置的知识,比如MySQL索引的相关知识。所以不要着急,我们一点点展开话题,从你数据的知识过度到insert buffer、change buffer上去,你会发现豁然开朗。

2.1、聚簇索引#

首先我们回顾一下MySQL的聚簇索引,这个东西大家肯定不陌生吧!我打赌在做的各位面试前都会背一背什么是聚簇索引。

大家可以看下面这张图,它就是对B+tree的抽象。它有很多特性,在这篇文章中只需要知道如下几个就好了

  1. 它是一个B+tree。
  2. 我们管这棵树的叶子结点叫做数据页
  3. 叶子结点中存储的数据行是一个全集,怎么解释这个全集呢?比如数据表就3列,id、name、age。所谓的全集就是说:每行数据都有id、name、age这3列。
  4. 我们管非叶子结点叫做索引页

而且我跟大家讲哦,这棵B+tree是会被存储在Disk中的。如果你不能很好的理解的话,可以读一下下面的两段话:

比如一条update sql想修改id = 999的数据行,那它会怎么操作数据页呢?简单来说就是:首先会检查一下buffer pool中有没有包含这条数据的数据页。如果有的话,直接update。如果没有的话进行一次磁盘IO把该数据页加载进内存,然后将其update。然后这时的数据页也就变成了脏页。等后续其它机制将该数据页刷新回Disk。完成内存和数据。

读上面的这段话,你要重点感受一下:数据页从磁盘到Buffer Pool中的这个过程(最终会被挂载在B+tree的叶子结点上)

其实你类比着数据页来看,对于B+tree的非叶子结点来说也是一样的。上面我说了,我们管非叶子结点叫做索引页。为啥这样说呢?其实本质上非叶子结点也是数据页,只不过它里面存储的数据是索引数据。而且和普通的数据页一样,当你需要它而且它还不在内存中时,进行磁盘操作将其读取内存中。

2.2、普通索引#

普通的索引也就是我们常说的二级索引、联合索引等等。

比如我们将name列设置成index的话,那么MySQL就会为我们这个索引单独创建一个B+Tree。(是的!它是独立于主键索引之外的另一颗B+Tree)。而且你注意一下如下几点:

  1. 和聚簇索引一样的是,我们管它的非叶子结点叫做:索引页
  2. 它的叶子结点中存储的并不是所有的列的全集。比如我们对name列创建索引,那么它的叶子节点中存储的就是id、name两列。并会按照name排序。

三、change buffer存在的意义#

了解了上面的索引相关的前置知识点再来看insert buffer和change buffer那其实就很简单了。

我们这一小节来看一下change buffer存在的意义:

其实说白了其实insert buffer也好,还是change buffer也好,它们其实就是MySQL在我们对非唯一的二级索引进行DML(删除行、写入行、修改行)操作时作出的优化逻辑。目的就是让MySQL的性能更好。

比如还是我们这个例子:表里面有3列。id、name、age。然后id是主键、name是非唯一的二级索引。

一条update sql:update xx set name = "赐我白日梦" where name = “白日梦”打过来之后,执行流程大概就像下面这样:

1、检查需要被update的数据是否在buffer pool中。

2、如果在buffer pool中直接将其update。

3、如果不在buffer pool中,进行磁盘的IO操作,将其读取内存中,再把它update。

现在的问题是,name列是个索引列。上文也说了,既然是索引列就意味着需要为它单独创建一颗B+Tree

那你的update sql要做修改,那是不是会分成两个大的步骤

1、Step1: 对buffer pool中的数据页中的数据进行update。

2、Step2: 维护为name单独创建的B+Tree。

你想呀既然MySQL要优化我们对非唯一的二级索引的DML操作,肯定要有个需要优化的点吧!

而这里的Step2,就是insert buffer和change buffer 存在的意思所在!

为啥这样说呢?因为在本篇文章的开头我们提到了,B+tree也是存储在Disk中的,那它肯定就难免发生随机磁盘IO。

或者你想一下:你只是想update 几条数据。假设运气很不好这几条都没有在buffer pool中。那没办法,我们只能去读磁盘。但是更不巧的,涉及到的二级索引页竟然也没有在内存中,我们竟然还要同步等待这一次随机磁盘IO!!!

四、再看change buffer#

change buffer的本质上其实也是一块内存。

比如你的:insert、delete、update等DML操作需要用到的二级索引页(注意是二级索引页,具体就比如说为name列这个二级索引创建的B+Tree的叶子节点,而不是Buffer pool中的普通数据页)

就是当这些二级索引页不在内存中时,你对它们的操作会被缓存在change buffer中(目的是省去这次随机的磁盘IO)。等之后MySQL空闲了、或者是MySQL关闭前、或者是在读取操作时再将这部分缓存操作merge到B+Tree中。

五、change buffer 的限制#

这个现实其实已经说过了

1、首先的要求是二级索引。如果不是二级索引到话,那前面change buffer存在意义又是什么呢?没有啥可优化的地方。那不如不要这个change buffer

2、要求二级索引不能唯一。这个很好理解。如果name列是唯一的。那我每次insert 之前是不是都必须去看下内存、Disk上到底有没有已经存在的相同值的索引。这也就意味着这个insert 操作其实是不能被缓存的!必须立即知道到底能否insert 成功。对吧!不这样的话,你打算返回给客户端什么结果呢?

六、change buffer 相关参数#

参数:innodb_change_buffer_max_size

作用:控制change buffer能占用buffer pool总内存的比例

范围:默认25(表示change buffer最大能占用其25%的内存),最大50。

参数:innodb_change_buffering

作用:控制change buffer对那些dml起作用

可选参数:all(insert、delete、update)、none(不缓存任何操纵)、inserts、deletes、purges

七、查看你的MySQL的change buffer#

Copy# 命令
SHOW ENGINE INNODB STATUS\G

# 查看如下部分
-------------------------------------
INSERT BUFFER AND ADAPTIVE HASH INDEX
-------------------------------------
Ibuf: size 1, free list len 0, seg size 2, 0 merges
merged operations:
 insert 0, delete mark 0, delete 0
discarded operations:
 insert 0, delete mark 0, delete 0
Hash table size 4425293, used cells 32, node heap has 1 buffer(s)
13577.57 hash searches/s, 202.47 non-hash searches/s

# insert:insert buffer
# delete mask:delete buffer
# delete :purge buffer
# discarded operations:当change buffer发生merge时,数据表被删除了!无需再merge

八、灵魂拷问#

如果你能回答上这个问题,说明你真的理解了change buffer!

问:

我开启change buffer 之后,现在要删除一个非唯一的二级辅助索引数据行,比如就删除name=Tom的行,并且这个索引页不在内存中……接下来会发生什么?

按照change buffer的作用来说,是不是当索引页不在内存中时,不去读盘,而是会把这个删除操作写到change buffer 中?

那问题又来了,既然你是把这个操作写到了change buffer中,那你返回给客户端的影响行数怎么算出来的呢?你都没有读读磁盘,万一磁盘上都没你要删除的数据呢…… 你告诉客户端,删除成功了,影响行数为1?

答:其实客户端每次都能得到正确的影响行数!不错,change buffer中是把缓存了你的delete操作,但是buffer pool是没有被影响的呀,如果buffer pool中没有这个name=Tom的行,它依然会去读磁盘的!你品一品,buffer pool和change buffer是两块缓存哦~

相关推荐

Linux高性能服务器设计

C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...

独立游戏开发者常犯的十大错误

...

学C了一头雾水该咋办?

学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...

C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?

上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...

C语言实战小游戏:井字棋(三子棋)大战!文内含有源码

井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...

C++语言到底是不是C语言的超集之一

C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...

在C++中,如何避免出现Bug?

C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...

ESL-通过事件控制FreeSWITCH

通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...

物理老师教你学C++语言(中篇)

一、条件语句与实验判断...

C语言入门指南

当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...

C++选择结构,让程序自动进行决策

什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...

C++特性使用建议

1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...

C++程序员学习Zig指南(中篇)

1.复合数据类型结构体与方法的对比C++类:...

研一自学C++啃得动吗?

研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...

C++关键字介绍

下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...