百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

8分钟带你深入了解MySQL是如何利用索引的,网友:大师,我悟了

wptr33 2024-12-28 15:59 20 浏览

今日分享开始啦,请大家多多指教~

mysql索引结构:

mysql索引使用B+tree,为什么使用B+tree呢,首先,使用索引是为了加快查找的速度,B+tree的查找时间复杂度为log(n).那为什么不用o(1)的hashMap呢。mysql是有使用hashMap结构的hash索引的,但大部分情况下,我们使用的索引并不是hash索引,主要是hash索引这种结果在处理 !=, > ,< 这种范围查询时,需要全表扫描,时间复杂度为o(n)。

为什么不使用B tree? BTree和B+Tree的区别是,B+Tree的非叶子结点只保存索引,不保存数据,这样一个节点保存的数据更多,树的高度更低,在读取索引时,可以省IO(其实,这里降低树高度基本没啥用,因为往往我们的Tree的每个节点的度都很大,BTree和B+Tree高度基本差不多)。

另一个主要的作用是,由于数据节点都在叶子结点上,而每个叶子结点又使用双向链表链接,这样,在处理范围查询时,只需要查定一个下界,然后在叶子结点上遍历即可,且天然有序。

主键索引和二级索引

以Innodb为例:主键索引是和数据文件放在一块的,即数据文件在叶子结点上。对于主键索引,找到了主键索引,主键索引对应的value即为数据row。而非主键索引被称为二级索引的原因是,非主键索引的value存放的是主键的值,我们在使用非主键索引查找时,需要先根据索引找到主键,然后根据主键去找数据row。

根据主键再去找数据row的过程称为回表。因为对于这样的索引,不直接和数据关联,所以称为二级索引。对于二级索引,如果我们查找的列,已经全部在索引列里了,这时候就不需要回表了,这种索引成为覆盖(covered)索引。

主键索引也叫聚簇索引,二级索引也叫非聚簇索引。

explain索引优化

当我们想对一个sql语句进行优化时,可以用explain查看当前sql的执行计划。对于explain的输出,几个重要的如下。

Type:

  • const: 用主键匹配
  • eq_ref: 两个表join的时候,join的key是两个表的主键。这时候,对于前一个表的每一行,后一张表只需要扫描一行 One row is read from this table for each combination of rows from the previous tables. Other than the system and const types, this is the best possible join type. It is used when all parts of an index are used by the join and the index is a PRIMARY KEY or UNIQUE NOT NULL index.
  • ref: 通过非唯一索引扫描,通常不需要进行排序时,只要通过ref或者最左前缀匹配就可以了。
  • range: range can be used when a key column is compared to a constant using any of the =, <>, >, >=, <, <=, IS NULL, <=>, BETWEEN, LIKE, or IN() operators.
  • index: 使用索引,但比如在扫描之后 还需要order by. 这时候,需要扫描整个索引树。
  • all: 全表扫。
  • 通常情况下,我们优化的目标到ref就可以了。

extra:

  • use index: 仅需要使用索引,不需要回表。
  • use where: 通过where子句过滤,where子句过滤存储引擎返回的结果。
  • use filesort 需要使用排序。

建立索引和索引匹配的原则

对于联合索引,比如(row1,row2,row3)这种,mysql按照最左前缀匹配的时候,相当于给我们建了(row1),(row1,row2),(row1,row2,row3)三个索引。因此当有联合索引的时候,不再需要单独建立额外的单列索引。

数据查询时,where自己后面的顺序无所谓,mysql会自动帮你优化。

where 后面在使用or 查询的时候,大部分情况下不会走到索引。所以,对于这种查询,可以使用union来优化In many cases, MySQL won't be able to use an index to apply an OR condition, and as a result, this query is not index-able.Therefore, we recommend to avoid such OR conditions and consider splitting the query to two parts, combined with a UNION DISTINCT (or even better, UNION ALL, in case you know there won't be any duplicate results)

建索引时,范围字段放在联合索引的最后,因为按照最左前缀匹配原则,碰到范围字段就终止匹配了,后面的字段不会去匹配。

区分度大的字段在建索引时放在前面。 区分度公式:count(distinct col)/count(*),就是一个字段当选择了一个值时,要能过滤掉大部分字段。

mysql NULL

  • NULL is not data type
  • NULL is a value place holder for optional table fields.
  • MySQL treats the NULL value differently from other data types. The NULL values when used in a condition evaluates to the false Boolean value.
  • Performing arithmetic operations on NULL values always returns NULL results.
  • The comparison operators such as [, =, etc.] cannot be used to compare NULL values.
  • ‘+ - * / = != ’这些操作在作用于NULL时,永远返回NULL,在返回NULL做条件判断时返回false。
  • 对于NULL的判断,使用is NULL 和is not NULL来判断,使用= , !=,都不会得到你想要的结果。
  • 建表时,尽量所有字段都设置为非NULL,设为NULL时,mysql还需要额外使用字段来标记是否为NULL。

mysql架构

为了解并发问题,引入锁,mysql中锁分为读锁和写锁,即share lock和exclusive lock。顾名思义,share lock之间不互斥,share lock和exclusive lock之间互斥,exclusive lock之间互斥。mysql 提供行锁row lock和表锁 table lock的multiple granularity locking。

对于表锁,mysql提供一种意图锁的机制,意图锁也是分为两种,intention share lock和intention exclusive lock。对于intention lock

  • Before a transaction can acquire a shared lock on a row in a table, it must first acquire an IS lock or stronger on the table.
  • Before a transaction can acquire an exclusive lock on a row in a table, it must first acquire an IX lock on the table.
  • Intention locks do not block anything except full table requests (for example, LOCK TABLES ... WRITE). The main purpose of intention locks is to show that someone is locking a row, or going to lock a row in the table.
  • intention lock之间并不互斥,intention lock只是告诉你有人对表中的某些行在上锁。

mysql row lock是在存储引擎层实现的,不同的存储引擎可能有不同的实现方式。

事务

事务是指一批操作,要么全部成功,要么全部失败。

数据库事务的ACID特性

  • atomicity原子性:即一个事务已一个原子的操作执行,是一个不可分隔的最小单元,事务中的操作,要么全部执行成功,要么全部失败。
  • consistency 一致性:数据库总是从一个一致的状态转移到另一个一致的状态
  • isolation: 隔离性:一个事务中的修改,在什么时候对另一个事务可见
  • durability: 持久性: 提交的事务不会丢失

隔离级别

隔离级别是对不同的事务而言的。

  • read uncommitted:一个事务中未提交的修改也对另外的事务可见,在这里隔离级别下,会出现脏读,即事务1未提交的修改可能被别的事务可见。
  • read committed: 一个事务提交commit后的修改才对另一个事务可见。但是可能会出现不可重复读的问题,即在一个事务1中,连续select两次,得到的结果不同,因为在这中间,可能记录被别的事务修改了。
  • repeatable read:一个事务中,多次select的结果总是相同的,但可能出现幻读的情况,即虽然对于同一行的结果,始终是相同的,但可能别的事务在insert别的行,导致一个事务中间看到的记录是不同的。
  • serializable:事务串行执行。

怎么解决不可重复读问题?在一个事务开始时,对涉及到的row加上行锁即可以保证另一个事务无法修改这一行。但是这解不了幻读的问题,因为别的事务可能insert的是别的行。这时候,需要引入gap lock。不仅锁这一个row,还锁这个row的前后间隙。

具体怎么锁,根据查询条件是走唯一索引还是非唯一索引,是走等值匹配还是范围匹配有不同的gap lock lock的范围,但一个原则就是:保证你这个语句的查询范围内的数据不会被其他事务insert进去。

事务的两段锁:

在事务的执行过程中,随时可以进行锁定,但只有事务执行完毕commit或者rollBack的时候,才会释放锁。

MVCC 多版本并发控制

前面说锁分为读锁和写锁,这是一种悲观锁,MVCC是一种乐观锁,通过版本号控制,读副本的方式,来使得select读不用加锁,每次都读副本,同时保证读到的都是事务开始之前写入的数据。

因为大多数数据库操作都是读多写少的,通过MVCC,读操作不用加锁,减少了锁冲突的概率,提高吞吐。select和事务又有啥关系呢?对于mysql,默认是auto-commit模式,如果不显示地开启一个事务,每个查询都被当作一个事务来执行。

mvcc怎么实现的

  • 每条记录后面增加两个version,创建version和删除version。
  • 对于select语句,只筛选那些创建version小于等于事务version(保证查询到的记录在当前事务开始之前就已经存在了),且删除version在当前version之后的(保证记录在当前事务开始的时候,未被删除)。
  • insert 语句:插入新一行,创建version等于当前事务version。
  • update语句:新插入一行,创建version等于当前事务version,之前行的删除version设置为当前事务version。
  • delete语句: 当前行的删除version设置为当前事务version。

快照读和当前读

select语句读的是快照,通过读快照,在RR级别也不会有幻读,对于select for update这种当前读,通过next-key lock解决幻读问题。

今日份分享已结束,请大家多多包涵和指点!

相关推荐

Linux高性能服务器设计

C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...

独立游戏开发者常犯的十大错误

...

学C了一头雾水该咋办?

学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...

C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?

上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...

C语言实战小游戏:井字棋(三子棋)大战!文内含有源码

井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...

C++语言到底是不是C语言的超集之一

C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...

在C++中,如何避免出现Bug?

C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...

ESL-通过事件控制FreeSWITCH

通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...

物理老师教你学C++语言(中篇)

一、条件语句与实验判断...

C语言入门指南

当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...

C++选择结构,让程序自动进行决策

什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...

C++特性使用建议

1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...

C++程序员学习Zig指南(中篇)

1.复合数据类型结构体与方法的对比C++类:...

研一自学C++啃得动吗?

研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...

C++关键字介绍

下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...