MySQL索引详解,面试工作常遇知识点

哈根达斯
2024-07-31 / 0 评论 / 13 阅读 / 正在检测是否收录...

一、什么是索引

先说结论,mysql索引就是通过数据结构或存储结构(B+树),从而提高查找的效率,举个例子,MySQL索引就像书的目录。想象一下我们小学使用的新华字典,当你想在一本厚厚字典中查询某个字的相关内容时,如果没有目录,你可能需要从头到尾一页一页地翻,非常耗时。而有了目录,你只需查看目录,然后直接跳到相关的页面,速度快了很多,在这个例子中,mysql表的数据,就好比新华字典里的字,而索引则对应字典的目录

lz9utf8a.png

二、 索引有什么用

(1)提高查询效率

从新华字典的例子中,我们知道索引能显著加快数据的查找速度,当你在一个有数百万行数据的表中搜索某个特定值时,有了索引,MySQL可以快速定位到相关数据,而不需要扫描逐行扫描

(2)排序数据

有了索引可以帮助我们对某个数据按某个顺序排序,进一步提高查询效率,比如新华字典按拼音字母的顺序编排方式

(2)唯一性约束

可以创建唯一索引来确保某列的值是唯一的,这有助于保证数据的完整性和一致性。例如在用户登录账号通常应该是唯一的,可以在该列上创建唯一索引。

三、索引分类与使用

我们先新建一张数据表,在后面使用

CREATE TABLE `t_order` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `order_no` varchar(32) COLLATE utf8_bin DEFAULT NULL COMMENT '订单编号',
  `good_name` varchar(125) COLLATE utf8_bin DEFAULT NULL COMMENT '商品名称',
  `good_content` varchar(125) COLLATE utf8_bin DEFAULT NULL COMMENT '商品介绍',
  `user_id` int(11) DEFAULT NULL COMMENT '用户ID',
  `order_price` decimal(10,2) DEFAULT NULL COMMENT '订单金额',
  `status` tinyint(2) DEFAULT NULL COMMENT '订单状态:0待支付,1已支付,2已取消',
  `create_time` bigint(20) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin COMMENT='订单表';
1. 索引分类

根据索引列数和数据结构等进行分类,索引的分类大致如下

(1)按索引列个数分类
  • 单一(单列表)索引:基于单个列创建的索引。
  • 复合(联合)索引:基于多个列创建的索引。

使用技巧: 如果查询通常基于单个列进行,且该列的选择性较高(即该列不同值的数量较多),那么单一索引可能是更好的选择。

例如,在一个订单表中,如果经常根据订单号(order_no)来查询订单详情,为 order_no 列创建单一索引是合适的。

然而,如果查询经常涉及多个列的组合条件,那么复合索引可能更有优势。

比如,在一个员工表中,经常根据员工的部门(department)和职位(position)来查询员工信息,创建一个基于 department 和 position 的复合索引会更高效。

但需要注意的是,复合索引的列顺序很重要。通常,将选择性更高(不同值更多)的列放在前面(最左前缀原则)

另外,过多的索引会增加数据插入、更新和删除操作的开销,并且会占用更多的存储空间,基于这方面考虑更多考虑复合索引

在决定使用单一索引还是复合索引时,需要综合考虑查询模式、数据分布、表的更新频率等因素进行权衡和选择。

 创建索引

# 单一索引,默认为Btree,B+树结构
ALTER TABLE t_order ADD INDEX idx_order_no (order_no);

#复合索引,使用user_id和status建立联合索引
ALTER TABLE t_order ADD INDEX idx_user_id_status (user_id, status);
(2)按索引数据结构分类
  • B 树索引(B-Tree):包括 B+树索引,是 MySQL 中常见的索引结构,适用于范围查询和排序操作。
  • 哈希索引(Hash):通过哈希函数计算索引值的位置,适用于精确匹配查询,但不支持范围查询。

使用技巧:

hash索引对于精确匹配的查询效率比较高,可以快速定位数据,单hash索引不支持范围查询如大于、小于、介于,like 等范围索引查询操作,也不支持列索引排序,同时如果索引列重复值较多,会有hash冲突,同时它也不适用于频繁更新的列,需要重新计算hash维护成本低,例如t_order表中,可以考虑使用hash结构的索引

B-Tree结构索引支持范围查询,同时也支持排序操作,插入和删除索引相比于hash索引更具有优势,适合高并发场景,但相比于哈希索引,需要更多的存储空间来存储索引结构,对于精确匹配查询,速度可能略逊于哈希索引,比如t_order表中,我们需要对订单的创建时间create_time做排序,同时经常需要对时间范围内的订单做范围查询,因为create_time更适合B-Tree结构

 创建索引

# BTREE索引不指定'USING BTREE'时默认就是BTREE类型索引
ALTER TABLE `t_order` ADD INDEX `idx_create_time`(`create_time`) USING BTREE;

#Hash索引,创建order_no的hash索引
ALTER TABLE `t_order` ADD INDEX `idx_order_no`(`order_no`) USING HASH;
(3) 按索引作用分类
  • 主键索引(PRIMARY KEY):用于唯一标识表中的每一行数据,基于主键创建。
  • 唯一索引(UNIQUE):确保索引列的值是唯一的,但允许为 NULL 值。
  • 普通索引(INDEX):用于提高查询性能,对数据的唯一性没有严格要求。
  • 全文索引(FULLTEXT):主要用于文本列,可以对大量文本进行快速搜索。
  • 空间索引(SPATIAL):用于快速查询空间数据,如地理信息系统 (GIS) 和位置相关的查询
  • 前缀索引:建立前缀索引可以减少索引的大小和维护成本,同时在大多数情况下仍然能够满足常见的查询需求。例如,当查询条件中经常根据商品名称的前 10 个字符进行筛选时,该索引将发挥作用,提高查询效率。

创建索引

#创建主键索引,一般主键索引在建表时候就确定了
ALTER TABLE `t_order` ADD PRIMARY KEY (`id`);
#创建唯一索引
ALTER TABLE `t_order`ADD UNIQUE INDEX `idx_order_no`(`order_no`);
# 创建普通索引
ALTER TABLE `t_order`ADD UNIQUE INDEX `idx_user_id`(`user_id`);
# 全文索引(FULLTEXT),使用 MATCH AGAINST 操作符进行全文搜索
ALTER TABLE t_order ADD FULLTEXT INDEX `idx_good_content` (good_name, good_content);
# 全文索引查询
SELECT * FROM t_order  WHERE MATCH(good_name, good_content) AGAINST('格力');
# 前缀索引,使用like 查询如 '手机%'
ALTER TABLE t_order ADD INDEX idx_good_name (good_name(10));
(4)按存储方式分类
  • 聚簇索引:表数据和索引的叶子节点存储在一起。也就是说,通过聚簇索引可以直接获取到数据,聚簇索引通常基于主键创建,如果表没有定义主键,会选择一个不允许为 NULL 的唯一索引作为聚簇索引
  • 非聚簇索引:索引的叶子节点存储的是指向数据行的指针,非聚簇索引在范围查询时可能需要多次回表查询,性能相对较差

下图我们可以看出聚簇索引Id的叶子节点存储了表行的数据,而非聚簇索引name叶子节点存储的是指向聚簇索引行的记录指针

lz9uux6f.png

2. 索引创建原则

MySQL 索引创建的原则:

1.选择合适的列

通常选择经常用于查询、连接、排序和分组操作的列创建索引,对于很少使用或几乎不用于查询的列,避免创建索引,以免增加插入、更新和删除操作的开销。

2.索引列的选择性

优先为选择性高(不同值的数量较多)的列创建索引。例如,性别列只有两个可能的值(启用停用),选择性低,通常不太适合创建索引;而用户 ID 列通常具有较高的选择性。

3.避免过度索引

过多的索引会增加数据维护的成本,并可能降低写入性能。只创建真正必要的索引。

4.优先考虑联合索引

如果经常基于多个列的组合条件进行查询,考虑创建联合索引。但要注意列的顺序,将选择性高的列放在前面。

5.主键和唯一索引

为表定义主键,确保数据的唯一性和完整性,对于需要确保唯一性但又不是主键的列,可以创建唯一索引。

6.短索引

如果可能尽量使用较短的数据类型来创建索引,这可以减少索引存储空间和提高性能,对于较长内容的字段使用前缀索引

7.覆盖索引(名词2)

尽量创建能够覆盖查询的索引,即通过索引就可以获取到查询所需的全部数据,避免回表操作,提高查询效率。

8. 避免索引列NULL值

在 MySQL 中,允许为 NULL 的列创建索引,当索引列为 NULL 值可能会对索引的使用和性能产生一些影响:

  1. 索引的存储:NULL 值需要额外的空间来标识,这可能会增加索引的存储空间。
  2. 比较操作:在比较操作中,NULL 的处理方式与其他值不同。例如,WHERE column = NULL 通常不会返回任何结果,应该使用 WHERE column IS NULL 来判断是否为 NULL
  3. 索引的选择性:如果某一列中存在大量的 NULL 值,可能会降低索引的选择性,从而影响索引的效果。
  4. 复合索引:在复合索引中,如果某一列允许为 NULL,可能会导致一些复杂的情况,影响索引的使用效率。

四、索引失效场景

MySQL中的索引并不是在所有情况下都能有效工作,有时会失效,导致查询性能下降。了解这些情况有助于开发设计除更高效的查询和索引。以下是一些常见的索引失效情况:

1.条件使用函数或表达式

当在查询条件中使用了函数或表达式时,索引会失效。

# 使用date
SELECT * FROM t_order WHERE FROM_UNIXTIME(create_time, '%Y-%m-%d') = '2024-07-20';
2.使用LIKE以通配符开头

当使用LIKE查询时,如果通配符(%)出现在字符串的开头,索引会失效。

SELECT * FROM    t_order WHERE    good_name LIKE '%手机'
3.复合索引为遵循最左前缀原则

在多列索引中,如果查询条件不包括索引的最左边列,索引会失效。这称为“最左前缀”原则。

#假设我们订单表的复合多列索引有user_id和order_no
ALTER TABLE t_order ADD INDEX idx_user_order (user_id, order_no);

#以下查询,未遵循最左前缀原则,索引失效
SELECT * FROM t_order WHERE order_no='2024072822201'
4. 数据类型不匹配

查询条件中的数据类型与索引列的数据类型不匹配时,可能会导致索引失效。

# user_id为整型
SELECT * FROM t_order where user_id='3'
5. 使用OR条件

OR条件中的某些列没有索引时,索引会失效。

# order_price没有索引
SELECT * FROM t_order where user_id=300 OR order_price=100

五、SQL查询分析-EXPLAIN

当我们API接口或函数执行较慢的时候,我们可通过一些工具来定位是否是sql慢查询,索引是否命中等。常见的工具如ArthasSkywalking,或者开启mysql的慢查询日志,来分析哪些sql查询耗时较长。

EXPLAIN 是 MySQL 提供的一个命令,用于显示执行计划,让你了解 MySQL 是如何执行查询的。通过 EXPLAIN 输出的信息,可以分析和优化查询性能。以下是如何使用 EXPLAIN 以及解释其输出的基本方法。

lz9uvk8y.png

1. EXPLAIN结果字段说明
  1. id: 查询的序列号,标识查询中执行的顺序。复杂的查询可能会有多个步骤,每个步骤都有一个 id
  2. select_type: 查询的类型,表示查询中各个部分的类型。常见的有 SIMPLE(简单查询,不包含子查询或联合查询)、PRIMARY(主查询)、SUBQUERY(子查询)等。
  3. table: 正在访问的表。
  4. type: 表示连接类型或访问类型。常见的有:

    • ALL: 全表扫描,性能最差。
    • index: 全索引扫描,类似于全表扫描,但扫描的是索引。
    • range: 范围扫描,通常用于带有 BETWEEN 或范围条件的查询。
    • ref: 使用非唯一索引扫描。
    • eq_ref: 使用唯一索引扫描,通常用于主键或唯一键的查找。
    • const/system: 表示表只有一行匹配,性能最好。
  5. possible_keys: 查询中可能使用的索引。
  6. key: 实际使用的索引。如果没有使用索引,则显示 NULL
  7. key_len: 使用的索引的长度(字节数),越短越好。
  8. ref: 显示索引的哪一列被用于查找。
  9. rows: 估计要读取的行数。这个值是一个估计值,不是精确值。
  10. Extra: 额外的信息,提供更多关于查询执行的信息以及优化建议,常见的如下

    • Using index:查询只使用索引而不需要访问表数据。
    • Using where:使用 WHERE 子句过滤行。
    • Using temporary:查询需要使用临时表来存储中间结果。
    • Using filesort:MySQL 需要额外的排序操作,而不是按索引顺序读取行。
    • Using index condition:部分条件通过索引扫描完成。

通常我们根据结果的通过执行结果调整设计表的索引或sql查询语句,而我们则需要重点关注的字段主要为如下几个字段

  • key和key_len:检查是否命中了索引(索引本身存在是否有失效等情况)
  • type:查看sql是否有进一步的优化空间,是否存在全索引扫描或全盘扫描
  • extra建议:,判断是否出现了回表的情况,如果出现了,可以尝试添加索引或修改返回字段来修复

六、名词说明

1.回表查询

回表查询是指通过索引获取到的数据并不是最终需要的完整数据,还需要根据索引找到的主键值再次到主键索引中查找完整的行数据。

我们已t_order表为例,如果假设good_name为我们的一个普通索引

SELECT * FROM t_order WHERE good_name = '手机%';

首先,通过 good_name 索引可以快速定位到满足条件的记录的主键值。但由于索引中只包含 good_name 和主键值,而上述查询需要获取所有字段(*),所以此时就需要根据主键值再到主键索引中进行查询,获取完整的行数据,这个过程就是回表查询。

回表查询会增加数据库的 I/O 操作,可能会影响查询性能。在某些情况下,可以通过创建覆盖索引来避免回表查询,提高查询效率。

2.覆盖索引

覆盖索引(Covering Index)是指一个索引包含了查询中需要的所有列的数据,这样在查询时无需回表查询获取完整的行数据,直接从索引中就能获取到所有需要的信息,从而提高查询性能。

我们还以为上面的例子为例子,sql如下

SELECT id, good_name FROM t_student WHERE good_name = '手机%';

如果在 good_name 列上创建了索引,并且索引中同时包含了 id 、 good_name 两列的数据,那么这个索引就是覆盖索引。

覆盖索引的优点在于:

  1. 减少磁盘 I/O 操作:无需回表查询,降低了磁盘的读取次数,提高了查询效率。
  2. 提高并发性能:减少了锁的竞争,因为不需要对表数据进行锁定来获取完整的行数据。

例如,在一个电商系统中,对于订单表经常根据订单状态和下单时间进行查询并获取订单号和金额,那么可以在订单状态和下单时间列上创建一个包含订单号和金额的联合索引,以形成覆盖索引,加快查询速度

同时我们也可以通过覆盖索引实现超大表的分页查询,优化查询效率

SELECT * FROM 
tb_order t ,
(SELECT id FROM t_order order by id limit 9000000,0) t1
where t.id=t1.id
0

评论 (0)

取消