You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

156 lines
12 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 06丨数据库原理为什么PrepareStatement性能更好更安全
做应用开发的同学常常觉得数据库由DBA运维自己会写SQL就可以了数据库原理不需要学习。其实即使是写SQL也需要了解数据库原理比如我们都知道SQL的查询条件尽量包含索引字段但是为什么呢这样做有什么好处呢你也许会说使用索引进行查询速度快但是为什么速度快呢
此外我们在Java程序中访问数据库的时候有两种提交SQL语句的方式一种是通过Statement直接提交SQL另一种是先通过PrepareStatement预编译SQL然后设置可变参数再提交执行。
Statement直接提交的方式如下
```
statement.executeUpdate("UPDATE Users SET stateus = 2 WHERE userID=233");
```
PrepareStatement预编译的方式如下
```
PreparedStatement updateUser = con.prepareStatement("UPDATE Users SET stateus = ? WHERE userID = ?");
updateUser.setInt(1, 2);
updateUser.setInt(2,233);
updateUser.executeUpdate();
```
看代码似乎第一种方式更加简单但是编程实践中主要用第二种。使用MyBatis等ORM框架时这些框架内部也是用第二种方式提交SQL。那为什么要舍简单而求复杂呢
要回答上面这些问题,都需要了解数据库的原理,包括数据库的架构原理与数据库文件的存储原理。
## 数据库架构与SQL执行过程
我们先看看数据库架构原理与SQL执行过程。
关系数据库系统RDBMS有很多种但是这些关系数据库的架构基本上差不多包括支持SQL语法的Hadoop大数据仓库也基本上都是相似的架构。一个SQL提交到数据库经过连接器将SQL语句交给语法分析器生成一个抽象语法树ASTAST经过语义分析与优化器进行语义优化使计算过程和需要获取的中间数据尽可能少然后得到数据库执行计划执行计划提交给具体的执行引擎进行计算将结果通过连接器再返回给应用程序。
![](https://static001.geekbang.org/resource/image/fa/17/faec977f77e80f6d116e40735cf21e17.png)
应用程序提交SQL到数据库执行首先需要建立与数据库的连接数据库**连接器**会为每个连接请求分配一块专用的内存空间用于会话上下文管理。建立连接对数据库而言相对比较重需要花费一定的时间因此应用程序启动的时候通常会初始化建立一些数据库连接放在连接池里这样当处理外部请求执行SQL操作的时候就不需要花费时间建立连接了。
这些连接一旦建立不管是否有SQL执行都会消耗一定的数据库内存资源所以对于一个大规模互联网应用集群来说如果启动了很多应用程序实例这些程序每个都会和数据库建立若干个连接即使不提交SQL到数据库执行也就会对数据库产生很大的压力。
所以应用程序需要对数据库连接进行管理,一方面通过连接池对连接进行管理,空闲连接会被及时释放;另一方面微服务架构可以大大减少数据库连接,比如对于用户数据库来说,所有应用都需要连接到用户数据库,而如果划分一个用户微服务并独立部署一个比较小的集群,那么就只有这几个用户微服务实例需要连接用户数据库,需要建立的连接数量大大减少。
连接器收到SQL以后会将SQL交给**语法分析器**进行处理语法分析器工作比较简单机械就是根据SQL语法规则生成对应的抽象语法树。
如果SQL语句中存在语法错误那么在生成语法树的时候就会报错比如下面这个例子中SQL语句里的where拼写错误MySQL就会报错。
```
mysql> explain select * from users whee id = 1;
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'id = 1' at line 1
```
因为语法错误是在构建抽象语法树的时候发现的所以能够知道错误是发生在哪里。上面例子中虽然语法分析器不能知道whee是一个语法拼写错误因为这个whee可能是表名users的别名但是语法分析器在构建语法树到了`id=1`这里的时候就出错了,所以返回的报错信息可以提示,在`'id = 1'`附近有语法错误。
语法分析器生成的抽象语法树并不仅仅可以用来做语法校验它也是下一步处理的基础。语义分析与优化器会对抽象语法树进一步做语义优化也就是在保证SQL语义不变的前提下进行语义等价转换使最后的计算量和中间过程数据量尽可能小。
比如对于这样一个SQL语句其语义是表示从users表中取出每一个id和order表当前记录比较是否相等。
```
select f.id from orders f where f.user_id = (select id from users);
```
事实上这个SQL语句在语义上等价于下面这条SQL语句表间计算关系更加清晰。
```
select f.id from orders f join users u on f.user_id = u.id;
```
SQL语义分析与优化器就是要将各种复杂嵌套的SQL进行语义等价转化得到有限几种关系代数计算结构并利用索引等信息进一步进行优化。可以说各个数据库最黑科技的部分就是在优化这里了。
语义分析与优化器最后会输出一个执行计划由执行引擎完成数据查询或者更新。MySQL执行计划的例子如下
![](https://static001.geekbang.org/resource/image/f8/55/f8dd0ab58f327832485bb412b2ca1b55.png)
执行引擎是可替换的只要能够执行这个执行计划就可以了。所以MySQL有多种执行引擎也叫存储引擎可以选择缺省的是InnoDB此外还有MyISAM、Memory等我们可以在创建表的时候指定存储引擎。大数据仓库Hive也是这样的架构Hive输出的执行计划可以在Hadoop上执行。
## 使用PrepareStatement执行SQL的好处
好了了解了数据库架构与SQL执行过程之后让我们回到开头的问题应用程序为什么应该使用PrepareStatement执行SQL
这样做主要有两个好处。
一个是PrepareStatement会预先提交带占位符的SQL到数据库进行预处理提前生成执行计划当给定占位符参数真正执行SQL的时候执行引擎可以直接执行效率更好一点。
另一个好处则更为重要PrepareStatement可以防止SQL注入攻击。假设我们允许用户通过App输入一个名字到数据中心查找用户信息如果用户输入的字符串是Frank那么生成的SQL是这样的
```
select * from users where username = 'Frank';
```
但是如果用户输入的是这样一个字符串:
```
Frank';drop table users;--
```
那么生成的SQL就是这样的
```
select * from users where username = 'Frank';drop table users;--';
```
这条SQL提交到数据库以后会被当做两条SQL执行一条是正常的select查询SQL一条是删除users表的SQL。黑客提交一个请求然后users表被删除了系统崩溃了这就是SQL注入攻击。
如果用Statement提交SQL就会出现这种情况。
但如果用PrepareStatement则可以避免SQL被注入攻击。因为一开始构造PrepareStatement的时候就已经提交了查询SQL并被数据库预先生成好了执行计划后面黑客不管提交什么样的字符串都只能交给这个执行计划去执行不可能再生成一个新的SQL了也就不会被攻击了。
```
select * from users where username = ?;
```
## 数据库文件存储原理
回到文章开头提出的另一个问题,数据库通过索引进行查询能加快查询速度,那么,为什么索引能加快查询速度呢?
数据库索引使用B+树我们先看下B+树这种数据结构。B+树是一种N叉排序树树的每个节点包含N个数据这些数据按顺序排好两个数据之间是一个指向子节点的指针而子节点的数据则在这两个数据大小之间。
如下图。
![](https://static001.geekbang.org/resource/image/f4/56/f45e421a8e5172b9bc9fd1709fc98456.png)
B+树的节点存储在磁盘上每个节点存储1000多个数据这样树的深度最多只要4层就可存储数亿的数据。如果将树的根节点缓存在内存中则最多只需要三次磁盘访问就可以检索到需要的索引数据。
B+树只是加快了索引的检索速度,如何通过索引加快数据库记录的查询速度呢?
数据库索引有两种一种是聚簇索引聚簇索引的数据库记录和索引存储在一起上面这张图就是聚簇索引的示意图在叶子节点索引1和记录行r1存储在一起查找到索引就是查找到数据库记录。像MySQL数据库的主键就是聚簇索引主键ID和所在的记录行存储在一起。MySQL的数据库文件实际上是以主键作为中间节点行记录作为叶子节点的一颗B+树。
另一种数据库索引是非聚簇索引,非聚簇索引在叶子节点记录的就不是数据行记录,而是聚簇索引,也就是主键,如下图。
![](https://static001.geekbang.org/resource/image/58/51/580f1aa37880751f81e89d4a53ae3f51.png)
通过B+树在叶子节点找到非聚簇索引a和索引a在一起存储的是主键1再根据主键1通过主键聚簇索引就可以找到对应的记录r1这种通过非聚簇索引找到主键索引再通过主键索引找到行记录的过程也被称作回表。
所以通过索引,可以快速查询到需要的记录,而如果要查询的字段上没有建索引,就只能扫描整张表了,查询速度就会慢很多。
数据库除了索引的B+树文件,还有一些比较重要的文件,比如事务日志文件。
数据库可以支持事务,一个事务对多条记录进行更新,要么全部更新,要么全部不更新,不能部分更新,否则像转账这样的操作就会出现严重的数据不一致,可能会造成巨大的经济损失。数据库实现事务主要就是依靠事务日志文件。
在进行事务操作时,事务日志文件会记录更新前的数据记录,然后再更新数据库中的记录,如果全部记录都更新成功,那么事务正常结束,如果过程中某条记录更新失败,那么整个事务全部回滚,已经更新的记录根据事务日志中记录的数据进行恢复,这样全部数据都恢复到事务提交前的状态,仍然保持数据一致性。
此外像MySQL数据库还有binlog日志文件记录全部的数据更新操作记录这样只要有了binlog就可以完整复现数据库的历史变更还可以实现数据库的主从复制构建高性能、高可用的数据库系统我将会在架构模块进一步为你讲述。
## 小结
做应用开发需要了解RDBMS的架构原理但是关系数据库系统非常庞大复杂对于一般的应用开发者而言全面掌握关系数据库的各种实现细节代价高昂也没有必要。我们只需要掌握数据库的架构原理与执行过程数据库文件的存储原理与索引的实现方式以及数据库事务与数据库复制的基本原理就可以了。然后在开发工作中针对各种数据库问题去思考其背后的原理是什么应该如何处理。通过这样不断地思考学习不但能够让使用数据库方面的能力不断提高也能对数据库软件的设计理念也会有更深刻的认识自己软件设计与架构的能力也会得到加强。
## 思考题
索引可以提高数据库的查询性能,那么是不是应该尽量多的使用索引呢?如果不是,为什么?你还了解哪些改善数据库访问性能的技巧方法?
欢迎你在评论区写下你的思考,也欢迎把这篇文章分享给你的朋友或者同事,一起交流进步。