前段时间往MySQL中存入emoji表情或生僻字、繁体字时,报错无法添加,研究后发现这是字符集编码的问题,今天就来分析一下各个字符集与排序规则

一、字符集

先说字符,字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、字母、数字等,比如“啊、a、1、+、!、&”等均表示一个字符。在UTF8编码中,一个字母、数字、符号占一个字节,中文占三个字节,emoji表情和一些比较复杂的文字、繁体字则占四个字节。其中一个字节由8个位组成,位为数据存储的最小单位,每个二进制数字0或者1就是1个位。

换算公式:1byte(字节) = 8bit(位),1KB(千字节) = 1024byte(字节),1MB(兆) = 1024KB(千字节)。

字符集是一套符号和编码,是多个字符的集合。常见的字符集有UTF8、Unicode、GBK、GB2312、ASCCI。在MySQL中常用的字符集有UTF8和UTF8MB4这两种,一般而言我们选择UTF8MB4,而不选择UTF8,因为MySQL中的UTF8并不是真正的UTF8字符集,它只支持三个字节,emoji表情和复杂的文字无法存储,并不能代表全部的UTF8,在5.5.3版本后新增的支持四个字节的UTF8MB4才是真正的UTF8编码,为了更好的兼容性,推荐使用UTF8MB4字符集。

此外,对于CHAR类型数据,UTF8MB4会多消耗一些空间,比如CHAR(100),UTF8会保留300字节长度,UTF8MB4会保留400字节长度,根据MySQL官方建议,使用VARCHAR替代CHAR。同时UTF8MB4也是UTF8的超集,所以UTF8可以直接切换至UTF8MB4。

二、排序规则

排序规则,就是指字符比较时按照字符编码还是直接用二进制数据比较,以及是否区分大小写。UTF8MB4常用的排序规则有utf8mb4_unicode_ci、utf8mb4_general_ci、utf8mb4_bin。

其中,以bin结尾的是以二进制存储的,区分大小写,以cs结尾的是区分大小写的,以ci结尾的不区分大小写。

utf8mb4_unicode_ci是基于标准Unicode来排序和比较,能够在各种语言之间精确排序。且在特殊情况下,Unicode排序规则为了能够处理特殊字符的情况,实现了略微复杂的排序算法。但是在绝大多数情况下不会发生此类复杂比较。

utf8mb4_general_ci没有实现Unicode排序规则,在遇到某些特殊字符情况下,排序结果可能不一致。但是,在绝大多数情况下,这些特殊字符的顺序并不需要那么精确。

utf8mb4_bin将字符串的每个字符用二进制数据编译存储,区分大小写,而且可以存二进制的内容。

综合来说,utf8mb4_unicode_ci比较准确,utf8mb4_general_ci速度较快。utf8mb4_unicode_ci对于特殊字符的处理,在中文、英文应用中不会使用到,除非你的应用有德语、法语、俄语等,则需要使用utf8mb4_unicode_ci,否则一般选用utf8mb4_general_ci就可以了。

最新文章

  1. .NET平台开源项目速览(1)SharpConfig配置文件读写组件
  2. jquery easyui datagrid翻页后再查询始终从第一页开始
  3. overflow:hidden清楚浮动的影响
  4. CF# 334 Moodular Arithmetic
  5. BLOCK的应用
  6. 【C#】第1章 VS2015中C#6的新特性
  7. move 和 CopyMemory的区别
  8. [LeetCode]题解(python):046-Permutations
  9. WWF3事件类型活动<第三篇>
  10. 【转】linux /usr/bin/ld cannot find 解决
  11. skip-grant-tables
  12. web端及时通讯原理
  13. JspSmart文件上传与下载
  14. Android应用开发基础篇(10)-----Menu(菜单)
  15. SpringMVC上传压缩文件,解压文件,并检测上传文件中是否有index.html
  16. BZOJ2565: 最长双回文串(回文树)
  17. Numpy库的下载及安装(吐血总结)
  18. bzoj千题计划251:bzoj3672: [Noi2014]购票
  19. UVA-10037 Bridge---过河问题进阶版(贪心)
  20. Effective C++ ——设计与声明

热门文章

  1. 干货 MySQL常见的面试题 + 索引原理分析
  2. abp(net core)+easyui+efcore实现仓储管理系统——出库管理之六(五十五)
  3. 通过shodan搜索相同favicon.ico的网站
  4. tp5 日志的用途以及简单使用
  5. 【深度分析】:阿里,腾讯面试题 SpringBoot整合Spring MVC
  6. 如何能够将MathType工具栏放大?
  7. 微课制作软件Camtasia中如何添加并编辑字幕?
  8. Vue最简单的实现网页Live2D看板娘
  9. 日常踩坑-------新手使用idea
  10. 精尽MyBatis源码分析 - Spring-Boot-Starter 源码分析