utf8mb4的utf8mb4_0900_ai_ci如何理解?mysql新建库如何选择字符集?

MySQL字符集详解_永远是少年啊的博客-CSDN博客_mysql 字符集今天继续给大家介绍MySQL相关知识,本文主要内容是MySQL字符集。一、MySQL字符集简介二、查看和设置MySQL字符集(一)查看当前字符集设置(二)更改默认字符集(三)在创建表时指定字符集三、更改MySQL字符集https://blog.csdn.net/weixin_40228200/article/details/122140283mysql字符集查看与设置_Hehuyi_In的博客-CSDN博客_mysql查看字符集的设置是一、查看 MySQL 数据库服务器和数据库字符集mysql> show variables like '%char%';+--------------------------+-------------------------------------+------| Variable_name | Value ...https://blog.csdn.net/Hehuyi_In/article/details/96326737mysql设置了utf8mb4,为什么还有utf8mb4_general_ci和utf8mb4_0900_ai_ci?https://www.cnblogs.com/seasonhu/p/14994857.htmlMySQL Workbench使用图文教程 - 简书MySQL Workbench是下一代的可视化数据库设计、管理的工具。之前已经记录了其安装得过程:window7安装Windows MySQL Workbench图文教程:h...https://www.jianshu.com/p/c3dcd4d9ce69

如何根据业务选择字符集,见第一篇。

如何修改字符集,见第一、二篇。

新建库经常选utf8mb4_0900_ai_ci或utf8mb4_bin,如何理解utf8mb4_0900_ai_ci?这一点本文重点参考第三篇文章( https://www.cnblogs.com/seasonhu/p/14994857.html)。

Q:

使用mysql可能会遇到collation不兼容的问题,一个是 utf8mb4_0900_ai_ci,另一个是utf8mb4_general_ci。

创建数据库时也有字符集选择的困惑。

A:

使用老版本mysql,可能会用utf8(utf8mb3)比较多,但mysql语境下的utf8与其他语境中提到的utf-8有些差别,即它最大只支持三个字节,只能存储编码值从0x000到0xFFFF之间的字符。

如果要存储表情文字,比如✈️♥️这类,按照UTF-8规则,则需要四个字节,那么mysql中就需要用utf8mb4这个字符集来支持。

想理解collation如何选择,还需要去了解字符集的相关知识,不能仅仅知道有什么字符集,字符集名字怎么拼。

众多周知,Unicode字符集是全世界各国字符的合集,在一个字符集中为这些字符定义了编码。

而跨语言跨平台使用最广泛的是UTF-8。他们之间的关系是什么呢?

Unicode仅仅是定义了编码。如何存储和传输,其实际方案则是UTF-8(Unicode Transformation Format-8)、UTF-16等变换格式。

UTF-8使用比较普遍,因为它是变长编码,如果只传输ASCII字符,则每个字符只需要一个字节。因此,如果数据中包含大量的ASCII字符,那么UTF-8在存储中可以节省下很多空间。

在这之上,还有一个要明确的问题是字符间的关系如何定义,比如字符的等价规则、字符的先后规则。等价规则,是说哪些字符,我们认为是查询时不需要区分的,如a和A,e和ē、é、ě、è。比较规则,字面意思,很好理解,即大小、先后。关于中文的排序,如果选定collation为utf8mb4,中文里的“啊”、“德”、“副”就不会按"啊德副"这个顺序排序,而是会排成“副”、“啊”、“德”。如果希望中文字符能按照拼音来排序,可以使用gb18030_chinese_ci作为collation【要补充的是,collation依赖于字符集(character set),所以把gb18030_chinese_ci作为collation,就要求字符集是gb18030,而不能是utf8mb4】。

了解以上信息后,再来看utf8mb4_0900_ai_ci和utf8mb4_general_ci。

utf8mb4_general_ci是老版本mysql提供的collation,utf8mb4_0900_ai_ci则是新版本(MySQL 8.0以后)中的。

0900表示utf8基于的unicode规范为9.0版本。unicode的版本是不断更新而非一成不变的,9.0版本发布于2016年6月,mysql对此的支持总是滞后数年。

ai表示accent insensitivity,也就是“不区分音调”,而ci表示case insensitivity,也就是“不区分大小写”。

这么看来,utf8mb4_0900_ai_ci的命名要更加规范和准确,而utf8mb4_general_ci则有话说太满的感觉,所以老版本中存在utf8mb4_general_ci,在新版本中则统一更新规范成utf8mb4_0900_ai_ci。

如果以前建的各种数据表的collation是utf8mb4_general_ci,新业务建的表是utf8mb4_0900_ai_ci,恰好遇到包含字符串相等或者大小比较的联表查询语句,关联的表使用了不同的collation,MySQL就无法决策到底应当使用哪个,就会报错。既然如此,用alter table table_name collate utf8mb4_0900_ai_ci显式统一所有表的collation,问题就解决了。

把character set和collation分开的好处是什么。如果把字符看作个人,character set就相当给每个字符发张身份证,而collation相当于告诉大家,排队的时候谁在前谁在后。collation有多套,就相当于可以灵活按身高、体重、年龄、出身地等等因素来排序,却完全不会受到身份证号的干扰。

猜你喜欢

转载自blog.csdn.net/starfire_hit/article/details/129133001
今日推荐