MySQL 支持 emoji 图标存储
Lee6144
8年前
<p>在 MySLQ 中 UPDATA 和 INSERT 数据的时候,如果数据上面带有 emoji 图标,例如: ? 、 ? 、 ? 很容易更新活着插入不成功,导致报错。</p> <pre> <code class="language-sql">Error: ER_TRUNCATED_WRONG_VALUE_FOR_FIELD: Incorrect string value: '\xF0\x9F\x91\xBD\xF0\x9F...' for column 'name' at row</code></pre> <p>都快崩溃了,但是还好终于解决了这种鬼问题。资料显示原因是,MYSQL 5.5 之前, UTF8 编码只支持1-3个字节,只支持 <a href="/misc/goto?guid=4959714906443864599" rel="nofollow,noindex">BMP</a> 这部分的unicode编码区,而 emoji 图标恰好是4个字节的编码进行存储。从MYSQL5.5开始,可支持4个字节UTF编码 utf8mb4 ,一个字符最多能有4字节,所以能支持更多的字符集。所以要解决问题,必需把数据库表字符编码全部改成 utf8mb4 。</p> <h3><strong>常用字符集</strong></h3> <ul> <li> <p>ASCII:美国信息互换标准编码;英语和其他西欧语言;单字节编码,7位表示一个字符,共128字符。</p> </li> <li> <p>GBK:双字节,汉字内码扩展规范;中日韩汉字、英文、数字;双字节编码;共收录了21003个汉字,GB2312的扩展。</p> </li> <li> <p>UTF-8:Unicode标准的可变长度字符编码;Unicode标准(统一码),业界统一标准,包括世界上数十种文字的系统;</p> </li> <li> <p>UTF-8:使用一至三个字节为每个字符编码。</p> </li> <li> <p>utf8mb4:存储四个字节,应用场景用于存储 emoji 表情,因为可以 emoji 表情四个字节。</p> </li> <li> <p>utf8mb4:MySQL版本 > 5.5.3 。</p> </li> <li> <p>其他常见字符集: UTF-32 , UTF-16 , Big5 , latin1</p> </li> <li> <p>数据库中的字符集包含两层含义</p> <ul> <li> <p>各种文字和符号的集合,包括各国家文字、标点符号、图形符号、数字等。</p> </li> <li> <p>字符的编码方式,即二进制数据与字符的映射规则。</p> </li> </ul> </li> </ul> <h3><strong>系统环境</strong></h3> <ul> <li> <p>MySQL 5.7.14</p> </li> <li> <p>Mac OSX 10.11.6</p> </li> </ul> <h3><strong>首先备份</strong></h3> <p>升级数据之前备份您服务器上的所有数据,保持良好习惯,安全第一!</p> <h3><strong>升级您的MySQL</strong></h3> <p>新的数据库可以在这里下载 <a href="/misc/goto?guid=4959714906537468188" rel="nofollow,noindex">Upgrade the MySQL server to v5.5.3+</a> 。</p> <h3><strong>修改您的数据库、表、字段</strong></h3> <pre> <code class="language-sql"># 对每一个数据库: ALTER DATABASE 这里数据库名字 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci; # 对每一个表: ALTER TABLE 这里是表名字 CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; # 对每一个字段: ALTER TABLE 这里是表名字 CHANGE 字段名字 重复字段名字 VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; # 上面一句或者使用modify来更改 ALTER TABLE 这里是表名字 modify 字段名字 VARCHAR(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci DEFAULT '';</code></pre> <p>utf8mb4完全向后兼容utf8,无乱码或其他数据丢失的形式出现。理论上是可以放心修改,如果您不放心修改,您可以拿备份恢复数据,然后让程序员处理这种兼容 emoji 存储问题,存的时候过滤一遍转成 base64 ,然后取的时候转回来?... 还是修改数据库比较方便。</p> <h3><strong>检查你的字段和索引</strong></h3> <p>不要将所有的都设置成 utf8mb4 ,这个冒得必要。我只在我某些字段类型为 VARCHAR 的时候才设置成 utf8mb4 。</p> <h3><strong>修改MySQL配置文件</strong></h3> <p>这个地方最坑,我在我Mac osx 系统上找不到 /etc/my.cnf 它根本不存在,所以我们需要创建这样一个文件并修改它。</p> <pre> <code class="language-sql"># 进入这个目录, # 在这个目录下面有个后缀为`.cnf`的文件 cd /usr/local/mysql/support-files/ # 将这个文件复制到`etc`目录中并将名字命名为`my.cnf` sudo cp my-default.cnf /etc/my.cnf # 然后编辑`my.cnf`文件,将下面内容复制到里面。 sudo vim /etc/my.cnf</code></pre> <p><a href="/misc/goto?guid=4959714906621476430" rel="nofollow,noindex">MySQL configuration file (/etc/my.cnf):</a></p> <pre> <code class="language-sql">[client] default-character-set = utf8mb4 [mysql] default-character-set = utf8mb4 [mysqld] character-set-client-handshake = FALSE character-set-server = utf8mb4 collation-server = utf8mb4_unicode_ci</code></pre> <h3><strong>重启MySQL</strong></h3> <p>重启步骤很重要,不然没有任何效果。</p> <pre> <code class="language-sql">/usr/local/mysql/support-files/mysql.server start /usr/local/mysql/support-files/mysql.server stop /usr/local/mysql/support-files/mysql.server restart </code></pre> <p><strong>系统中可以以这种形式重启、停止或启动</strong></p> <pre> <code class="language-sql">service mysqld stop service mysqld start service mysqld restart</code></pre> <h3><strong>查看是否设置成功</strong></h3> <p>通过下面命令查询是否设置成功!</p> <pre> <code class="language-sql"># 登陆MySQL进行查询 mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%'; # 运行上面代码显示下面结果 # +--------------------------+--------------------+ # | Variable_name | Value | # +--------------------------+--------------------+ # | character_set_client | utf8mb4 | # | character_set_connection | utf8mb4 | # | character_set_database | utf8mb4 | # | character_set_filesystem | binary | # | character_set_results | utf8mb4 | # | character_set_server | utf8mb4 | # | character_set_system | utf8 | # | collation_connection | utf8mb4_unicode_ci | # | collation_database | utf8mb4_unicode_ci | # | collation_server | utf8mb4_unicode_ci | # +--------------------------+--------------------+ # 查看表的情况 mysql> SHOW FULL COLUMNS FROM users_profile;</code></pre> <p>到这一步表示你成功了!恭喜你!~</p> <h3><strong>修复和优化表</strong></h3> <p>我跑到这一步其实没有任何必要修复和优化表,为了保险起见,我还是运行了这两条命令,虽然不知道它有什么卵用,放在这里做个笔记吧。</p> <pre> <code class="language-sql">REPAIR TABLE 表名字; OPTIMIZE TABLE 表名字;</code></pre> <h3>参考资料</h3> <ul> <li> <p><a href="/misc/goto?guid=4959714906702094657" rel="nofollow,noindex">How to support full Unicode in MySQL databases</a></p> </li> <li> <p><a href="/misc/goto?guid=4959714906787659462" rel="nofollow,noindex">my.cnf file does not exist on Mac OSX</a></p> </li> </ul> <p> </p> <p>来自:https://segmentfault.com/a/1190000006851140</p> <p> </p>