IDEA 中文乱码

2022-06-27 | 阅读：次

乱码的原因：操作系统、输入流、输出流、输出承载展示工具这几方有其中一项或多项的编码与其他不一样，从而导致了对于同一个字符用了不同编码来解析导致的。

一般来说，只要：输入编码、输出编码是一样的，那么就不会产生乱码。

周末遇到了 IDEA 输出中文乱码的问题，以前也遇到过…但是都属于零散记录在有道中，依然是弄了一大晚上。趁此机会将这些小知识点整理记录一下，理解一些“乱码”的原因。

local(系统区域设置)、字体、LANG(系统语言) 的区别

locale 指的的是当前操作系统的语言环境，如：你当前系统是用中文、英文、还是泰文，但要注意这仅仅是你当前系统本身的语言环境，跟你通过浏览器上网能否正常浏览中文、英语、法语这些没有直接关系。在 Linux 下，所有支持的语言环境配置都放在 /usr/share/i18n/locales 目录下

fonts 指的是字体。假如我当前将系统语言设置为英语的语言环境，那我浏览一个中文网站是不是就不能浏览或者是乱码了呢？这显然是不合理也不利于网络传播的。

具体的过程如下：网页内容通过网络传输到我们的电脑上以后，浏览器自身会根据网页中设定的字符集编码（若没有设定，则浏览器自身进行相应判断），根据网页采用的字符集，在用户计算机本地操作系统的字体库中寻找合适的字体，然后通过文字渲染工具把相应的文字在屏幕上显示出来。

因此，虽然我们指定了系统的语言环境，但是我们可以发现操作系统本身依然会安装很多字体文件（Windows 系统在 C:\Windows\Fonts 文件夹下；Linux 系统在 /usr/share/fonts 文件下）。一般常见的字体文件格式有 *.ttf - TrueTypes字体文件， *.ttc - TrueTypesCollection字体文件（ttc文件实际是 Microsoft 开发出来的一种新字体格式标准，其实就是多个ttf文件的合集，共享同一笔划信息，可以有效地节省了字体文件所占空间，增加了共享性）。

上面还提到了一个字符集编码的概念。在 Linux 下，所有的字符集编码方式都放在 /usr/share/i18n/charmaps 目录下

==总结：locale 决定了你看到的系统习惯以及能输入什么语言；而字体是将对应语言渲染出来的载体==

# Windows 下通过 powershell 获取语言环境
Get-Host

Get-UICulture

Windwos Get Locale With Command

# Windows 获取(设置)编码字符集：https://docs.microsoft.com/en-us/windows-server/administration/windows-commands/chcp
chcp

Code page	Country/region or language
936	中国 - 简体中文(GB2312)
949	韩文
950	繁体中文(Big5)
1200	Unicode
1201	Unicode (Big-Endian)
52936	简体中文(HZ)
65000	Unicode (UTF-7)
65001	Unicode (UTF-8)

Windows chcp

$ locale

LANG=zh_CN.UTF-8 # 语言
LC_CTYPE="zh_CN.UTF-8" # 语言符号及其分类
LC_NUMERIC="zh_CN.UTF-8" # 数字
LC_TIME="zh_CN.UTF-8" # 时间
LC_COLLATE="zh_CN.UTF-8" # 比较和排序习惯
LC_MONETARY="zh_CN.UTF-8" # 货币单位
LC_MESSAGES="zh_CN.UTF-8" # 提示信息及菜单信息等
LC_PAPER="zh_CN.UTF-8" # 默认纸张尺寸大小信息
LC_NAME="zh_CN.UTF-8" # 姓名书写方式
LC_ADDRESS="zh_CN.UTF-8" # 地址书写方式
LC_TELEPHONE="zh_CN.UTF-8" # 电话号码
LC_MEASUREMENT="zh_CN.UTF-8" # 度量衡表达方式
LC_IDENTIFICATION="zh_CN.UTF-8" # 对locale自身包含信息的概述
LC_ALL=

# 优先级：LC_ALL > LC_* > LANG