从Java String实例来理解ANSI、Unicode、BMP、UTF等编码概念 - 有梦想的咸鱼(4)_H5之家

　　再具体一点的话，源文件中“中国”二字的UTF-8编码是 e4 b8 ad e5 9b bd，编译器以GBK方式解码，3个字节对分别查cp936得到3个Unicode值，分别是6d93 e15e 6d57，对应结果图中的三个奇怪字符。如下图所示，编译后这3个Unicode在.class文件中实际以类UTF-8编码存储，运行的时候，JVM中存储的就是Unicode，然而最终输出时，还是会编码之后传递给终端，这次约定的编码就是系统区域设置的编码，所以如果终端编码设置改了，还是会乱码。我们这里的e15e在Unicode标准中并没有定义相应的字符，所以在不同平台不同字体下显示会有所不同。

　　可以想象，如果反过来，源文件以GBK编码存储，然后骗编译器说是UTF-8，那基本上是无论输入多少个中文字符都无法编译通过了，因为UTF-8的编码很有规律性，随意组合的字节是不会符合UTF-8编码规则的。

　　当然，要使编译器能正确的把编码转换到Unicode，最直接的方法还是老老实实告诉编译器源文件的编码是什么。

四、总结

　　经过这次收集整理和实验，了解了很多与编码相关的概念，也熟悉了编码转换的具体过程，这些思想可以推广到各种编程语言去，实现原理都类似，所以我想以后再遇到这类问题，应该不会再不知所以然了。

Reference

https://zh.wikipedia.org/wiki/Unicode

https://zh.wikipedia.org/wiki/UTF-8
https://en.wikipedia.org/wiki/UTF-16
https://en.wikipedia.org/wiki/Java_class_file
https://msdn.microsoft.com/en-us/library/cc194914.aspx

https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97%E5%86%85%E7%A0%81%E6%89%A9%E5%B1%95%E8%A7%84%E8%8C%83