java中的file.encoding属性到底由什么决定？

首先先上一段代码：


     
     
      
      
       
       
        
        
       
       
       
       
        
        
         
         public 
         
         class PropertiesTest {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        	
         
         public static void main(String[] args) {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         		System.out.println(
         
         "file.encoding:"+System.getProperty(
         
         "file.encoding"));
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         		System.out.println(
         
         "sun.jnu.encoding:"+System.getProperty(
         
         "sun.jnu.encoding"));
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        		
         
         // Properties pro = System.getProperties();
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        		
         
         // Set<Entry<Object,Object>> entrySet = pro.entrySet();
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        		
         
         // for(Entry<Object,Object> entry :entrySet){
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        		
         
         // System.out.println(entry.getKey()+":"+entry.getValue());
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        		
         
         // }
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         	}
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         }

这段代码会打印出file.encoding属性和sun.jnu.encoding属性的值，注释部分会依次打印所有的属性的值。

那么java中的file.encoding属性和sun.jnu.encoding属性到底是什么？从哪里来？干什么用？网上查了查，其中大多语焉不详，不清不楚，于是决定自己动手，来一探究竟。

咱们首先来看这两个属性干什么用。毕竟先知道它们有什么用才有必要关心它们从哪里来。

来看看我在eclipse中运行上面代码的结果：

再来看一段代码：


     
     
      
      
       
       
        
        
       
       
       
       
        
        
         
         import java.io.UnsupportedEncodingException;
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
         
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         public 
         
         class PropertiesTest {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        	
         
         public static void main(String[] args) throws UnsupportedEncodingException {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         		System.out.println(
         
         "file.encoding:" + System.getProperty(
         
         "file.encoding"));
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         		System.out.println(
         
         "sun.jnu.encoding:" + System.getProperty(
         
         "sun.jnu.encoding"));
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         		encodingTest();
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         	}
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
         
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        	
         
         private static void encodingTest() throws UnsupportedEncodingException {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         		String s = 
         
         "我们是中国人";
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        		
         
         //如果使用不带参数的getBytes()肯定不会乱码的
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        		
         
         byte[] bytes = s.getBytes(
         
         "utf-8");
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         		String s2 = 
         
         new String(bytes);
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         		System.out.println(s2);
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         	}
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
         }

这里先将String转换成bytes，再利用bytes构造一个String，如果getBytes()和new String(bytes)都不带编码肯定不会乱码，因为都会采用默认编码，方法的说明如下：

运行结果如图：中文打印正常

修改getBytes()为getBytes("utf-8")，结果中文依然正常

再次修改为：getBytes("GBK")，结果中文显示乱码：

这样看来，似乎默认的编码就是UTF-8，为了进一步证明猜想，我们来跟踪一下源码：


     
     
      
      
       
       
        
        
       
       
       
       
        
        
         
         public 
         
         byte[] getBytes() {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                
         
         return StringCoding.encode(value, 
         
         0, value.length);
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
             }

继续跟进encode方法：


     
     
      
      
       
       
        
        
       
       
       
       
        
        
         
         static 
         
         byte[] encode(
         
         char[] ca, 
         
         int off, 
         
         int len) {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                 String csn = Charset.defaultCharset().name();
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                
         
         try {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         // use charset name encode() variant which provides caching.
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         return encode(csn, ca, off, len);
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                 } 
         
         catch (UnsupportedEncodingException x) {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                     warnUnsupportedCharset(csn);
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                 }
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                
         
         try {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         return encode(
         
         "ISO-8859-1", ca, off, len);
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                 } 
         
         catch (UnsupportedEncodingException x) {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         // If this code is hit during VM initialization, MessageUtils is
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         // the only way we will be able to get any kind of error message.
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                     MessageUtils.err(
         
         "ISO-8859-1 charset not available: "
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                                      + x.toString());
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         // If we can not find ISO-8859-1 (a required encoding) then things
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         // are seriously wrong with the installation.
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                     System.exit(
         
         1);
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         return 
         
         null;
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                 }
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
             }

这里的defaultcharset应该返回了一个Charset对象，继续跟进：


     
     
      
      
       
       
        
        
       
       
       
       
        
        
         
         public static Charset defaultCharset() {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                
         
         if (defaultCharset == 
         
         null) {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                    
         
         synchronized (Charset.class) {
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                         String csn = AccessController.doPrivileged(
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                            
         
         new GetPropertyAction(
         
         "file.encoding"));
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                         Charset cs = lookup(csn);
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                        
         
         if (cs != 
         
         null)
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                             defaultCharset = cs;
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                        
         
         else
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                             defaultCharset = forName(
         
         "UTF-8");
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                     }
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
                 }
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
                
         
         return defaultCharset;
        
        
       
       
      
      
       
       
        
        
       
       
       
       
        
        
         
             }

可以看到，这里获取了file.encoding属性，并通过该属性查找到了对应的Charset对象，如果找不到该属性所对应的Charset，就默认返回utf-8（所有Charset名字的参数均大小写等价）Charset。说明在值合理的情况下，file.encoding属性确实决定了所谓的默认编码。至于sun.jnu.encoding属性的用处，由于使用较少，容我先卖个关子，下一篇介绍^_^。

知道了作用，并且作用不小，那我们来看看到底是什么决定了file.encoding属性。

（PS：通常情况下为了保证程序run everywhere并且保持运行结果一致，不建议在程序中使用默认编码，应该直接指定编码）。

网上很多人给出的答案是：main方法所在类文件的编码决定了file.encoding属性。

我们来验证一下：

选中Explorer区域的类文件或将光标置于类文件编辑页，alt+enter打开类文件的属性页，可以看到我的设置

确实是utf-8，所以之前我的file.encoding属性就是utf-8了，现在修改该属性，

修改完成后，毫无疑问，中文都乱码了，运行程序，看看运行结果：

果然，file.encoding属性变成“ISO-8859-1”了。

再修改设置，改成US-ASCII，执行后果然file.encoding属性的值就变成了”US-ASCII“。

那么结论就是：file.encoding的属性值就是main方法所在类文件的编码。网友们果然机智。

但是，这样就可以下结论了吗？

我们现在是通过eclipse执行，就像隔靴搔痒，总感觉差点意思。要真正李菊福，还是要到控制台去。

将文件改回utf-8编码，消除文件中的中文乱码，getBytes和new String(bytes)依然使用不带编码的默认编码形式，接着我们直接在控制台编译并执行代码：

奇怪的现象出现了，和第一次在eclipse中执行的是一样的代码，但是运行结果居然变了，file.encoding的值变成了”GBK“，可是main方法所在类的编码明明是“UTF-8”。还有中文乱码了。这都是什么情况？？

乱码一会儿再说，先看file.encoding的变化，file.encoding变成”GBK“了，而文件的编码是utf-8才对，这样看来，之前所谓的结论似乎并不靠谱。

我们继续尝试在运行时直接指定file.encoding的属性，加上运行时参数”-Dfile.encoding=utf-8“:

这次file.encoding的值变了，变成了utf-8，说明file.encoding确实可以被设置，我们在设置一个不存在编码名试试看：

好吧，这都行，并且乱码始终没有变化。到这里我们可以看出：file.encoding可以设置为任意值。并且这次乱码问题不是出在file.encoding属性上。

到这里，我们就可以猜测，在eclipse中，之所以file.encoding属性和main方法所在类的编码一致，是因为在启动java虚拟机时,eclipse自动将文件属性中的编码设置为运行时参数。

我们知道一个文件是以二进制形式存储在硬盘中的，我们先以utf-8编码存储了java文件，然后手动javac，因为我们并没有指定编码，这时系统是不知道用什么编码来解析文件的，所以只能采用系统默认编码（这个是windows系统的默认编码，和之前提到的JVM默认编码不是一回事），我们查看windows的默认编码：

这里936表示默认编码为GBK。

那么显然问题就出在这里，文件以utf-8编码保存，如果以GBk解析，不乱码才怪呢。于是增加编译参数”-encoding utf-8“，重新编译运行：

可以看到，运行时file.encoding值依然为GBK，但是不乱码了，说明乱码确实是编译过程中引入的，运行过程没有问题。

我们可以通过以下方式再次验证，回到eclipse，我们试着修改一下代码，并重新运行：

可以看到此时的乱码和上面的一样。证明”鎴戜滑鏄腑鍥戒汉“确实是由于”我们是中国人“以utf-8格式保存，以GBK读取所致。

只不过在之前这个错误发生在编译过程中，编译完成后字符串就已经变成”鎴戜滑鏄腑鍥戒汉“。运行过程中没有问题。

而这一次，eclipse的编译没问题。不过在程序中将”我们是中国人“先以utf-8转成字节，再以GBk转换成字符串，同样产生了乱码。

由此，我们可以猜测，eclipse在编译和运行的过程中都会默认地帮我们添加上相应的编码参数，这个参数和main方法所在类的编码一致。