1. URL编码 java提供了URLEncoder,URLDecoder类
eg:
import java.io.UnsupportedEncodingException; import java.net.URLDecoder; import java.net.URLEncoder; public class EncoderDemo { public static void main(String[] args){ try { String url = "http://www.vjia.com/StyleDetail_244413_1083850_0/【Justyle】NanZhuangShiShangBaiDaBaoNuanZhuangSeLiLingZhuaRongWeiYi40113027.html"; System.out.println("url:"+url); String eurl = URLEncoder.encode(url,"utf-8"); System.out.println("eurl:"+eurl); String durl = URLDecoder.decode(url,"utf-8"); System.out.println("durl:"+durl); } catch (UnsupportedEncodingException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
2. HTML编码规则
字符"a"-"z","A"-"Z","0"-"9",".","-","*",和"_" 都不被编码,维持原值,
空格" "被转换为加号"+"。
所有其他的字符都被认为是不安全的,首先都根据指定的编码scheme被转换为1个或者多个字节
然后每个字节都被表示成"%xy"格式的由3个字符组成的字符串,xy是字节的2位16进制的表达,推荐的编码scheme为UTF-8.
所以URL中只要包含有不安全的字符都必须编码,服务端自动解码.
但是有些网站的URL确实又包含中文等不安全字符.一个是浏览器可能会自动编码,还有个就是在服务端处理.