首先,說說 jsp/servlet 中的幾個編碼的作用
在jsp/servlet
中主要有以下幾種設定編碼的方式:
pageencoding ="utf-8"
contenttype = "text/html;charset=utf-8"
request.setcharacterencoding("utf-8")
response.setcharacterencoding("utf-8")
其中前兩個只能用於jsp 中,而後兩個可以用於jsp 和 servlet 中。
1、pageencoding="utf-8" 的作用是設定 jsp 編譯成 servlet 時使用的編碼
眾所周知,jsp 在伺服器上是要先被編譯成 servlet 的。pageencoding="utf-8" 的作用就是告訴 jsp 編譯器在將 jsp 檔案編譯成 servlet 時使用的編碼。通常,在jsp 內部定義的字串(直接在 jsp 中定義,而不是從瀏覽器提交的資料)出現亂碼時,很多都是由於該引數設定錯誤引起的。例如,你的jsp 檔案是以gbk 為編碼儲存的,而在jsp 中卻指定pageencoding="utf-8" ,就會引起jsp 內部定義的字串為亂碼。
另外,該引數還有乙個功能,就是在jsp中不指定 contenttype 引數,也不使用response.setcharacterencoding 方法時,指定對伺服器響應進行重新編碼的編碼。
2、contenttype="text/html;charset=utf-8" 的作用是指定對伺服器響應進行重新編碼的編碼
在不使用 response.setcharacterencoding 方法時,用該引數指定對伺服器響應進行重新編碼的編碼。
3、request.setcharacterencoding("utf-8")
的作用是設定對客戶端請求進行重新編碼的編碼。
該方法用來指定對瀏覽器傳送來的資料進行重新編碼(或者稱為解碼)時,使用的編碼。
4、response.setcharacterencoding("utf-8")
的作用是指定對伺服器響應進行重新編碼的編碼。
伺服器在將資料傳送到瀏覽器前,對資料進行重新編碼時,使用的就是該編碼。
其次,要說一說瀏覽器是怎麼樣對接收和傳送的資料進行編碼的
response.setcharacterencoding("utf-8") 的作用是指定對伺服器響應進行重新編碼的編碼。同時,瀏覽器也是根據這個引數來對其接收到的資料進行重新編碼(或者稱為解碼)。所以在無論你在 jsp 中設定 response.setcharacterencoding("utf-8") 或者response.setcharacterencoding ("gbk") ,瀏覽器均能正確顯示中文(前提是你傳送到瀏覽器的資料編碼是正確的,比如正確設定了pageencoding 引數等)。可以做個實驗,在jsp 中設定response.setcharacterencoding("utf-8") ,在 ie 中顯示該頁面時,在 ie 的選單中選擇" 檢視(v)"-->" 編碼(d)" 中可以檢視到是" unicode(utf-8)" ,而在在jsp 中設定response.setcharacterencoding("gbk") ,在 ie 中顯示該頁面時,在 ie 的選單中選擇" 檢視(v)-->
編碼(d)" 中修改),但通常情況下,修改該引數會使原本正確的頁面中出現亂碼。乙個有趣的例子是,在 ie 中瀏覽 google 的主頁時,將瀏覽器編碼修改為"簡體中文(gb2312)" ,此時,頁面上的中文會變成亂碼,不理它,在文字框中輸入"漢字",提交,google 會將其編碼為"%ba%ba%d7%d6" ,可見,瀏覽器在對中文進行url 編碼時,使用的就是瀏覽器編碼。
弄清了瀏覽器是在接收和傳送資料時,是如何對資料進行編碼的了,再來看看伺服器是在接收和傳送資料時,是如何對資料進行編碼的。
對於傳送資料,伺服器按照response.setcharacterencoding—>contenttype—>pageencoding 的優先順序,對要傳送的資料進行編碼。
對於接收資料,要分三種情況。一種是瀏覽器直接用url提交的資料,另外兩種是用表單的get 和 post 方式提交的資料。
因為各種 web 伺服器對這三種方式的處理也不相同,所以我們以 tomcat5.0 為例。
無論使用那種方式提交,如果引數中包含中文,瀏覽器都會使用當前瀏覽器編碼對其進行 url 編碼。
對於表單中 post 方式提交的資料,只要在接收資料的 jsp 中正確request.setcharacterencoding 引數,即將對客戶端請求進行重新編碼的編碼設定成瀏覽器編碼,就可以保證得到的引數編碼正確。有人可能會問,那如何得到瀏覽器編碼呢?上面提過了,在預設請情況下,瀏覽器編碼就是你在響應該請求的 jsp 頁面中response.setcharacterencoding 設定的值。所以對於 post 表單提交的資料,在獲得資料的jsp 頁面中 request.setcharacterencoding 要和生成提交該表單的jsp頁面的 response.setcharacterencoding 設定成相同的值。
對於 url 提交的資料和表單中 get 方式提交的資料,在接收資料的 jsp 中設定 request.setcharacterencoding 引數是不行的,因為在 tomcat5.0 中,預設情況下使用iso-8859-1 對 url 提交的資料和表單中 get 方式提交的資料進行重新編碼(解碼),而不使用該引數對 url 提交的資料和表單中 get 方式提交的資料進行重新編碼(解碼)。要解決該問題,應該在 tomcat 的配置檔案的 connector 標籤中設定usebodyencodingforuri 或者 uriencoding 屬性,其中 usebodyencodingforuri 引數表示是否用 request.setcharacterencoding 引數對 url 提交的資料和表單中 get 方式提交的資料進行重新編碼,在預設情況下,該引數為 false (tomcat4.0 中該引數預設為true );uriencoding 引數指定對所有 get 方式請求(包括 url 提交的資料和表單中get 方式提交的資料)進行統一的重新編碼(解碼)的編碼。uriencoding 和 usebodyencodingforuri 區別是,uriencoding 是對所有 get 方式的請求的資料進行統一的重新編碼(解碼),而 usebodyencodingforuri 則是根據響應該請求的頁面的request.setcharacterencoding 引數對資料進行的重新編碼(解碼),不同的頁面可以有不同的重新編碼(解碼)的編碼。所以對於 url 提交的資料和表單中 get 方式提交的資料,可以修改 uriencoding 引數為瀏覽器編碼或者修改 usebodyencodingforuri 為true ,並且在獲得資料的 jsp 頁面中 request.setcharacterencoding 引數設定成瀏覽器編碼。
下面總結下,以 tomcat5.0 為 web 伺服器時,如何防止中文亂碼
對於同乙個應用,最好統一編碼,推薦為 utf-8 ,當然 gbk 也可以。
正確設定 jsp 的 pageencoding 引數
在所有的jsp/servlet 中設定 contenttype="text/html;charset=utf-8" 或response.setcharacterencoding("utf-8") ,從而間接實現對瀏覽器編碼的設定。
對於請求,可以使用過濾器或者在每個 jsp/servlet 中設定request.setcharacterencoding ("utf-8") 。同時,要修改 tomcat 的預設配置,推薦將 usebodyencodingforuri 引數設定為 true ,也可以將 uriencoding 引數設定為 utf-8 (有可能影響其他應用,所以不推薦.)。
jsp servlet編碼原理
首先,說說 jsp servlet 中的幾個編碼的作用 在 jsp servlet 中主要有以下幾種設定編碼的方式 pageencoding utf 8 jsp contenttype text html charset utf 8 jsp request.setcharacterencoding ...
JSP Servlet的編碼原理
關鍵字 jsp,servlet編碼 首先,說說 jsp servlet 中的幾個編碼的作用 在 jsp servlet 中主要有以下幾種設定編碼的方式 pageencoding utf 8 contenttype text html charset utf 8 request.setcharacte...
JSP Servlet的編碼原理
首先,說說jsp servlet中的幾個編碼的作用 在jsp servlet中主要有以下幾種設定編碼的方式 pageencoding utf 8 contenttype text html charset utf 8 request.setcharacterencoding utf 8 respon...