將ncr
字元轉換成真實字元
以或
開頭的字串叫做
ncr
字元,在瀏覽器中檢視會直接轉換成中文
。
在爬蟲中使用 lxml 解析得到網頁內容的html**時,網頁中的中文都會顯示成ncr
字元的形式。
通過 xpath 或 pyquery 獲得的網頁的html字串中的中文會變成形如「不同的出行方式」 的格式,可通過 py2.x下的htmlparser 或 py3.x下的html 的unescape()
方法來轉換成能看懂的中文字元。
解決方法:
# python 2.6-3.3
# you can use the html parser from the standard lib
# python 2.6-2.7
import htmlparserh = htmlparser.htmlparser(
)# python 3.0-3.5import html.parserh = html.parser.htmlparser()
# python 2.6-3.5 (with six)
from six.moves import html_parserh = html_parser.htmlparser(
)print
(h.unescape(
"不同的出行方式,體驗是不一樣的。")
)#不同的出行方式,體驗是不一樣的。
# python 3.4+ htmlparser.unescape is deprecated, and was supposed to be removed in 3.5, although it was left in by mistake.
it will be removed from the language soon.
instead, use html.unescape():
import html
print
(html.unescape(
'£682m'
))
php轉為數字,php中如何將字元轉為數字
php中將字元轉為數字的方法是 可以使用intval 函式來實現。該函式通過使用指定的進製base轉換,返回變數的integer數值。具體使用方法如 echo intval 42 此時會輸出整數42。intval 函式用於獲取變數的整數值。intval 函式通過使用指定的進製 base 轉換 預設是...
python 將列表中的字串轉為數字
有乙個數字字元的列表 numbers 1 5 10 8 想要把每個元素轉換為數字 numbers 1,5,10,8 用乙個迴圈來解決 new numbers for n in numbers int n numbers new numbers 有沒有更簡單的語句可以做到呢?1.numbers int...
DB2中將date型別轉為字串
可以使用char date,varchar date,方法來將date轉為char varchar,如果不使用第二個引數 eg char date 則預設返回yyyy mm dd的格式。db2中並不支援自定義格式,只是提供了為數不多的幾種格式如usa mm dd yyyy eur dd.mm.yyy...