做爬蟲的時候,拿到的頁面有可能大面積出現類似這樣的字元dddd;hhhh;name; htm,這些字元是htmll、xml 等 sgml 類語言的轉義序列(escape sequence)。它們不是「編碼」。
以 html 為例,這三種轉義序列都稱作 character reference:
numeric character reference(ncr),直譯就是數字字元引用。乙個numeric character reference編碼是由乙個與號(&)跟著乙個井號(#),然後跟著這個字元的unicode編碼值,最後跟著乙個分號組成的,就像上面的例子一樣。
有了數字字元引用,就可以在網頁中顯示unicode字元了,不用考慮html檔案本身的編碼,因為數字字元引用只用到ascii字符集裡的字元。所以,即使在gb2312編碼的網頁中,也可以用ncr顯示埃及的象形文本了。
如何在python中處理開頭的字串呢?
# coding=utf-8
def dec(a):
# 開頭 解碼 : 以 或 開頭的字串叫做 ncr 字元
# 通過 py2.x下的htmlparser 或 py3.x下的html 的 unescape() 方法來轉換成能看懂的中文字元
aa = a.replace(';', '').replace('', '\\u').encode('utf-8').decode('unicode_escape')
print(aa)
ms touch action是什麼呢
規定使用者能否以及如何操作頁面上的指定區域 注意 在ie11使用屬性,在ie10應使用 ms touch action,ie10之前的瀏覽器不支援 語法 touch acion auto none pan x pan y pinch zoom manipulation double tap zoom...
IPO是什麼呢?
ipo initial public offering 首次公開募股,指的是一家企業或者是股份 將自己的股份第一次向大眾 在這之前,有限責任公司需要將自己的公司身份轉變為股份 一般來說,在公司ipo之後,該公司就可以在 交易所或者是 系統申請掛牌交易。好處募集資金,吸引投資者 增強流通性 提高知名度...
cookies是什麼呢?
cookies現在經常被大家提到,那麼到底什麼是cookies,它有什麼作用呢?cookies是資料報,可以讓網頁具有記憶功能,在某台電腦上記憶一定的資訊。cookies的工作原理是,第一次由伺服器端寫入到客戶端的系統中。以後每次訪問這個網頁,都是先由客戶端將cookies傳送到伺服器端,再由伺服器...