爬**解決亂碼問題:
今天給朋友爬了一本**: 雖然沒有什麼反爬,但是爬取到的內容一直是亂碼。
解決方法: 對獲取到的文字編碼,不能是『gbk』 也不能是』utf-8』
源**:
import requests
from lxml import etree
import time
headers =
url =
""response = requests.get(url, headers)
.text
# print(response)
res = etree.html(response)
hrefs_list = res.xpath(
'//dl//dd/a/@href'
)# print(hrefs_list)
for href in hrefs_list:
url =
""+href
print
(url)
response = requests.get(url, headers)
.text.encode(
'iso-8859-1'
) res = etree.html(response)
title = res.xpath(
'//div[@class="bookname"]/h1/text()')[
0]content = res.xpath(
'//div[@id="content"]//text()'
) content_list =
for text in content:
with
open
('./** 聖墟/'
+title +
'.txt'
,'w+'
, encoding=
'utf-8'
)as f:
content =
''.join(content_list)
print
('正在儲存'
+ title)
f.write(content)
time.sleep(
0.3)
**沒有任何反爬。只是給小白看的。 動態規劃 最大K乘積問題 C 附原始碼 演算法
問題描述 設i是乙個n位十進位制整數。如果將i劃分為k段,則可得到k個整數。這k個整數的乘積稱為i的乙個k乘積。試設計乙個演算法,對於給定的i和k,求出i的最大k乘積。例如十進位制整數 1234 劃分為 3 段可有如下情形 1 2 34 68 1 23 4 92 12 3 4 144 144即為所求...
從原始碼角度 解決Volley框架亂碼的問題
用volley框架,解析json 發現了亂碼問題。但是伺服器的有不願 意改,只能看原始碼改了。請參考 volley框架有三個方法 stringrequest jsonarrayrequest jsonobjectrequest 發下他們分別都是繼承了jsonrequest 類 然後呢我們又發現 js...
PHP京東商城爬取網頁亂碼問題解決
最近公司要求做天貓和京東的店鋪爬取,天貓店鋪磕磕碰碰算是出了結果,然而進行到京東時確發現無論是file get contents 還是 curl,爬下來的網頁總是會是寫莫名其妙的文字,並不是常規的亂碼,所以判斷可能是京東伺服器對網頁做了處理,首先懷疑是不是被加密了,如果是加密就需要找到加密規則,那這...