python 爬蟲,將所爬到的資料儲存在.txt檔案中
import urllib.request
import re
response = urllib.request.urlopen("")
#url為將來要爬去的資料的****
html = response.read()
html = html.decode("gbk")
#decode將爬到的資料編碼方式改變
lst = re. findall('(北京|上海|廣州|深圳).*\s*(\d*\.?\d*)-(\d*\.?\d*)(\w)/(.*)',html)
#正規表示式是匹配所要爬去資料的關鍵,根據所要爬取的資料寫出正確的正規表示式
file = open("d:\\1.txt","w")
for i in lst:
min = float(i[1])
max = float(i[2])
if i[3] == "千":
min /= 10
max /= 10
if i[4] == "年":
min /= 12
max /= 12
file.write("%s\t%s\t%.2f\t%.2f\t%s\t" % ("python",i[0],min,max,"萬/月"))
file.write("\n")
#單位轉換
file.close()
python爬蟲所遇問題列舉
1 通過python socket庫來構造請求報文,向伺服器傳送請求時 remote address 183.61.138.62 443 raddr 183.61.138.62 80 80表示http協議預設埠,443表示https協議預設埠 2 在瀏覽器中輸入位址,然後除錯network視窗發現,...
Python爬蟲 將爬取的資料存入excle
本性專案從淘車網爬取資料並將爬下來的資料生成excle 安裝 lxml和xlsxwriter庫的時候飄紅,從terminal和python interpreter安裝都不行,最後試了試cmd 好像是先從cmd用清華映象裝,再從python interpreter裝,剛開始python interpr...
利用Python爬取朋友圈資料,爬到你開始懷疑人生
人生最難的事是自我認知,用python爬取朋友圈資料,讓我們重新審視自己,審視我們周圍的圈子。文 朱元祿 資料分析 jacky 哲學的兩大問題 1 我是誰?2 我們從 來?本文 jacky試圖用python,資料化 聚類化我們的人格標籤,試圖回答 我是誰?這個哲學問題。一 確定資料來源 自我認知,很...